이산확률분포 완전 정복 — 이항분포·포아송분포와 매개변수를 3단계로 이해하는 법

이산확률분포를 배우다 보면 반드시 막히는 지점이 있다. 바로 매개변수다. 이항분포에는 n과 p가 있고, 포아송분포에는 λ(람다)가 있다. 그런데 이게 왜 필요한지, 어디서 오는 건지 설명 없이 공식만 던지면 머릿속에 아무것도 남지 않는다. 이산확률분포는 매개변수의 역할부터 잡으면 나머지가 자연스럽게 따라온다.

이 글에서는 이산확률분포의 두 축인 이항분포와 포아송분포를 매개변수 개념 중심으로 정리한다. 공식을 외우는 게 목적이 아니라, “이 숫자가 왜 있어야 하는가”를 이해하는 것이 목표다.

매개변수란 무엇인가 — 분포의 모양을 결정하는 입력값

확률분포는 수학식으로 표현된 히스토그램이다. 실제 데이터를 잔뜩 모아 히스토그램을 그렸더니 비슷한 모양이 반복되더라는 관찰에서 출발했고, 수학자들이 그 모양을 공식으로 정의한 것이다.

그런데 같은 종류의 분포라도 모양이 조금씩 다를 수 있다. 이항분포라고 해도 실험 횟수가 3번인 경우와 100번인 경우는 분포 모양 자체가 달라진다. 이때 분포의 모양을 결정하는 입력값을 매개변수(Parameter)라고 부른다.

쉽게 말하면 이렇다. 확률분포는 하나의 함수다. 함수가 작동하려면 입력값이 있어야 한다. 그 입력값이 매개변수다. 매개변수가 주어지지 않으면 확률을 계산할 수 없다. 이항분포는 n과 p라는 두 개의 매개변수가 필요하고, 포아송분포는 λ 하나만 있으면 된다.

분포매개변수의미
이항분포n, p시행 횟수 / 한 번 시행 시 성공 확률
포아송분포λ(람다)단위 시간·면적당 평균 발생 횟수

이 구분이 머릿속에 자리 잡히면 두 분포를 헷갈리지 않는다.

이항분포 — 베르누이 시행을 n번 반복했을 때

이산확률분포의 출발점: 베르누이 시행

이항분포를 이해하려면 먼저 베르누이 시행을 알아야 한다. 베르누이 시행이란 한 번 실험했을 때 결과가 딱 두 가지만 나오는 실험이다. 성공 아니면 실패, 정상 아니면 불량, 안타 아니면 아웃. 이처럼 결과가 이진(binary)으로 떨어지는 실험이 베르누이 시행이다.

여기서 중요한 개념이 하나 있다. “성공”은 좋은 결과를 의미하지 않는다. 내가 관심 있는 사건이 성공이다. 제조 현장에서 불량 발생에 관심이 있다면, 불량이 나오는 것이 성공이다. 말이 좀 이상하지만 확률 계산에서는 이렇게 정의한다. 성공 확률을 p, 실패 확률을 q = 1-p로 표기한다.

이항분포의 정의

베르누이 시행을 n번 반복했을 때, 성공 횟수 X가 어떤 분포를 따르는지 기술하는 것이 이항분포다. “제품을 100개 생산할 때 불량이 몇 개 나올까?” 이 질문에 답하는 도구가 이항분포다.

이산확률분포이므로 X는 0, 1, 2, … n 중 하나의 값을 가진다. 각 값에 대한 확률은 아래 식으로 계산한다.

$$P(X = x) = \binom{n}{x} p^x q^{n-x}$$

공식보다 구조가 중요하다. 성공이 x번, 실패가 n-x번 나오는 확률에 그 경우의 수(조합)를 곱한 것이다.

F1 레이스에서 이런 상황을 상상해보자. 3경기 연속으로 출전하는 드라이버가 있다. 각 경기에서 세이프티카가 투입될 확률은 독립적으로 p로 동일하다. 이 드라이버가 3경기 중 정확히 1경기에서 세이프티카를 만나는 경우를 계산하려면, 1경기에서 만나든 2경기에서 만나든 3경기에서 만나든 세 가지 경우를 모두 더해야 한다. 각각의 경우는 독립적으로 발생하기 때문이다. 조합(C)이 바로 이 경우의 수를 한 번에 계산해주는 역할을 한다.

이 시나리오는 개념 설명을 위한 가상의 상황입니다. 실제 F1 팀의 전략과 다를 수 있습니다.

이항분포의 매개변수: n과 p

이항분포로 확률을 계산하려면 반드시 두 가지 정보가 있어야 한다.

매개변수의미현장 예시
n베르누이 시행 횟수생산한 제품 수
p한 번 시행 시 성공(관심 사건) 확률과거 데이터 기반 불량 발생률

n과 p가 주어지면 이항분포가 완전히 정의된다. n=3, p=0.1이면 “3개 중 불량이 몇 개 나오는가”에 대한 모든 확률을 계산할 수 있다.

아래 수치는 개념 설명을 위한 임의의 수치입니다.

예를 들어 n=3, p=0.1일 때 불량이 정확히 1개 나올 확률은 아래와 같다.

$$P(X=1) = \binom{3}{1}(0.1)^1(0.9)^2 = 3 \times 0.1 \times 0.81 = 0.243$$

이항분포의 평균과 분산

통계량공식n=3, p=0.1 예시
평균np3 × 0.1 = 0.3
분산npq3 × 0.1 × 0.9 = 0.27

평균이 np라는 건 직관적으로 납득된다. 3번 시행해서 성공 확률이 0.1이면 평균적으로 0.3번 성공한다는 뜻이다.

이산확률분포 매개변수 람다와 이항분포 n p 구조 비교 다이어그램

포아송분포 — 단위 시간·면적 안에서 사건이 몇 번 일어나는가

포아송분포의 확률변수

포아송분포의 확률변수는 일정 시간 또는 일정 면적 안에서 사건이 발생하는 횟수다. “1시간 동안 전화가 몇 건 수신되는가”, “하루 동안 특정 교차로에서 사고가 몇 건 발생하는가” — 이런 질문에 쓰는 분포다.

이항분포와 핵심적인 차이가 있다. 이항분포는 “n번 시행”이라는 시행 횟수가 명확히 존재한다. 반면 포아송분포는 시행 횟수가 없다. 시간이나 면적이라는 연속적인 단위 안에서 사건이 얼마나 일어나는지를 본다. 표본 분포를 이미 다뤘다면 이 개념이 좀 더 자연스럽게 연결될 것이다.

포아송분포의 매개변수: λ(람다)

포아송분포의 매개변수는 λ(람다) 하나다. λ는 단위 시간 또는 단위 면적당 평균 발생 횟수를 의미한다.

“시간당 평균 4개의 불량이 발생한다” → λ = 4

λ가 주어지면 포아송분포가 완전히 정의된다. 이항분포에서 n과 p 두 개가 필요했던 것과 달리, 포아송분포는 λ 하나로 충분하다. 이것이 두 분포의 가장 큰 구조적 차이다.

확률 계산식은 아래와 같다.

$$P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}$$

포아송분포의 평균과 분산

포아송분포에는 흥미로운 특성이 있다. 평균과 분산이 모두 λ로 같다.

통계량공식
평균λ
분산λ

평균이 λ인 건 당연하다. λ 자체가 “평균 발생 횟수”로 정의됐으니까. 분산도 λ와 같다는 건 증명이 필요하지만, 결론만 기억해두면 된다. 포아송분포에서 평균과 분산이 같다면, 실제 데이터의 분산이 평균보다 훨씬 크다면 포아송분포가 맞지 않을 수 있다는 신호다.

포아송분포의 활용 예시

아래 수치는 개념 설명을 위한 임의의 수치입니다.

F1 레이스에서 이런 상황을 상상해보자. 레이스 중 피트월과 드라이버 사이의 무전 교신이 1시간에 평균 3회 발생한다고 하자. 여기서 λ = 3이다. 이때 특정 1시간 구간에서 무전 교신이 단 한 건도 없을 확률은 다음과 같다.

$$P(X=0) = \frac{e^{-3} \times 3^0}{0!} = e^{-3} \approx 0.050$$

약 5%다. 반대로 무전이 정확히 2회 발생할 확률은 아래와 같다.

$$P(X=2) = \frac{e^{-3} \times 3^2}{2!} = \frac{0.050 \times 9}{2} \approx 0.224$$

λ 하나만 있으면 단위 시간 내 모든 횟수에 대한 확률을 계산할 수 있다. 이것이 포아송분포 매개변수의 핵심이다.

이항분포 vs 포아송분포 — 매개변수로 구분하는 법

두 분포를 헷갈릴 때 가장 빠른 구분법은 매개변수를 보는 것이다.

구분 기준이항분포포아송분포
확률변수n번 시행 중 성공 횟수단위 시간·면적 내 발생 횟수
매개변수n(시행 횟수), p(성공 확률)λ(평균 발생 횟수)
시행 횟수명확히 존재 (n번)없음 (연속 단위)
평균npλ
분산npqλ
현장 활용불량 개수 계산 (n개 중 몇 개)단위당 불량 발생 확률 계산

질문이 “n개 중에서 몇 개가 불량인가”라면 이항분포다. 질문이 “단위 시간 또는 단위 면적 안에서 불량이 몇 번 발생하는가”라면 포아송분포다. 이 기준 하나만 기억해도 현장에서 어떤 분포를 쓸지 판단할 수 있다.

자유도 통계에서 분포의 모양이 매개변수에 따라 어떻게 바뀌는지도 함께 보면 이산확률분포의 이해가 한 층 깊어진다.

핵심 요약

  • 이산확률분포는 이산형 확률변수의 분포를 수학식으로 정의한 것이다
  • 매개변수는 분포의 모양을 결정하는 입력값으로, 주어지지 않으면 확률 계산이 불가능하다
  • 이항분포의 매개변수는 n(시행 횟수)과 p(성공 확률), 확률변수는 성공 횟수
  • 포아송분포의 매개변수는 λ(평균 발생 횟수) 하나, 확률변수는 단위 시간·면적 내 발생 횟수
  • 포아송분포는 평균과 분산이 모두 λ로 같다는 특성이 있다

[링크 제안]

이산확률분포의 매개변수 개념을 잡았다면, 다음 질문은 “이 데이터가 정말 이 분포를 따르는가”다.

통계적 추론의 큰 그림이 궁금하다면 아래 글도 이어서 읽어보길 권한다.

이산확률분포를 더 깊이 공부하고 싶다면 위키피디아 확률분포 문서에서 전체 분포 체계를 확인할 수 있다.

FAQ

이산확률분포는 확률변수가 셀 수 있는 값(0, 1, 2, 3…)을 가질 때 쓴다. 불량 개수, 사고 횟수처럼 딱 떨어지는 값이다. 연속확률분포는 키, 무게, 온도처럼 어떤 값도 가질 수 있는 연속형 데이터에 쓴다. 이항분포와 포아송분포는 모두 이산확률분포에 속한다.

현장에서는 과거 데이터에서 추정한다. 이항분포의 p는 과거 불량률(불량 수 ÷ 전체 생산 수)로 추정하고, 포아송분포의 λ는 단위 시간 또는 단위 면적당 평균 발생 횟수를 데이터로 계산해서 넣는다. 매개변수를 잘못 추정하면 분포 자체가 현실과 달라지므로 데이터 품질이 중요하다.

“n번 생산했을 때 불량이 몇 개 나오는가”처럼 시행 횟수가 명확하면 이항분포다. “시간당 또는 단위 면적당 불량이 평균 몇 개 발생하는가”처럼 시간이나 면적 단위로 접근하면 포아송분포다. 시행 횟수가 명확한지 여부가 가장 빠른 판단 기준이다.

관련 글 보기