확률변수 종류 완전 정리 — 이산형과 연속형이 다른 3가지 핵심 이유

F1 레이스에서 이런 상황을 상상해보자.

피트 크루가 다음 랩 타이어 교체 여부를 결정해야 한다. 타이어 교체 횟수는 0번, 1번, 2번처럼 딱 떨어지는 숫자로 셀 수 있다. 반면 타이어 표면 온도는 다르다. 112.3도일 수도, 112.31도일 수도, 112.3100000001도일 수도 있다. 셀 수 없는 무한한 값이 가능하다.

확률변수 종류를 처음 배울 때, 이 두 가지 차이가 핵심이다. 타이어 교체 횟수는 이산 확률변수, 타이어 온도는 연속 확률변수다. 그리고 이 구분에 따라 확률을 다루는 방식 자체가 완전히 달라진다. 이 글에서는 확률변수의 정의부터 시작해서, 이산형과 연속형이 왜 다르게 취급되는지, 그리고 누적 확률분포까지 한 흐름으로 정리한다.

확률변수란 무엇인가

변수(Variable)는 값이 변하는 무언가다. 여기에 확률이라는 조건이 붙으면 확률변수(Random Variable)가 된다. 즉, 확률에 따라 값이 결정되는 변수가 확률변수다.

주사위를 던지면 1에서 6 사이의 눈이 나온다. 어떤 숫자가 나올지는 사전에 알 수 없고, 각각 1/6의 확률로 결정된다. 주사위 눈이 바로 확률변수의 대표적인 예다.

여기서 중요한 개념이 하나 더 나온다. 확률변수가 가질 수 있는 모든 값의 범위를 표본 공간(Sample Space)이라고 부른다. 그리고 확률변수는 이 표본 공간 안의 결과 하나하나를 실수값으로 매핑한 것이다.

예를 들어, 제품 2개를 생산했을 때 불량품의 수를 확률변수 X로 정의하면 아래와 같다.

실험 결과확률변수 X (불량 수)확률
정상, 정상01/4
정상, 불량11/4
불량, 정상11/4
불량, 불량21/4

이렇게 확률변수 X는 0, 1, 2라는 값을 가질 수 있고, 각각의 값에 확률이 대응된다. 이처럼 확률변수가 가질 수 있는 값과 그 확률을 정리한 것이 확률분포(Probability Distribution)다.

한 가지 주의할 점이 있다. 확률변수는 분석하는 사람이 직접 정의한다. “불량 수”로 정의하면 0, 1, 2가 되고, “정상과 불량의 차이”로 정의하면 -2, 0, 2가 된다. 어떻게 정의하느냐에 따라 확률변수가 갖는 값과 분포가 달라진다.

확률변수 종류 — 이산형 vs 연속형 비교

확률변수 종류를 결정하는 기준은 하나다. 값이 유한하게 셀 수 있는가, 아니면 무한하게 이어지는가.

구분이산 확률변수연속 확률변수
영문명Discrete Random VariableContinuous Random Variable
값의 특성유한하게 셀 수 있는 값무한히 이어지는 실수값
예시불량품 수, 주문량, 재고 수온도, 압력, 계측값, 키
특정 값의 확률존재함존재하지 않음
확률 계산 방식직접 합산구간 적분

이산 확률변수는 값을 하나씩 셀 수 있다. 불량품이 0개, 1개, 2개처럼 딱 떨어지는 숫자다. 반면 연속 확률변수는 값 사이에 항상 또 다른 값이 존재한다. 온도가 100도라고 측정했더라도, 실제값은 100.000000001도일 수 있다. 무한히 세밀하게 나뉜다.

이 차이가 확률을 다루는 방식을 완전히 바꾼다. 이산형에서는 특정 값의 확률을 직접 계산할 수 있다. 연속형에서는 특정 값의 확률은 원리상 0에 수렴하고, 구간을 설정해 적분해야만 의미 있는 확률을 얻을 수 있다.

이산 확률분포 — 값과 확률을 직접 대응시킨다

이산 확률변수의 확률분포는 비교적 직관적이다. 각 값에 확률을 직접 대응시키면 된다.

아래 수치는 개념 설명을 위한 임의의 수치입니다.

불량품 수 X에 대한 확률분포 예시:

X (불량 수)P(X = x)
01/4
12/4
21/4

이 분포를 표기할 때는 두 가지 방식을 쓴다.

  • P(X = x) — 확률변수 X가 소문자 x값을 가질 확률
  • f(x) — 동일한 의미의 함수 표기

이산 확률분포가 성립하려면 두 가지 조건을 반드시 만족해야 한다.

  1. 모든 값의 확률은 0 이상이다 → f(x) ≥ 0
  2. 모든 값의 확률을 합산하면 1이다 → Σf(x) = 1

위 예시로 확인하면, 1/4 + 2/4 + 1/4 = 1. 조건을 만족한다. 당연한 것 같지만, 이 조건이 확률분포의 정의 자체다.

연속 확률변수 확률밀도함수 구간 적분으로 확률 구하는 구조

연속 확률변수에서 확률밀도함수가 필요한 이유

연속 확률변수에서는 이산형의 방식이 통하지 않는다. 특정 값의 확률이 존재하지 않기 때문이다.

F1 레이스에서 타이어 표면 온도가 정확히 112도일 확률을 구하려 한다고 가정해보자. 측정 장비가 112도를 표시하더라도, 실제 온도는 112.00000001도이거나 111.99999997도일 수 있다. 어떤 정밀한 측정 도구를 써도, 연속형 값에서 “정확히 112도”라는 확률은 수학적으로 0에 수렴한다.

F1 레이싱 Engineering 사례는 설명을 위해 구성한 가상의 시나리오다.
실제 특정 팀이나 드라이버의 데이터를 기반으로 한 것이 아님을 밝혀 둔다.

이 때문에 연속 확률변수에서는 f(x)가 확률이 아니다. 이것을 확률밀도함수(Probability Density Function, PDF)라고 부른다.

구분이산형 f(x)연속형 f(x)
이름확률질량함수확률밀도함수
의미해당 값의 확률해당 지점의 밀도 (확률 아님)
조건f(x) ≥ 0, Σf(x) = 1f(x) ≥ 0, ∫f(x)dx = 1

확률밀도함수는 값이 존재하지만 그 자체가 확률은 아니다. 확률을 구하려면 반드시 구간을 설정하고 적분해야 한다.

예를 들어, 타이어 온도가 110도에서 115도 사이일 확률은 아래처럼 구한다.

P(110 ≤ X ≤ 115) = ∫(110→115) f(x) dx

이 구간 적분값이 비로소 확률이 된다. 특정 점이 아닌, 구간에 대해서만 연속형의 확률이 의미를 갖는다.

이산형과 연속형을 나란히 정리하면:

  • 이산형: P(X = x) = f(x) → f(x)가 확률
  • 연속형: P(X = x) ≈ 0 → f(x)는 밀도, 확률은 구간 적분으로 계산

누적확률분포란 무엇인가 — 쌓이는 방향이 핵심이다

확률분포를 배우면 반드시 따라오는 개념이 **누적확률분포(Cumulative Distribution Function, CDF)**다. 기호는 대문자 F(x)로 쓴다.

누적확률분포는 확률변수 X가 특정 값 x 이하일 확률을 의미한다.

F(x) = P(X ≤ x)

이산형에서는 서메이션(합산)으로 구한다.

F(x) = Σ f(t)  (t ≤ x인 모든 t에 대해)

연속형에서는 적분으로 구한다.

F(x) = ∫(-∞→x) f(t) dt

두 경우 모두 왼쪽 끝에서부터 누적해서 더해 나가는 구조다. 그래프로 보면 왼쪽에서 0으로 시작해 오른쪽으로 갈수록 값이 증가하다가 결국 1에 도달하는 계단형(이산) 또는 S자 곡선(연속) 모양이 된다.

위치F(x) 값의미
맨 왼쪽 끝0아무것도 누적되기 전
중간 어딘가0 ~ 1 사이일부 확률 누적된 상태
맨 오른쪽 끝1전체 확률 누적 완료

이 누적 개념은 나중에 가설검정과 통계적 검정에서 실제로 많이 쓴다. “이 값보다 클 확률이 얼마냐”를 계산할 때 CDF를 거꾸로 활용하기 때문이다.

정리 — 확률변수 종류가 분석 방법을 결정한다

확률변수 종류를 구분하는 이유는 단순한 분류 연습이 아니다. 이산형이냐 연속형이냐에 따라 확률을 계산하는 방법 자체가 달라지기 때문이다.

  • 이산형: 값을 직접 셀 수 있다 → 합산으로 확률 계산
  • 연속형: 값이 무한히 이어진다 → 구간 적분으로 확률 계산, 특정 값의 확률은 0

데이터를 분석할 때, 내가 다루는 변수가 이산형인지 연속형인지를 먼저 파악하는 것이 통계 분석의 출발점이다. 이 구분에서 어떤 분포 모델을 적용할지, 어떤 검정 방법을 쓸지가 결정된다.

[링크 제안]

표본을 뽑는 행위가 왜 통계적으로 의미 있는지 궁금하다면 이 글이 이어진다.

확률분포의 개념을 모집단과 표본 관점에서 다시 확인하고 싶다면 함께 읽으면 좋다.

확률분포와 통계학 전반에 대한 더 넓은 참고자료는 Khan Academy 통계 과정에서 확인할 수 있다.

FAQ

이산형과 연속형은 확률을 계산하는 방식이 다르다. 이산형은 특정 값의 확률을 바로 구할 수 있지만, 연속형은 구간을 정해 적분해야만 확률이 나온다. 분석하는 데이터가 어느 쪽인지에 따라 적용하는 통계 분포 모델(이항분포, 정규분포 등)과 검정 방법이 달라지기 때문에 구분이 필수다.

가능하다. f(x)는 확률이 아니라 밀도이기 때문이다. 확률밀도함수에서 확률은 면적(구간 적분값)으로 정의된다. 밀도값 자체가 1을 넘어도, 전체 구간을 적분했을 때 1이 되면 확률분포의 조건을 만족한다.

가설검정에서 p값을 계산할 때 CDF를 사용한다. 예를 들어, “이 검정 통계량보다 극단적인 값이 나올 확률”을 구할 때, CDF를 통해 누적 확률을 먼저 구하고 거기서 1을 빼는 방식으로 계산한다. 엑셀이나 파이썬의 통계 함수도 내부적으로 CDF를 기반으로 동작한다.

관련 글 보기