기댓값이란 무엇인가 — 모평균과 똑같은 값이 되는 3가지 원리

F1 레이스에서 이런 상황을 상상해보자. 한 시즌 동안 같은 드라이버가 수백 번의 랩을 돈다. 어떤 랩은 타이어가 살아 있어 빠르고, 어떤 랩은 마모돼 느리다. 하지만 팀이 진짜 알고 싶은 건 하나다. “이 드라이버가 한 바퀴를 무한히 반복해서 돈다면 평균적으로 어느 정도 랩타임을 낼까?” 바로 이 ‘무한히 반복했을 때 기대되는 평균값’이 통계에서 말하는 기댓값(Expected Value)이다.

결론부터 말하면, 기댓값은 모평균과 같은 값이다. 표본 평균처럼 일부만 보고 추정한 값이 아니라, 모집단 전체를 무한히 반복해 뽑았을 때 나오는 평균 그 자체다. 이 글에서는 이 개념이 왜 모평균과 같아지는지, 서로 다른 두 계산법이 어떻게 하나의 값으로 만나는지, 그리고 분산까지 평균으로 환원되는 구조를 현장 엔지니어의 언어로 정리한다.

기댓값이란 무엇인가 — 무한 반복했을 때 결과의 평균

기댓값의 정의는 단순하다. 어떤 실험을 무한히 반복했을 때 나오는 결과들의 평균이다. “무한히 반복한다”는 건 결국 모집단 전체를 빠짐없이 다 뽑아본다는 말과 같다. 모집단의 모든 데이터를 모아 평균을 내면, 그게 바로 모평균이다.

그래서 E(X)와 모평균은 이름만 다른 같은 개념이다. 통계 기호로는 E(X)로 쓰고, ‘결과 X에 대해 기대되는 평균’이라는 뜻이다. 표본에서 구한 평균이 모평균을 향한 ‘추정치’라면, E(X)는 모집단을 다 안다고 가정했을 때의 ‘정답’에 해당한다.

모평균과 같은 값이 되는 두 가지 계산법

여기서 한 가지 의문이 생긴다. 모집단을 통째로 더해 평균 내는 것과, 공식으로 계산하는 게 정말 같은 결과일까? 답은 명확하다. 같다. 다만 도달하는 길이 두 갈래일 뿐이다.

아래 수치는 개념 설명을 위한 임의의 수치입니다.

같은 사양의 부품 100개를 측정했더니 성능 점수가 세 종류로 나왔다고 하자. 100점이 50개(발생 비율 0.5), 90점이 30개(0.3), 80점이 20개(0.2)다.

첫 번째 길은 우리가 늘 쓰는 방식이다. 100개 점수를 전부 더한 뒤 개수 100으로 나눈다.

(100×50 + 90×30 + 80×20) ÷ 100 = 9,300 ÷ 100 = 93

두 번째 길이 기댓값 공식이다. 각 점수에, 그 점수가 나올 확률(발생 비율)을 곱해서 모두 더한다.

성능 점수발생 확률점수 × 확률
1000.550
900.327
800.216
합계 = E(X)1.093

두 길의 결과가 똑같이 93으로 만난다. 이것이 핵심이다.

값과 확률을 곱해 더하면 평균이 나오는 기댓값 가중합 구조

모든 결과를 다 더해 평균 내지 않아도, X가 가질 수 있는 값마다 발생 확률을 곱해 더하기만 하면 같은 평균이 나온다. 식으로 쓰면 E(X) = Σ x·f(x) 다. 연속형 확률변수라면 합(Σ)을 적분으로 바꾸면 되고, 값과 확률을 곱한다는 구조는 그대로다.

평균이라서 통하는 3가지 연산 규칙

E(X)는 결국 평균이기 때문에, 평균이 가진 성질을 그대로 물려받는다. 실무에서 자주 마주치는 3가지 규칙만 정리하면 다음과 같다.

성질의미
합의 평균E(X+Y) = E(X) + E(Y)두 확률변수를 더한 것의 평균은 각자의 평균을 더한 값과 같다
상수 분리E(aX+b) = aE(X) + ba, b 같은 상수는 평균 밖으로 그대로 빠져나온다
제곱의 평균E(X²) = Σ x²·f(x)X를 제곱한 값엔 같은 확률을 곱해 더한다

세 번째 규칙이 특히 중요하다. X가 100, 90, 80이었다면 X²은 각각 10,000, 8,100, 6,400이 된다. 여기에 원래의 확률(0.5, 0.3, 0.2)을 그대로 곱해 더하면 X²의 평균 E(X²)가 나온다. 이 값이 바로 다음에 볼 분산 계산의 재료가 된다.

분산도 같은 방식으로 표현된다

분산은 ‘평균에서 얼마나 흩어져 있는가’를 나타내는 값이다. 정확히는 편차(각 값 − 평균)를 제곱한 것의 평균이다. 그런데 평균이 곣 E(X)이므로, 분산도 기댓값으로 그대로 쓸 수 있다.

Var(X) = E[(X − μ)²]

여기서 μ는 모평균, 즉 E(X)다. 앞 예시에서 평균이 93이었으니, 각 점수에서 93을 빼 제곱하고 확률을 곱해 더하면 된다.

(100−93)²×0.5 + (90−93)²×0.3 + (80−93)²×0.2 = 49×0.5 + 9×0.3 + 169×0.2 = 24.5 + 2.7 + 33.8 = 61

분산은 61, 표준편차는 √61 ≈ 7.8이다. 앞에서 구한 E(X²)를 쓰면 Var(X) = E(X²) − (E(X))² 라는 더 간편한 식으로도 같은 값에 도달한다. 어느 길로 가든 결국 ‘편차 제곱의 평균’이라는 한 지점에서 만난다.

그런데 현장에서는 왜 잘 안 쓰는가

여기까지 보면 이 공식은 강력하다. 그런데 제조 현장에서 이 방식을 직접 쓰는 경우는 의외로 드물다. 이유는 공식 안에 숨어 있다.

확률 가중합으로 기댓값을 구하려면, X가 가질 수 있는 모든 값의 확률 f(x)를 알아야 한다. 모든 값의 확률을 안다는 건 모집단의 분포 전체를 안다는 뜻이고, 그건 결국 모집단을 이미 다 안다는 말과 같다.

하지만 현장에서 모집단을 통째로 아는 일은 거의 없다. 그래서 우리는 표본을 뽑아 모집단의 특성을 추정한다. 이론적으로 아무리 깔끔해도, 확률분포를 정확히 모르는 실무에서는 적용하기 어려운 이유가 여기 있다. 반대로 확률을 정면으로 다루는 이론·연구 영역에서는 이 공식을 훨씬 선호한다. 그래서 기댓값은 ‘계산 도구’라기보다 ‘평균을 확률의 언어로 다시 정의한 개념’으로 이해하는 편이 현장 감각에 맞는다.

핵심 요약

  • 기댓값 E(X)는 실험을 무한히 반복했을 때 나오는 결과의 평균이며, 모평균과 같은 값이다.
  • 계산법은 두 갈래다. 전체를 더해 개수로 나누거나(전체 평균), 각 값에 확률을 곱해 더한다(E(X) = Σ x·f(x)). 결과는 같다.
  • 평균이므로 E(X+Y) = E(X) + E(Y), E(aX+b) = aE(X) + b 같은 연산 규칙이 그대로 성립한다.
  • 분산도 평균으로 환원된다. Var(X) = E[(X − μ)²] = E(X²) − (E(X))².
  • 단, 모든 값의 확률(모집단 분포)을 알아야 적용할 수 있으므로, 모집단을 모르는 현장에서는 직접 쓰기 어렵다.

이 값이 ‘모집단을 안다고 가정한 평균’이라면, 다음 질문은 “모집단을 모를 때 표본으로 어떻게 평균에 다가가는냐”다.

수학적 정의와 연속형 적분식을 더 깊이 보고 싶다면 위키백과 문서에서 확인할 수 있다.

FAQ

같은 값을 가리킵니다. E(X)는 모평균과 같습니다. 우리가 흔히 구하는 ‘표본 평균’은 일부 데이터로 모평균을 추정한 값이고, E(X)는 모집단 전체를 무한히 반복했을 때의 평균 그 자체입니다. 계산 방법만 ‘값 × 확률의 합’ 형태로 다를 뿐, 가리키는 대상은 동일합니다.

있습니다. 예를 들어 발생 개수의 평균이 2.5처럼 나올 수 있는데, 한 번의 측정에서 2.5개가 관측되지는 않습니다. E(X)는 ‘한 번의 결과’가 아니라 ‘무한히 반복했을 때의 평균’이기 때문에, 실제 관측값과 다른 비정수 값이 나오는 것이 정상입니다.

이산형에서 쓰던 합(Σ)을 적분(∫)으로 바꾸면 됩니다. 값 x에 확률밀도함수 f(x)를 곱해 적분하는 구조로, x와 f(x)를 곱해 더한다는 본질은 이산형과 완전히 같습니다.

관련 글 보기