F1 레이스에서 이런 상황을 상상해보자. 한 시즌 동안 같은 드라이버가 수백 번의 랩을 돈다. 어떤 랩은 타이어가 살아 있어 빠르고, 어떤 랩은 마모돼 느리다. 하지만 팀이 진짜 알고 싶은 건 하나다. “이 드라이버가 한 바퀴를 무한히 반복해서 돈다면 평균적으로 어느 정도 랩타임을 낼까?” 바로 이 ‘무한히 반복했을 때 기대되는 평균값’이 통계에서 말하는 기댓값(Expected Value)이다.
결론부터 말하면, 기댓값은 모평균과 같은 값이다. 표본 평균처럼 일부만 보고 추정한 값이 아니라, 모집단 전체를 무한히 반복해 뽑았을 때 나오는 평균 그 자체다. 이 글에서는 이 개념이 왜 모평균과 같아지는지, 서로 다른 두 계산법이 어떻게 하나의 값으로 만나는지, 그리고 분산까지 평균으로 환원되는 구조를 현장 엔지니어의 언어로 정리한다.
기댓값이란 무엇인가 — 무한 반복했을 때 결과의 평균
기댓값의 정의는 단순하다. 어떤 실험을 무한히 반복했을 때 나오는 결과들의 평균이다. “무한히 반복한다”는 건 결국 모집단 전체를 빠짐없이 다 뽑아본다는 말과 같다. 모집단의 모든 데이터를 모아 평균을 내면, 그게 바로 모평균이다.
그래서 E(X)와 모평균은 이름만 다른 같은 개념이다. 통계 기호로는 E(X)로 쓰고, ‘결과 X에 대해 기대되는 평균’이라는 뜻이다. 표본에서 구한 평균이 모평균을 향한 ‘추정치’라면, E(X)는 모집단을 다 안다고 가정했을 때의 ‘정답’에 해당한다.
모평균과 같은 값이 되는 두 가지 계산법
여기서 한 가지 의문이 생긴다. 모집단을 통째로 더해 평균 내는 것과, 공식으로 계산하는 게 정말 같은 결과일까? 답은 명확하다. 같다. 다만 도달하는 길이 두 갈래일 뿐이다.
아래 수치는 개념 설명을 위한 임의의 수치입니다.
같은 사양의 부품 100개를 측정했더니 성능 점수가 세 종류로 나왔다고 하자. 100점이 50개(발생 비율 0.5), 90점이 30개(0.3), 80점이 20개(0.2)다.
첫 번째 길은 우리가 늘 쓰는 방식이다. 100개 점수를 전부 더한 뒤 개수 100으로 나눈다.
(100×50 + 90×30 + 80×20) ÷ 100 = 9,300 ÷ 100 = 93
두 번째 길이 기댓값 공식이다. 각 점수에, 그 점수가 나올 확률(발생 비율)을 곱해서 모두 더한다.
| 성능 점수 | 발생 확률 | 점수 × 확률 |
|---|---|---|
| 100 | 0.5 | 50 |
| 90 | 0.3 | 27 |
| 80 | 0.2 | 16 |
| 합계 = E(X) | 1.0 | 93 |
두 길의 결과가 똑같이 93으로 만난다. 이것이 핵심이다.
모든 결과를 다 더해 평균 내지 않아도, X가 가질 수 있는 값마다 발생 확률을 곱해 더하기만 하면 같은 평균이 나온다. 식으로 쓰면 E(X) = Σ x·f(x) 다. 연속형 확률변수라면 합(Σ)을 적분으로 바꾸면 되고, 값과 확률을 곱한다는 구조는 그대로다.
평균이라서 통하는 3가지 연산 규칙
E(X)는 결국 평균이기 때문에, 평균이 가진 성질을 그대로 물려받는다. 실무에서 자주 마주치는 3가지 규칙만 정리하면 다음과 같다.
| 성질 | 식 | 의미 |
|---|---|---|
| 합의 평균 | E(X+Y) = E(X) + E(Y) | 두 확률변수를 더한 것의 평균은 각자의 평균을 더한 값과 같다 |
| 상수 분리 | E(aX+b) = aE(X) + b | a, b 같은 상수는 평균 밖으로 그대로 빠져나온다 |
| 제곱의 평균 | E(X²) = Σ x²·f(x) | X를 제곱한 값엔 같은 확률을 곱해 더한다 |
세 번째 규칙이 특히 중요하다. X가 100, 90, 80이었다면 X²은 각각 10,000, 8,100, 6,400이 된다. 여기에 원래의 확률(0.5, 0.3, 0.2)을 그대로 곱해 더하면 X²의 평균 E(X²)가 나온다. 이 값이 바로 다음에 볼 분산 계산의 재료가 된다.
분산도 같은 방식으로 표현된다
분산은 ‘평균에서 얼마나 흩어져 있는가’를 나타내는 값이다. 정확히는 편차(각 값 − 평균)를 제곱한 것의 평균이다. 그런데 평균이 곣 E(X)이므로, 분산도 기댓값으로 그대로 쓸 수 있다.
Var(X) = E[(X − μ)²]
여기서 μ는 모평균, 즉 E(X)다. 앞 예시에서 평균이 93이었으니, 각 점수에서 93을 빼 제곱하고 확률을 곱해 더하면 된다.
(100−93)²×0.5 + (90−93)²×0.3 + (80−93)²×0.2 = 49×0.5 + 9×0.3 + 169×0.2 = 24.5 + 2.7 + 33.8 = 61
분산은 61, 표준편차는 √61 ≈ 7.8이다. 앞에서 구한 E(X²)를 쓰면 Var(X) = E(X²) − (E(X))² 라는 더 간편한 식으로도 같은 값에 도달한다. 어느 길로 가든 결국 ‘편차 제곱의 평균’이라는 한 지점에서 만난다.
그런데 현장에서는 왜 잘 안 쓰는가
여기까지 보면 이 공식은 강력하다. 그런데 제조 현장에서 이 방식을 직접 쓰는 경우는 의외로 드물다. 이유는 공식 안에 숨어 있다.
확률 가중합으로 기댓값을 구하려면, X가 가질 수 있는 모든 값의 확률 f(x)를 알아야 한다. 모든 값의 확률을 안다는 건 모집단의 분포 전체를 안다는 뜻이고, 그건 결국 모집단을 이미 다 안다는 말과 같다.
하지만 현장에서 모집단을 통째로 아는 일은 거의 없다. 그래서 우리는 표본을 뽑아 모집단의 특성을 추정한다. 이론적으로 아무리 깔끔해도, 확률분포를 정확히 모르는 실무에서는 적용하기 어려운 이유가 여기 있다. 반대로 확률을 정면으로 다루는 이론·연구 영역에서는 이 공식을 훨씬 선호한다. 그래서 기댓값은 ‘계산 도구’라기보다 ‘평균을 확률의 언어로 다시 정의한 개념’으로 이해하는 편이 현장 감각에 맞는다.
핵심 요약
- 기댓값 E(X)는 실험을 무한히 반복했을 때 나오는 결과의 평균이며, 모평균과 같은 값이다.
- 계산법은 두 갈래다. 전체를 더해 개수로 나누거나(전체 평균), 각 값에 확률을 곱해 더한다(E(X) = Σ x·f(x)). 결과는 같다.
- 평균이므로 E(X+Y) = E(X) + E(Y), E(aX+b) = aE(X) + b 같은 연산 규칙이 그대로 성립한다.
- 분산도 평균으로 환원된다. Var(X) = E[(X − μ)²] = E(X²) − (E(X))².
- 단, 모든 값의 확률(모집단 분포)을 알아야 적용할 수 있으므로, 모집단을 모르는 현장에서는 직접 쓰기 어렵다.
이 값이 ‘모집단을 안다고 가정한 평균’이라면, 다음 질문은 “모집단을 모를 때 표본으로 어떻게 평균에 다가가는냐”다.
- 데이터가 많을수록 추정이 좋아지는 이유가 궁금하다면: 표본 분포 완전 정복 — 데이터가 많을수록 좋은 이유를 3가지 개념으로 잡는 법
수학적 정의와 연속형 적분식을 더 깊이 보고 싶다면 위키백과 문서에서 확인할 수 있다.







