모집단과 표본. 통계학 교재 첫 장에 반드시 나오는 개념이다. 그런데 왜 이걸 먼저 배우는지 설명해주는 곳은 많지 않다. 모집단 표본 개념을 제대로 이해하면, 통계학이 존재하는 이유 자체가 보인다.
이 글에서는 데이터 종류 분류, 기술통계학과 추론통계학의 차이, 그리고 모수 추정과 가설 검정이 각각 무엇을 하는지를 순서대로 다룬다. 통계학 전체 구조를 한 번에 잡는 글이다.
모집단 표본이란 무엇인가 — 왜 통계학이 필요한가
핵심부터 말한다. 모집단을 알면 통계학이 필요 없다.
모집단은 내가 관심 있는 전체 데이터 집합이다. 제조 현장에서 한 달간 생산된 모든 제품의 두께, 자동화 라인에서 하루 동안 처리된 모든 장비 데이터가 여기에 해당한다. 그런데 이 전체를 다 측정하는 건 현실적으로 불가능하다. 시간도 비용도 맞지 않는다.
그래서 일부만 뽑는다. 그 일부가 표본이다. 표본은 모집단에서 샘플링(sampling)을 통해 추출한 데이터다.
| 개념 | 정의 | 알 수 있는가 |
|---|---|---|
| 모집단 | 관심 있는 전체 데이터 집합 | ❌ 보통 알 수 없다 |
| 표본 | 모집단에서 추출한 일부 데이터 | ✅ 알 수 있다 |
| 모수 | 모집단의 특성값 (예: 전체 평균) | ❌ 직접 알 수 없다 |
| 통계량 | 표본의 특성값 (예: 표본 평균) | ✅ 계산 가능 |
통계학은 바로 이 구조에서 출발한다. 표본으로부터 모집단의 모수를 추론하는 것, 그게 통계학이 하는 일이다. 모집단을 전수 조사할 수 있다면 통계학은 애초에 필요하지 않다.
통계학이 다루는 데이터 종류 — 연속형·이산형·범주형 한 번에 정리
통계학은 정형 데이터를 다룬다. 정형 데이터란 표(테이블) 구조로 표현되는 수치 데이터다. 이 안에서 변수의 종류를 구분하는 게 분석의 첫 단계다.
| 유형 | 설명 | 현장 예시 |
|---|---|---|
| 연속형 | 실수값. 측정으로 얻음 | 제품 두께, 센서 평균값, 온도 |
| 이산형 | 정수값. 셀 수 있음 | 결함 발생 횟수, 불량 제품 수 |
| 범주형 (명목형) | 범주 구분, 순서 없음 | 장비 A/B, 정상/불량 |
| 범주형 (순서형) | 범주 구분, 순서 있음 | 온도 낮음/적절/높음, 등급 |
명목형과 순서형의 차이가 헷갈리면 이렇게 기억하면 된다. 장비 A와 장비 B는 어느 쪽이 더 크다고 말할 수 없다. 그냥 구분이다. 명목형이다. 반면 온도 ‘낮음·적절·높음’은 순서가 있다. 범주형이지만 순서가 있으므로 순서형이다.
변수 유형을 잘못 판단하면 잘못된 통계 방법을 적용하게 된다. 분석 시작 전에 반드시 짚고 넘어가야 하는 이유다.
기술통계학 vs 추론통계학 — 무엇이 다른가
통계학은 크게 두 분야로 나뉜다.
기술통계학(Descriptive Statistics)은 표본 데이터를 요약하고 시각화하는 분야다. 평균, 중앙값, 최솟값, 최댓값 같은 요약 수치를 계산하고, 히스토그램 같은 시각화로 데이터의 분포를 파악한다. 이 과정을 탐색적 데이터 분석(EDA)이라고도 부른다.
현장에서 일상적으로 하는 데이터 확인 작업 대부분이 기술통계학에 해당한다. 어렵지 않지만, 이걸 제대로 하지 않으면 추론이 흔들린다.
추론통계학(Inferential Statistics)은 표본에서 모집단의 특성을 추론하는 분야다. 기술통계학이 “지금 내 표본이 어떻게 생겼는가”를 보여준다면, 추론통계학은 “이 표본으로 전체에 대해 무엇을 말할 수 있는가”를 따진다.
| 구분 | 기술통계학 | 추론통계학 |
|---|---|---|
| 대상 | 표본 자체 | 표본 → 모집단 |
| 목적 | 요약·시각화 | 추정·검정 |
| 난이도 | 상대적으로 쉬움 | 상대적으로 어려움 |
| 현장 예시 | 월별 불량률 추이 차트 | 두 장비의 성능 차이가 유의미한가 |
통계학 학습 시간의 대부분은 추론통계학에 쓰인다. 개념이 까다롭지만 현장에서 실질적인 판단을 내리는 데 직접 쓰이는 도구다. 가설검정의 구조를 이해하면 추론통계학의 절반은 잡힌다.
모수 추정과 가설 검정 — 추론통계학의 2가지 축
추론통계학은 두 가지 방식으로 모집단에 접근한다.
모수 추정은 표본 데이터로 모집단의 모수를 수치로 추정하는 것이다. 예를 들어, 자동화 장비에서 생산된 제품 일부를 계측해 표본 평균을 구하고, 그것으로 전체 제품의 평균 두께를 추정한다. 모집단 전체를 알 수 없으니 표본으로 대신하는 방식이다.
아래 수치는 개념 설명을 위한 임의의 수치입니다.
표본 평균이 100이고 표본 크기가 충분히 크다면, 모집단 평균도 100 근방에 있을 가능성이 높다. 이 추정의 신뢰도를 수치로 표현하는 것이 신뢰구간이다.
가설 검정은 다르다. 추정처럼 “얼마일까”를 구하는 게 아니라, 미리 가설을 세워두고 표본으로 그 가설이 맞는지 판단하는 방식이다.
가설은 항상 두 개를 세운다.
| 가설 | 표기 | 내용 |
|---|---|---|
| 귀무가설 | H₀ | 기존에 참이라고 가정하는 주장 (예: 평균 두께 = 100) |
| 대립가설 | H₁ | H₀에 반하는 주장 (예: 평균 두께 > 100) |
표본을 뽑아 분석한 결과로 H₀를 기각할지 유지할지를 결정한다. 현장에서 두 장비의 성능이 같은가 다른가를 따질 때 쓰는 방식이 바로 가설 검정이다. 귀무가설과 대립가설을 세우는 것 자체가 도메인 지식 없이는 불가능하다.
모집단 표본의 관계를 이해한다는 건, 결국 이 두 가지 도구가 왜 필요한지를 이해하는 것이다.
핵심 요약
- 모집단은 알 수 없고, 표본은 알 수 있다. 통계학은 이 간격을 메우는 학문이다
- 데이터 변수는 연속형·이산형·범주형(명목형·순서형)으로 나뉘며, 분석 방법 선택의 출발점이다
- 기술통계학은 표본을 요약·시각화하고, 추론통계학은 표본으로 모집단을 추론한다
- 추론통계학의 두 축은 모수 추정(얼마인가)과 가설 검정(맞는가)이다
[링크 제안]
모집단·표본 개념을 잡았다면 다음은 추론의 신뢰도를 수치로 따지는 단계다.
P값과 유의수준이 왜 존재하는지, 기각역이 어떻게 결정되는지를 이어서 확인해보자.
표본 크기와 자유도가 추론의 정밀도에 어떤 영향을 주는지도 함께 짚어두면 좋다.
통계학의 학문적 배경은 Wikipedia — Statistics에서 더 깊이 살펴볼 수 있다.







