모집단 모수 완전 정복 — 통계학이 존재하는 3가지 이유

F1 레이스에서 이런 상황을 상상해보자.

시즌 내내 수천 개의 랩 타임 데이터가 쌓인다. 엔지니어는 그 데이터를 보며 이번 레이스의 타이어 전략을 결정한다. 그런데 여기서 한 가지 질문이 생긴다. 엔지니어가 보는 데이터는 전체인가, 아니면 일부인가? 전체라면 결론은 확실하다. 일부라면 — 추정이다. 통계학은 바로 이 “일부로 전체를 추정하는 법”을 다루는 학문이다.

모집단 모수 개념은 통계학의 출발점이다. 이 두 개념을 제대로 잡으면, 가설검정이든 회귀분석이든 어떤 통계 도구를 써도 흔들리지 않는 기반이 생긴다. 이 글에서는 모집단의 두 가지 정의, 모수의 종류와 의미, 그리고 왜 우리가 표본으로 추정할 수밖에 없는지를 순서대로 짚는다.

모집단 모수란 무엇인가 — 정의부터 잡는다

모집단(Population)은 정보를 얻고자 하는 관심 대상의 전체 집합이다. 그리고 모집단은 반드시 분포를 가진다. 이 분포를 모집단 분포라고 부른다.

모수(Parameter)는 그 모집단 분포의 특성을 나타내는 값이다. 평균이 얼마인지, 얼마나 퍼져 있는지, 불량 비율이 몇 퍼센트인지 — 이런 값들이 전부 모수다.

여기서 통계학의 핵심 전제가 등장한다.

모집단의 분포는 실제로 알 수 없다. 모수는 고정된 값으로 존재하지만, 전수조사 없이는 접근할 수 없다.

모수는 이론적으로는 존재한다. 하지만 현실에서 인간이 그 값을 정확히 아는 것은 불가능에 가깝다. 그래서 우리는 표본(Sample)을 뽑아 통계적 추론으로 모수를 추정한다. 이것이 통계학이 존재하는 이유다.

광의적 정의 vs 협의적 정의 — 분포가 달라지는 이유

모집단을 어떻게 정의하느냐에 따라 분포 자체가 달라진다. 이 개념이 실무에서 특히 중요하다.

구분정의특징
광의적 정의해당 시스템이 운용되는 전 기간의 모든 데이터현실적으로 수집 불가
협의적 정의특정 시스템 + 특정 기간 동안 수집된 데이터실무에서 실제 사용

예를 들어 제조 설비 A를 생각해보자. 광의적 정의로는 “설비 A가 가동을 시작한 날부터 폐기될 때까지 생산한 모든 제품의 계측값”이 모집단이다. 현실적으로는 절대 얻을 수 없는 데이터다.

반면 협의적 정의로는 “설비 A에서 지난 3개월간 생산된 제품의 계측값”이 모집단이 된다. 기간과 시스템을 분석 목적에 맞게 직접 설정하는 것이다.

중요한 것은 어느 범위를 모집단으로 설정하느냐에 따라 히스토그램의 모양, 즉 분포가 달라진다는 점이다. 지난 1개월 데이터와 지난 1년 데이터는 당연히 다른 분포를 만든다. 따라서 모집단의 정의는 분석 목적에 따라 분석자가 직접 결정해야 한다.

실무에서는 보통 1년 이상의 데이터를 모집단으로 잘 설정하지 않는다. 시간이 지날수록 설비 조건이나 공정 환경이 변하기 때문에, 너무 오래된 데이터는 현재 상태를 대표하지 못한다.

모집단 모수의 종류 — 4가지 범주로 나눈다

모수는 모집단 분포의 특성을 수치로 요약한 값이다. 크게 4가지 범주로 나눌 수 있다.

중심 위치 측도 — 분포의 중심이 어디인가

※ 아래 수치는 개념 설명을 위한 임의의 수치입니다.

측도기호계산 방식특징
모평균μ (뮤)전체 데이터 합 ÷ 데이터 수전체 정보 반영, 이상치에 민감
모중앙값μ̃ (뮤틸드)정렬 후 순서상 중앙값이상치에 강건, 전체 정보 미반영
최빈값Mode가장 자주 등장하는 값명목형 데이터에 유일하게 적용 가능

평균과 중앙값 중 어느 것을 쓸지는 데이터 성격에 따라 다르다. 계측값 데이터에 이상치가 섞여 있다면 중앙값이 더 신뢰할 수 있는 중심 위치를 보여준다. 예를 들어 기준값 100인 계측 데이터에 이상치 60이 하나 끼어 있다면, 평균은 이상치 방향으로 당겨지지만 중앙값은 영향을 받지 않는다.

명목형 데이터(불량 종류, 설비 기종 등)는 더하거나 정렬하는 게 의미가 없다. 이 경우 중심 위치 측도는 최빈값만 사용할 수 있다.

산포 측도 — 데이터가 얼마나 퍼져 있는가

측도기호설명
모분산σ²각 데이터와 모평균의 편차를 제곱해 평균낸 값
모표준편차σ모분산에 루트를 씌워 원래 단위로 환원한 값
사분위수 범위(IQR)박스플롯에서 활용하는 산포 측도

분산을 계산할 때 편차를 그냥 합산하면 양수와 음수가 상쇄되어 0이 된다. 이를 막기 위해 편차를 제곱한 뒤 합산하고 데이터 수로 나눈 것이 모분산이다. 단위가 제곱으로 바뀌는 문제를 해결하기 위해 루트를 씌운 것이 모표준편차다.

모집단 정의 — 광의적 정의와 협의적 정의의 분포 차이 비교, 모집단 모수

비율 측도 — 특정 사건이 얼마나 발생하는가

모비율(p)은 모집단에서 특정 사건이 발생한 비율이다. 각 데이터에 사건 발생 시 1, 미발생 시 0을 부여한 뒤 평균을 내는 방식으로 계산한다.

제조 현장에서 특정 기간 동안의 불량 발생 비율이 대표적인 모비율이다. 정상품 비율(= 1 − 불량률)도 같은 방식의 모비율이다.

분포 형태 측도 — 분포가 어떻게 생겼는가

측도영문설명
왜도Skewness분포의 좌우 비대칭 정도. 0이면 좌우 대칭
첨도Kurtosis꼬리의 두터운 정도. 클수록 이상치 발생 가능성 높음

첨도가 크다는 것은 분포의 꼬리가 두껍다는 의미다. 극단값, 즉 이상치가 나올 가능성이 높은 모집단이라는 뜻이기도 하다.

전수조사가 불가능한 이유 — 표본 추정이 유일한 답이다

모수를 정확히 알려면 모집단 전체를 조사해야 한다. 하지만 현실에서는 두 가지 장벽이 있다.

첫째, 시간이다. 설비 A의 전체 가동 기간 데이터를 기다리며 분석할 수는 없다. 지금 당장 판단이 필요하다.

둘째, 비용이다. 모든 제품을 전수 계측하는 것은 대부분의 현장에서 경제적으로 불가능하다.

그래서 우리는 모집단의 일부인 표본(Sample)을 추출하고, 표본에서 계산한 통계량으로 모수를 추정한다. 이것이 통계적 추론의 출발점이다.

F1 레이스에서 이런 상황을 상상해보자.

시즌 전체 랩 타임 수천 개를 분석할 시간이 없다. 엔지니어는 최근 5경기 랩 타임 데이터만으로 타이어 전략을 결정한다. 최근 5경기가 표본이고, 시즌 전체 랩 타임 분포가 모집단이다. 엔지니어는 표본으로 모집단을 추정하는 것이다.

※ 이 시나리오는 개념 설명을 위한 가상의 상황입니다. 실제 F1 팀의 전략과 다를 수 있습니다.

표본으로 추정하기 때문에 필연적으로 오차가 생긴다. 이 오차를 어떻게 다루느냐가 가설검정과 신뢰구간의 핵심 주제다.

핵심 요약

개념핵심
모집단정보를 얻고자 하는 관심 대상의 전체 집합. 분포를 가짐
모수모집단 분포의 특성값. 고정된 상수이나 전수조사 없이는 알 수 없음
광의적 정의시스템 전 생애 데이터 — 현실에서 수집 불가
협의적 정의특정 시스템 + 특정 기간 데이터 — 실무에서 사용
통계학의 목적표본으로 모수를 추정하는 것

모집단 모수 개념의 핵심은 단 하나다. 모수는 존재하지만 알 수 없다. 그래서 추정한다. 이 전제를 이해하면 앞으로 배울 모든 통계 도구의 존재 이유가 보이기 시작한다.

[링크 제안]

[링크 제안]

모집단에서 표본을 뽑았다면, 다음 질문은 “표본 평균의 분포가 왜 매번 다른가”다.

모수를 추정할 때 표본 크기와 분포 모양이 결정되는 원리가 궁금하다면 이 글이 바로 이어진다.

통계학의 기초 개념은 한국통계학회에서도 확인할 수 있다.

FAQ

모집단은 분석 대상이 되는 전체 데이터 집합이고, 표본은 그 중 일부를 추출한 것이다. 전수조사가 불가능한 현실에서 표본을 통해 모집단의 특성(모수)을 추정하는 것이 통계학의 핵심 목적이다.

분석 목적에 따라 분석자가 직접 설정한다. 보통 특정 시스템과 특정 기간을 기준으로 협의적으로 정의한다. 기간이 달라지면 포함되는 데이터가 달라지고, 분포도 달라진다는 점을 반드시 고려해야 한다.

데이터에 이상치가 있을 경우 중앙값이 더 신뢰할 수 있는 중심 위치를 나타낸다. 이상치 없이 고르게 분포된 데이터라면 평균이 전체 정보를 더 잘 반영한다. 데이터 성격을 먼저 확인한 뒤 선택하는 것이 원칙이다.

관련 글 보기