탐색적 데이터 분석 완전 정복 — 현장 엔지니어가 써먹는 시각화 3단계 - deepcarpenter

분석을 시작하기 전에 데이터를 먼저 눈으로 봐야 한다. 탐색적 데이터 분석(EDA, Exploratory Data Analysis)은 모델을 돌리기 전에 데이터가 어떻게 생겼는지 파악하는 과정이다. 분포를 확인하고, 이상값을 감지하고, 변수 간 관계를 읽어내는 이 단계 하나가 이후 의사결정의 방향을 결정한다.

이 글에서는 탐색적 데이터 분석의 핵심 도구 세 가지 — 히스토그램, 상자그림, 산점도 — 를 중심으로, 시각화가 의사결정에 어떻게 연결되는지를 정리한다.

탐색적 데이터 분석이란 무엇인가

탐색적 데이터 분석은 한 마디로 “데이터를 모델에 넣기 전에 먼저 대화하는 과정”이다. 평균이나 표준편차 같은 숫자 하나로는 보이지 않는 것들이 있다. 동일한 평균과 분산을 가진 데이터도 분포 모양이 완전히 다를 수 있다. 이를 시각화 없이 숫자만으로 잡으려 하면 반드시 놓치는 정보가 생긴다.

EDA의 목적은 세 가지다.

목적	설명
분포 확인	데이터가 정규분포인지, 치우쳐 있는지, 다봉 분포인지 파악
이상값 감지	평균에서 크게 벗어난 값이 있는지 조기에 발견
변수 간 관계 파악	두 변수가 함께 움직이는지, 방향과 강도를 확인

분석의 시작점은 항상 모집단과 표본의 구조를 이해하는 데에서 출발한다. 내가 가진 데이터가 전체를 얼마나 대표하는지 모른 채 EDA를 시작하면, 시각화 결과를 잘못 해석하게 된다.

분포를 읽는 3가지 시각화 도구

히스토그램 — 데이터가 어디에 몰려 있는가

히스토그램은 연속형 데이터를 구간(bin)으로 나눠 각 구간에 데이터가 얼마나 쌓이는지 막대로 보여준다. 분포의 중심이 어디에 있고, 왼쪽·오른쪽으로 얼마나 기울어져 있는지를 한눈에 파악할 수 있다.

※ 아래 수치는 개념 설명을 위한 임의의 수치입니다.

F1 레이스에서 이런 상황을 상상해보자.

피트 스톱 작업 시간 100회를 히스토그램으로 그렸더니, 대부분이 2.3~2.7초에 몰려 있는데 유독 5초가 넘는 구간에 몇 개의 막대가 올라와 있다. 숫자로만 보면 평균이 2.5초로 정상범위처럼 보이지만, 히스토그램은 그 몇 번의 이상 케이스를 시각적으로 잡아낸다.

※ 이 시나리오는 개념 설명을 위한 가상의 상황입니다. 실제 F1 팀의 전략과 다를 수 있습니다.

히스토그램에서 눈여겨볼 포인트는 세 가지다.

확인 포인트	의미
분포가 하나의 봉우리인가	단봉 분포 → 데이터가 하나의 집단
두 개 이상의 봉우리인가	다봉 분포 → 두 가지 이상의 패턴이 섞여 있을 가능성
어느 쪽으로 꼬리가 긴가	왜도(skewness) — 분포가 어느 방향으로 치우쳤는지

상자그림(Box Plot) — 이상값이 어디에 숨어 있는가

상자그림은 데이터의 중앙값, 사분위수, 이상값을 한 장에 담는다. 5개의 숫자 요약(5-number summary)이 시각적으로 그려진 것이다.

구성 요소	의미
상자 아랫변 (Q1)	하위 25% 경계
상자 가운데선 (중앙값)	전체 데이터의 정중앙
상자 윗변 (Q3)	상위 25% 경계
수염(whisker)	정상 범위의 상·하한
점(dot)	수염 바깥의 이상값

상자의 세로 길이(IQR, Interquartile Range)가 좁으면 데이터가 촘촘하게 모여 있고, 넓으면 데이터가 넓게 퍼져 있다는 뜻이다. 히스토그램이 분포의 모양을 보여준다면, 상자그림은 분포의 대칭성과 이상값을 더 명확하게 잡아낸다.

여러 조건이나 그룹을 비교할 때 상자그림이 특히 유용하다. 조건 A, B, C를 나란히 놓고 비교하면 어느 조건에서 데이터가 더 흩어져 있는지, 이상값이 어느 조건에서 자주 나오는지를 한눈에 볼 수 있다.

기술통계 요약값 — 시각화 전에 숫자를 먼저 확인하라

히스토그램과 상자그림을 보기 전에 기술통계 요약값을 먼저 확인하는 것이 순서다. 평균, 중앙값, 표준편차, 최솟값, 최댓값을 함께 보면 시각화 결과를 훨씬 정확하게 해석할 수 있다.

통계량	확인 포인트
평균 vs 중앙값	두 값의 차이가 크면 분포가 치우쳐 있다는 신호
표준편차	평균에서 얼마나 퍼져 있는지 — 클수록 산포가 넓다
최솟값 / 최댓값	예상 범위를 크게 벗어나면 이상값 가능성

기술통계 수치는 분포의 요약이고, 히스토그램과 상자그림은 그 요약의 시각적 번역이다. 둘을 함께 봐야 전체 그림이 보인다.

산점도로 두 변수의 관계를 읽는 법

선형관계를 먼저 눈으로 확인한다

탐색적 데이터 분석의 마지막 단계는 두 변수 사이의 관계를 파악하는 것이다. 산점도(Scatter Plot)는 X축에 한 변수, Y축에 다른 변수를 놓고 각 데이터 포인트를 점으로 찍는다. 점들이 어떤 방향으로 모여 있는지를 보면 두 변수가 함께 움직이는지 아닌지를 즉시 확인할 수 있다.

현장에서는 산점도를 그린 뒤 추세선(line-fit)을 함께 그리는 방식을 많이 쓴다. 점들이 직선 주변에 얼마나 촘촘하게 모여 있는지가 선형관계의 강도를 나타낸다. 선 주변에 촘촘하게 모이면 관계가 강하고, 점들이 사방으로 흩어져 있으면 관계가 약하다.

산점도에서 눈여겨볼 패턴은 다음과 같다.

패턴	해석
우상향 직선	양의 선형 관계 — X가 커질수록 Y도 커진다
우하향 직선	음의 선형 관계 — X가 커질수록 Y는 작아진다
곡선 형태	비선형 관계 — 직선 모델로는 설명이 안 된다
점 무작위 산포	관계 없음 — 두 변수는 독립적으로 움직인다

상관계수 — 관계의 방향과 강도를 숫자로 읽는다

산점도가 눈으로 보는 관계라면, 상관계수(r)는 그 관계를 -1에서 +1 사이의 숫자로 표현한 것이다. 현장에서 두 변수가 서로 얼마나 영향을 주고받는지를 빠르게 스크리닝할 때 상관계수를 많이 쓴다.

상관계수 값	해석
r = +1.0	완전한 양의 선형 관계
+0.7 ≤ r < +1.0	강한 양의 관계
+0.3 ≤ r < +0.7	중간 양의 관계
-0.3 < r < +0.3	관계 약함 또는 없음
-0.7 < r ≤ -0.3	중간 음의 관계
r = -1.0	완전한 음의 선형 관계

실무에서는 여러 변수 조합을 한꺼번에 나열한 상관계수 행렬(Correlation Matrix)을 활용해 관련성 있는 변수 쌍을 빠르게 추려내는 방식을 쓴다. 변수가 10개라면 조합이 45개나 된다. 모든 조합을 산점도로 하나씩 확인하기 전에 상관계수 값으로 먼저 스크리닝하면 분석 범위를 효율적으로 좁힐 수 있다.

한 가지 주의할 점이 있다. 상관계수가 높다고 인과관계가 있는 것은 아니다. 두 변수가 함께 움직인다는 사실과, 한 변수가 다른 변수의 원인이라는 사실은 다른 이야기다. 인과관계와 상관관계의 차이를 혼동하는 순간, 데이터 분석의 결론이 현장에서 반대 방향의 의사결정으로 이어질 수 있다.

시각화가 의사결정을 바꾸는 순간

EDA에서 시각화가 중요한 이유는 단순히 “예쁜 그래프”를 위해서가 아니다. 숫자 요약이 감추고 있는 정보를 꺼내기 위해서다.

같은 평균과 표준편차를 가진 두 데이터셋이 있다고 하자. 하나는 정규분포에 가깝고, 다른 하나는 한쪽으로 크게 치우쳐 있다. 숫자만 보면 두 데이터는 동일해 보인다. 히스토그램을 그리는 순간, 그 차이가 즉시 드러난다.

시각화 단계에서 걸러내지 못한 이상값은 모델 학습에 그대로 들어가 결과를 왜곡시킨다. 분포의 치우침을 모른 채 평균값으로 기준을 잡으면 판단 기준 자체가 틀려진다. 산점도에서 보이는 비선형 패턴을 무시하고 선형 모델을 적용하면 설명력이 처음부터 낮다.

탐색적 데이터 분석은 분석의 준비 과정이 아니다. 분석 그 자체다.

핵심 요약

도구	목적	주요 확인 포인트
히스토그램	분포 모양 파악	단봉/다봉, 왜도, 이상값 영역
상자그림	이상값 감지, 그룹 비교	IQR, 중앙값, 수염 바깥 점
산점도 + 추세선	변수 간 관계 파악	방향, 선형 여부, 산포 정도
상관계수	관계 강도 수치화	-1 ~ +1, 스크리닝 용도

시각화 순서는 단변량(히스토그램·상자그림) → 이변량(산점도·상관계수) 순으로 진행하는 것이 자연스럽다. 먼저 각 변수의 분포를 파악하고, 그 다음 변수 간 관계를 탐색한다.

FAQ

A. 이론적으로는 가능하지만, 실무에서는 권장하지 않는다. EDA 없이 모델을 돌리면 이상값, 결측값, 분포 치우침이 그대로 학습 데이터에 반영된다. 결과가 나빠도 원인을 찾기 어렵다. EDA는 “왜 모델이 틀렸는가”를 사전에 차단하는 단계다.

A. 상관계수는 참고 지표다. 상관계수가 높더라도 변수 간 다중공선성 문제가 있으면 오히려 모델 성능을 떨어뜨릴 수 있다. 탐색적 데이터 분석 단계에서 상관계수로 변수를 스크리닝하되, 최종 변수 선택은 도메인 지식과 모델 검증 결과를 함께 고려해야 한다.

A. 정해진 공식은 없다. 데이터 개수가 많을수록 구간을 세밀하게 나눌 수 있다. 구간이 너무 넓으면 분포 특징이 뭉개지고, 너무 좁으면 노이즈가 많아져 패턴을 읽기 어렵다. 실무에서는 10~20개 구간을 시작점으로 잡고, 직접 눈으로 보면서 조정하는 방식을 쓴다.

탐색적 데이터 분석 완전 정복 — 현장 엔지니어가 써먹는 시각화 3단계

탐색적 데이터 분석이란 무엇인가