Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

hye-_

기초 통계량 추출 및 이해 본문

2. 빅데이터 탐색/데이터 탐색

기초 통계량 추출 및 이해

hyehh 2026. 2. 25. 22:07

728x90

SMALL

데이터 탐색에서 데이터에 대한 충분한 이해를 얻기 위해 데이터의 요약 정보를 활용한다.

왜?

"데이터 탐색"에서의 탐색(Exploration)은 영어로 Exploratory이고, 이는 “미리 가정하지 않고 관찰하면서 이해하는 과정”을 의미한다.
왜 충분한 이해가 필요하냐면, 데이터는 숫자의 집합일 뿐이어서 그냥 보면 패턴(pattern)이나 구조(structure)가 보이지 않기 때문이다.

“요약 정보”라는 것은 Summary Information인데, Summary는 ‘요약하다’는 뜻이다. 왜 요약을 하냐면, 수천·수만 개의 데이터를 인간의 인지 능력으로는 한 번에 이해할 수 없기 때문이다.

즉, 이 문장은 말하는 것이다:
“데이터는 원래 복잡하니까, 요약해서 이해하자.”

요약 정보를 만드는 과정에서 평균이나 산포도 및 분포도로 수치적 정보를 얻게 되고 이를 그래프나 도표 등을 활용해 전체적인 추세와 특이사항이 있는지 관찰하게 된다.

왜?

“요약 정보를 만드는 과정”은 통계적으로 Aggregation(집계) 또는 Summary Statistics 계산을 의미한다.

평균(Mean) → 데이터의 중심을 나타내는 값
산포도(Dispersion) → 데이터가 얼마나 퍼져 있는지 나타내는 정도
분포도(Distribution) → 데이터가 어떤 모양으로 퍼져 있는지 보여주는 형태

왜 수치적 정보를 얻냐면, 인간은 정량화(Quantification)된 정보가 있어야 비교가 가능하기 때문이다.

그리고 왜 그래프나 도표를 쓰냐면, 인간의 뇌는 숫자보다 시각 패턴을 더 빨리 인식하기 때문이다.

“전체적인 추세”는 Trend를 의미한다.
“특이사항”은 Outlier(이상치)를 의미한다.

즉
숫자로 요약 → 그림으로 확인 → 패턴과 이상치 찾기

정리되지 않은 자료는 데이터로써 가치가 없을 뿐 아니라 내용 파악이 어렵기 때문에 자료의 특성을 대표하는 수치인 기초 통계량으로 변환하게 된다.

왜?

“정리되지 않은 자료”는 Raw Data(원시 데이터)를 의미한다.

왜 가치가 없다고 말하냐면, 데이터는 가공되지 않으면 정보(Information)가 아니기 때문이다.
데이터(Data)는 사실(Fact)의 집합이고, 정보(Information)는 해석 가능한 데이터다.

“자료의 특성을 대표하는 수치”는 Representative Statistic이다.
왜 대표값이 필요하냐면, 모든 데이터를 하나하나 보는 것은 비효율적이기 때문이다.

“기초 통계량”은 Basic Statistics를 말한다.
왜 변환하냐면, 통계량은 복잡한 데이터를 한 개 또는 몇 개 숫자로 압축하기 때문이다.

데이터는 정리되어야 정보가 된다.

데이터의 분포를 이해하기 위한 기초 통계량의 단위는 중심경향치, 산포도, 비대칭도 3가지로 구분한다.

왜?

“분포(Distribution)”는 데이터가 어떤 모양으로 퍼져 있는지를 의미한다.
왜 분포를 이해해야 하냐면, 모델링(Modeling)이나 가설검정(Hypothesis Testing)을 하기 전에 데이터의 형태를 알아야 하기 때문이다.

“기초 통계량의 단위”는 여기서 Category(범주)라는 의미로 쓰였다.

3가지 구분:

1. 중심경향치 (Central Tendency)

평균(Mean), 중앙값(Median), 최빈값(Mode)
왜 필요하냐면, 데이터가 어디에 모여 있는지 알기 위해서다.

2. 산포도 (Dispersion)

분산(Variance), 표준편차(Standard Deviation, SD)
왜 필요하냐면, 데이터가 얼마나 퍼져 있는지 알기 위해서다.

3. 비대칭도 (Skewness)

분포가 좌우로 얼마나 기울었는지
왜 필요하냐면, 데이터가 정규분포(Normal Distribution)인지 아닌지 판단하기 위해서다.

이 문장은 결국 이렇게 말하는 것이다:

분포를 이해하려면
“어디에 모여 있는지 + 얼마나 퍼져 있는지 + 한쪽으로 치우쳤는지”
이 3가지를 봐야 한다.

개념 연결

원시 데이터
   ↓
요약
   ↓
기초 통계량
   ↓
분포 이해
   ↓
분석 준비 완료

중심경향치(Central Tendency)

중심경향치는 통계학 및 수학에서 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표할 수 있는 값을 의미한다.

왜?

통계학(Statistics) → 데이터를 수집·분석·해석하는 학문
수학(Mathematics) → 수량과 구조를 다루는 학문
왜 통계학과 수학에서 정의하냐면, “중심”이라는 개념은 직관이 아니라 수학적으로 정의되어야 하기 때문이다.
자료 데이터 분포(Distribution)
Distribution은 데이터가 퍼져 있는 모양을 뜻한다.

왜 “분포의 중심”이 필요하냐면,
데이터가 수십 개, 수천 개일 때 전체를 한 번에 설명할 수 없기 때문이다.

그래서 “자료 전체를 대표할 수 있는 값”이 필요하다.
이게 바로 중심경향치다.

즉,
많은 데이터를 하나의 숫자로 압축하려는 시도다.

대표값이라고도 하며 중앙값으로는 중심경향치를 온전히 다룰 수 없기 때문에 평균, 최빈값, 중앙값 등을 주요하게 함께 다룸으로써 자료의 중심경향성을 살펴보게 된다.

왜?

대표값(Representative Value)
왜 대표라고 하냐면, 전체 데이터를 대신 설명하기 때문이다.
중앙값(Median)
Median은 정렬 후 가운데 값이다.

그런데 왜 중앙값으로는 온전히 다룰 수 없냐면,
중앙값은 데이터의 “빈도”나 “전체 합의 구조”를 반영하지 못하기 때문이다.

그래서:

평균(Mean)
최빈값(Mode)
중앙값(Median)

을 함께 본다.

왜 함께 보냐면,
각각이 다른 관점의 “중심”을 보여주기 때문이다.

① 평균(Mean)

평균은 관측값의 절대 크기의 중앙이므로 모든 관측값을 더한 값을 관측값의 갯수(n)로 나눈 값이며 산술평균과 동일한 개념이다.

왜?

관측값(Observation) → 실제 측정된 데이터 값
n → 데이터의 개수
왜 n으로 나누냐면, 평균은 “1개당 값”을 구하는 개념이기 때문이다.

모든 값을 더하고
개수로 나누는 이유는
전체를 균등하게 나누면 각 데이터가 같은 비중을 갖게 되기 때문이다.

1-1. 산술평균(Arithmetic Average)

산술평균 = 관측된 숫자들의 총합 / 관측된 숫자들의 총 개수

왜 총합을 개수로 나누냐?

합계는 전체 크기이고,
개수로 나누는 순간 “1개당 평균값”이 된다.

이게 우리가 일상에서 말하는 평균이다.

모평균과 표본평균

μ = (x₁ + x₂ + … + xₙ) / n

μ (뮤) → 모평균 (Population Mean)
xᵢ → i번째 데이터
Σ (시그마) → 합(sum)을 의미
n → 데이터 개수

왜 μ를 쓰냐면,
모집단(Population)의 평균을 표시하기 위한 기호다.

X̄ = (x₁ + x₂ + … + xₙ) / n

X̄ (엑스바) → 표본평균(Sample Mean)

왜 구분하냐?

모집단 전체 평균은 알기 어렵기 때문에
일부 샘플을 뽑아 평균을 계산한다.

그래서 기호를 다르게 쓴다.

평균은 소수의 극단치(매우 작거나 큰 값)에 민감한 특성이 있다.

왜?

평균은 모든 값을 더하기 때문에
1000 같은 큰 값 하나가 들어가면
전체 평균이 크게 올라간다.

이걸 이상치(Outlier) 라고 한다.

1-2. 절사평균(Trimmed Mean)

자료의 총 개수에서 일정 비율만큼 가장 큰 부분과 작은 부분을 제거 후 산술평균을 구할 수 있는데 이를 절사평균이라고 한다.

Trimmed Mean → 잘라낸 평균
p → 절사비율

왜 제거하냐?

극단값이 평균을 왜곡시키기 때문이다.

공식:

왜 n-2p냐?
양쪽에서 p개씩 제거했기 때문이다.

1-3.가중평균(Weighted Mean)

가중평균은 각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 값이다.

wᵢ → 가중치(weight)
왜 가중치를 곱하냐?

모든 데이터가 동일한 중요도를 가지지 않을 때 사용한다.

공식:

왜 다시 가중치 합으로 나누냐?

가중치를 곱했기 때문에
전체 비중을 맞추기 위해 나눠준다.

1-4.기하평균(Geometric Mean)

기하평균은 n개의 양수 값을 모두 곱한 값에 n제곱근을 적용한 값이다.

왜 곱하냐?

성장률, 변화율은 누적되기 때문이다.
곱셈 구조를 가지기 때문이다.

1-5. 조화평균(Harmonic Mean)

조화평균은 주어진 수에 대해 역수의 산술평균의 역수를 구한 값이다.

공식:

왜 역수를 쓰냐?

속도처럼 “분모에 거리”가 있는 단위에서는
시간 평균이 필요하기 때문이다.

2. 중앙값(Median)

중앙값은 데이터를 가장 작은 값부터 큰 값으로 정렬한 후 중심에 있는 값을 의미한다.

왜 정렬하냐?

가운데 값을 찾기 위해서다.

왜 두 개 평균을 내냐?

가운데 값이 두 개이기 때문이다.

3.최빈값(Mode)

최빈값은 자료에서 빈도수가 가장 많은 값이다.

왜 필요하냐?

가장 자주 나타나는 값을 알고 싶을 때 사용한다.

평균, 중앙값, 최빈값 비교

오른쪽 꼬리 길면 → 평균 > 중앙값 > 최빈값
- 큰 값(오른쪽 극단치)이 평균을 오른쪽으로 끌어당기기 때문.
  - 숫자 크기 자체가 커진다는 말이다.
왼쪽 꼬리 길면 → 평균 < 중앙값 < 최빈값
- 작은 값(왼쪽 극단치)이 평균을 왼쪽으로 끌어당기기 때문
- 숫자값 자체가 작아진다.
대칭 → 평균 = 중앙값 = 최빈값

왜 이런 순서가 되냐?

평균은 극단치에 끌려가기 때문이다.

절사평균 예시

자료 1,2,4,5,5,6,6,10,12,60의 평균은 11인데 절사비율을 20%로 절사평균을 구하면 10개 × 0.2 = 2개의 값을 절사하게 된다.

데이터 개수 = 10개
절사비율 20% → 0.2

왜 10개 × 0.2 = 2개냐?

절사비율 p는 전체 데이터에서 제거할 비율이다.
공식적으로는:

즉, 양쪽에서 2개씩 제거한다.

왜 양쪽이냐?

절사평균(Trimmed Mean)은
극단적으로 작은 값과 큰 값을 동시에 제거하기 때문이다.

가장 작은 값 1개와 큰 값 1개인 60을 절사하고 평균을 구하면, (2 + 4 + 5 + 5 + 6 + 6 + 10 + 12) / 8 = 6.25가 된다.

왜?

여기서 중요한 건 "왜 1개씩 제거했는가"다.

전체 2개 제거인데
양쪽에서 1개씩 제거한다.

즉:

최솟값 1 제거
최댓값 60 제거

남은 데이터 개수는:10 - 2 = 8

합은:2 + 4 + 5 + 5 + 6 + 6 + 10 + 12 = 50

평균:50 / 8 = 6.25

왜 평균이 11 → 6.25로 떨어졌는가?

60이라는 극단값이 평균을 심하게 끌어올렸기 때문이다.

절사평균은
극단값 영향을 줄이는 장치다.

가중평균 예시

A학생과 B학생의 영어점수와 수학점수는 각각 다음과 같다.

A학생: 영어 50, 수학 70
B학생: 영어 60, 수학 60

왜 산술평균은 같은가?

A학생:(50 + 70) / 2 = 60

B학생:(60 + 60) / 2 = 60

산술평균은 동일하다.

왜?

모든 과목을 동일한 비중(1/2, 1/2)으로 봤기 때문이다.

영어의 가중치를 50%, 수학의 가중치를 70%라 했을 때

왜 가중치 합이 100%가 아닌가?

여기서 중요한 부분이다.

50% + 70% = 120%

왜 1이 아니라 1.2로 계산하냐?

가중평균 공식은:

가중치 합으로 다시 나누기 때문에
합이 1이 아니어도 상관없다.

A학생:

(50 × 0.5 + 70 × 0.7) / (0.5 + 0.7)
= (25 + 49) / 1.2
= 74 / 1.2 = 61.67

왜 올라갔는가?

수학 점수가 높고
수학 가중치가 더 크기 때문이다.

기하평균 예시

A마우스 출시 가격이 10,000원이었는데, 2월에 20% 가격이 증가하고, 3월에 30% 증가하였으며, 4월에는 10% 감소하였다.

왜 산술평균으로 하면 안 되는가?

20% + 30% - 10% = 40%
산술평균 = 40 / 3 ≈ 13%

하지만 실제 계산은 다르다.

왜?

증가율은 곱셈 구조이기 때문이다.

2월:1.2

3월:1.3

4월:0.9

기하평균:

즉 평균 증가율은 12%

왜 차이가 나는가?

성장률은 누적 곱이기 때문이다.

조화평균 예시

서울과 부산(400km)을 왕복하는데, 갈 때는 시속 400km, 올 때는 시속 100km였다.

왜 산술평균이 틀리는가?

(400 + 100) / 2 = 250 km/h

이게 틀린 이유는
속도는 거리/시간 구조이기 때문이다.

시간을 계산해야 한다.

왕복 거리:400 + 400 = 800km

시간:

400 / 400 = 1시간
400 / 100 = 4시간

총 시간 = 5시간

평균 속도:

800 / 5 = 160km/h

공식으로 하면:

왜 역수를 쓰는가?

속도는 분모에 시간이 있기 때문이다.

정리

상황	써야 할 평균
일반 합/개수	산술평균
극단값 존재	절사평균
중요도 다름	가중평균
성장률	기하평균
속도	조화평균

좋다.
이제 5.1.3.3 산포도 부분을
책 문장 그대로 쓰면서,
토씨 하나도 빼지 않고,
읽는 흐름대로,
모든 용어·단어·기호 뜻을 포함해서
“왜?” 기준으로 전부 설명해준다.

산포도

자료의 측정치들의 흩어진 정도나 측정치들이 가질 수 있는 값의 범위가 얼마인지는 자료의 중앙위치만으로 알 수 없으며 자료 전체에 대한 정보를 얻는데 제한적일 수 있다.

왜?

측정치 → 실제 관측된 숫자값
흩어진 정도 → 퍼져 있는 정도 (Dispersion)
범위 → 최댓값 − 최솟값

왜 중앙위치(평균, 중앙값)만으로는 부족하냐?

평균이 같아도
데이터가 몰려 있을 수도 있고
아주 넓게 퍼져 있을 수도 있기 때문이다.

예:

A: 60, 60, 60, 60, 60
B: 20, 40, 60, 80, 100

두 집단 평균은 60으로 같지만
데이터의 퍼짐은 완전히 다르다.

그래서 중앙위치만으로는 전체 정보를 알 수 없다.

같은 평균을 갖더라도 흩어진 정도에 차이가 있으면 자료의 특성은 다르기 때문이다.

왜?

평균은 “중심”만 말해준다.
하지만 데이터 분석에서 중요한 건

안정적인가?
변동이 큰가?
예측이 쉬운가?

이런 특성이다.

흩어짐이 크면
데이터의 변동성이 크다는 뜻이고
불안정하다는 의미가 된다.

그림 설명

① 좁게 모인 자료 (안정적)

평균 근처에 값이 몰려 있다.
표준편차(Standard Deviation)가 작다.
변동성이 낮다.
예측 가능성이 높다.

② 넓게 퍼진 자료 (불안정)

값이 넓은 구간에 퍼져 있다.
표준편차가 크다.
변동성이 크다.
예측이 어렵다.

왜 이런 차이가 생기냐?

분산(Variance)이 다르기 때문이다.

평균을 예로 들어, A중학교 3학년과 B중학교의 3학년 학생 5명을 대상으로 몸무게를 조사하였다.

왜 평균을 예로 드냐?

평균은 같지만
산포는 다를 수 있다는 걸 보여주기 위함이다.

A중학교의 몸무게 자료는 [75, 65, 78, 62, 70]이고, B중학교의 몸무게 자료는 [100, 40, 90, 50, 70]이라고 했을 때, 몸무게 평균은 두 중학교 모두 70kg으로 같다고 볼 수 있으나, 평균을 중심으로 개인적인 몸무게 차이는 B중학교가 더 크다고 할 수 있다.

왜?

A 평균:

(75+65+78+62+70)/5 = 70

B 평균:

(100+40+90+50+70)/5 = 70

평균은 같다.

하지만 왜 B가 더 크다고 하나?

B는 40도 있고 100도 있다.
평균에서 멀리 떨어진 값이 많다.

즉, 산포도가 크다.

산포도는 이러한 데이터의 흩어져 있는 정도를 설명하는 통계치이며, 중심위치가 얼마나 안정적인지에 대한 정보를 알게 해준다.

왜?

산포도는 Dispersion Measure다.

대표적인 것:

범위(Range)
분산(Variance)
표준편차(Standard Deviation)
변동계수(Coefficient of Variation)

왜 중심위치 안정성과 연결되냐?

산포가 작으면
평균이 대표값으로 신뢰할 수 있다.

산포가 크면
평균은 대표값으로 신뢰하기 어렵다.

범위, 사분위수 범위, 분산, 표준편차, 변동계수 등이 이에 해당한다.

각각 왜 필요하냐?

① 범위(Range)
= 최대값 − 최소값
→ 전체 퍼짐 크기 파악

② 사분위수 범위(IQR)
= Q3 − Q1
→ 극단값 영향을 줄이고 중심부 퍼짐 파악

③ 분산(Variance)
= (편차²의 평균)
→ 수학적으로 변동성을 측정

④ 표준편차(Standard Deviation)
= √분산
→ 원래 단위로 해석 가능

⑤ 변동계수(CV)
= 표준편차 / 평균
→ 서로 다른 단위 비교 가능

결론

산포도는
“평균이 얼마나 믿을 만한가?”를 판단하는 도구다.

평균만 보면 안 된다.
산포까지 봐야 한다.

범위(Range)
사분위수 범위(IQR) + IQR 계산 예시(표)
편차(Deviation)
분산(Variance)·표준편차(Standard Deviation) + (참고) n-1로 나누는 이유(자유도)
표준편차 vs 표준오차(Standard Error) + 개념도
변동계수(CV)

1) 범위 Range

Range = Max − Min

왜?
Range는 데이터가 “어디부터 어디까지 퍼져있나”를 가장 직관적으로 잡는 산포도라서, 최댓값(Max)에서 최솟값(Min)을 빼면 전체 폭(너비)이 바로 계산되기 때문에 이렇게 정의한다.

Range(범위), Max(최댓값), Min(최솟값)

왜?
산포도는 “흩어짐”을 수치화한 것이고, 그중 Range는 가장 단순한 형태라서 영어도 그대로 ‘범위’를 뜻하며, Max/Min은 데이터를 대표하는 극단 지점을 가리키는 약속된 용어다.

장점

왜?
Range는 오직 두 값만 찾으면 되므로 정렬하거나 복잡한 계산 없이도 즉시 산포를 얻을 수 있어, 탐색적 데이터 분석에서 빠른 감 잡기 용도로 자주 먼저 사용한다.

단점

왜?
Range는 중간 값들의 분포를 전혀 보지 않고 Max/Min만 쓰기 때문에, 데이터 대부분이 비슷해도 극단치 하나가 끼면 폭이 터무니없이 커져 “실제 흩어짐”을 과장해서 보여준다.

예시

예를 들어 대부분 1~9 근처인데 55가 하나 섞이면 Max가 55로 바뀌면서 Range가 갑자기 커진다; 이는 55가 전체의 일반적인 성질이 아니라 예외인데도 Range가 그 예외에 끌려가기 때문이다.

포인트

Range는 outlier(이상치)에 매우 민감(sensitive)

2) 사분위수 범위 IQR (Interquartile Range)

IQR 정의

IQR = Q3 − Q1

왜?
IQR은 데이터의 가운데 50%가 차지하는 폭을 보고 싶어서, 25% 지점(Q1)부터 75% 지점(Q3)까지의 구간 길이를 “오른쪽−왼쪽” 형태로 계산하며, 그래서 Q3−Q1이 된다.

IQR = Interquartile Range
Quartile = 사분위수
Q1(25%), Q2(50%·중앙값), Q3(75%)

왜?
Quartile은 데이터를 정렬했을 때 누적 비율로 4등분하는 기준값이고, IQR은 그중 중앙 구간의 폭이므로 극단치를 자연스럽게 배제하는 효과가 있어, Range보다 “저항성(robust)”이 큰 산포도로 쓰인다.

가운데 50%

왜?
그림에서 가운데 50% 영역만 강조하는 이유는 양끝 25%씩에 극단치가 섞일 가능성이 크기 때문이며, 중앙 구간만 보면 “일반적인 데이터가 퍼진 정도”를 더 안정적으로 측정할 수 있다.

IQR이 Box Plot(상자그림)에 쓰이는 이유

왜?
상자그림(Box Plot)은 중앙 50%를 상자로 표시해 데이터의 일반적인 퍼짐을 보여주는데, 그 상자의 길이가 IQR이므로 IQR을 알면 상자그림의 핵심 구조(상자 폭과 이상치 판단)를 바로 이해할 수 있다.

2-1) IQR 산출 예시— 홀수/짝수 케이스

“자료를 정렬한다”

왜?
사분위수는 ‘누적 비율 위치’로 정의되므로, 정렬하지 않으면 25%·50%·75% 지점이 어디인지 결정할 수 없고, 그래서 반드시 오름차순 정렬이 사분위수 계산의 출발점이다.

홀수 n일 때 중앙값(Q2)

왜?
자료 개수 n이 홀수면 가운데가 정확히 한 칸으로 정해지므로, 중앙값(Q2)은 그 가운데 위치의 값이 되며, 이 값이 왼쪽 절반과 오른쪽 절반을 가르는 기준선 역할을 한다.

짝수 n일 때 중앙값(Q2)

왜?
자료 개수 n이 짝수면 가운데가 두 칸이라 한 값으로 딱 떨어지지 않으므로, 두 가운데 값의 평균을 중앙값으로 정의해 중심 위치를 연속적인 값으로 만들고, 이를 기준으로 좌/우 구간을 나눈다.

Q1, Q3 구하는 방식

중앙값을 기준으로 왼쪽 자료와 오른쪽 자료를 나눈 뒤 각각의 중앙값을 Q1, Q3로 잡는 흐름을 사용하므로, 시험에서도 같은 규칙으로 계산해야 정답이 일치한다(다른 규칙이면 값이 달라짐).

IQR 계산

Q3는 상위 25% 경계, Q1은 하위 25% 경계라서, 두 값의 차이는 중앙 50%가 차지하는 길이이며, 이 길이가 클수록 일반적인 데이터가 넓게 퍼져 있다는 뜻이 된다.

3) 편차 Deviation

편차 = (각 관측값) − (평균)

산포를 측정하려면 각 값이 중심(평균)에서 얼마나 떨어졌는지 알아야 하며, 그 “거리(방향 포함)”를 가장 직접적으로 표현하는 것이 편차이므로 관측값에서 평균을 빼는 형태로 정의한다.

표본과 모집단을 구분하는 이유는 실제로는 모집단 전체를 다 알 수 없어서 표본으로 추정하는 경우가 많기 때문이며, 평균 기호를 분리해두면 계산식과 해석(추정 vs 실제)을 헷갈리지 않게 된다.

“편차의 합은 0”

평균은 모든 값을 균등하게 나눈 ‘균형점’이라서, 평균보다 큰 값의 양(+)편차와 평균보다 작은 값의 음(−)편차가 정확히 상쇄되도록 만들어져 결과적으로 편차를 모두 더하면 항상 0이 된다.

4) 분산 Variance, 표준편차 Standard Deviation

편차를 제곱한 것들의 평균이 분산이다.

편차는 더하면 0이 되어 산포 정보를 잃어버리므로, 부호를 없애면서도 큰 차이를 더 크게 반영하기 위해 편차를 제곱해 모두 양수로 만들고 그 평균을 산포의 대표값으로 삼는다.

분산 정의(모/표본)

모집단은 전체의 실제 분산이므로 (\sigma^2)로 표시하고, 표본은 추정치라서 표본분산 (s^2)로 구분해 적는데, 이 구분이 있어야 “진짜 값”과 “추정 값”을 수학적으로 명확히 분리할 수 있다.

표준편차는 왜 루트인가?

왜?
분산은 제곱을 했기 때문에 단위가 원래 단위의 제곱(예: kg²)으로 바뀌어 해석이 불편하므로, 제곱근을 취해 원래 단위(kg)로 되돌려 실제 크기감과 비교가 가능하게 만든다.

표본분산을 n−1로 나누는 이유(자유도, Degrees of Freedom)

자유도(DoF) 뜻

자유도(Degree of Freedom)는 계산에서 독립적으로 값을 정할 수 있는 정보의 개수인데, 표본평균을 이미 계산하면 편차들의 합이 0이 되도록 마지막 편차가 자동으로 결정되어 실제로는 n개가 아니라 n−1개만 자유롭게 움직인다.

그래서 왜 n−1인가?

왜?
표본에서 평균을 구하는 순간 ‘한 개의 제약조건(편차합=0)’이 생겨 데이터의 독립성이 1개 줄어들며, 이 상태에서 분산을 n으로 나누면 체계적으로 작게 추정되는 편향이 생겨 이를 보정하려고 n−1로 나눈다.

표본분산은 자유도 때문에 n−1로 나눈다.

5) 표준편차(Standard Deviation) vs 표준오차(Standard Error)

표준오차(SE) 정의

표준오차(Standard Error)는 “표본을 여러 번 뽑았을 때 표본평균들이 얼마나 흔들리는가”를 나타내는 값으로, 데이터 자체의 퍼짐(SD)이 아니라 ‘평균 추정치의 불확실성’을 측정하기 위해 따로 정의된다.

왜?
표본평균은 n개를 평균내며 우연한 흔들림이 줄어들기 때문에 평균의 퍼짐은 루트n에 반비례하고, 모집단 표준편차 σ를 알면 그것을 쓰며 모르면 표본표준편차 s로 대체한다.

표본을 이용해서 모집단을 추론할 때, 표본을 한 번만 추출해서 통계량을 요약할 수도 있지만, 표본을 여러 번 추출해서 통계량을 요약했을 때 우리가 알고자 하는 모집단의 정보 정확도는 높아질 것이다.

왜?

표본(Sample)은 모집단(Population)에서 일부만 뽑은 데이터이고,
모집단(Population)은 우리가 궁극적으로 알고 싶은 전체 집단이다.
추론(Inference)은 표본을 통해 모집단의 특성을 추정하는 과정이다.

왜 표본을 여러 번 추출하면 정확도가 높아지느냐?
표본을 한 번만 뽑으면 그 표본이 우연히 치우쳐 있을 가능성이 있다.
하지만 여러 번 표본을 뽑으면 각 표본 평균들이 모이면서 하나의 분포를 형성한다.
이걸 표본평균의 분포(Sampling Distribution)라고 한다.
여러 번 반복하면 우연 오차(Random Error)가 평균적으로 상쇄되기 때문에
모집단 평균에 더 가까워진다.

즉, 반복 추출은 “우연성의 평균화” 과정이다.

표준오차는 표본을 여러 번 추출했을 때, 여러 번 추출한 표본들의 평균의 표준편차이다.

표준오차(Standard Error, SE)
- Standard = 표준
- Error = 오차
  즉, “평균의 오차의 표준적인 크기”라는 뜻이다.

여기서 중요한 것은
표준오차는 “원자료의 표준편차”가 아니라
“표본 평균들의 표준편차”라는 점이다.

즉, 표본을 여러 번 뽑아서
각각 평균을 구하면 평균이 여러 개 생긴다.
그 평균들이 얼마나 흩어져 있는지를 측정한 것이 표준오차다.

공식으로는:

왜 √n으로 나누느냐?
표본 평균은 n개를 평균내기 때문에
개수가 많아질수록 평균의 흔들림이 줄어들기 때문이다.

표준편차는 자료의 표준편차이고, 표준오차는 표본 평균의 표준편차이며 표본 평균들의 산포도이다.

표준편차(Standard Deviation, SD)는
“데이터 값 자체의 퍼짐”이다.
표준오차(Standard Error, SE)는
“평균이라는 통계량의 퍼짐”이다.

이 둘은 완전히 다르다.

예를 들어 학생 키가 퍼져 있는 정도는 표준편차고,
그 키 평균이 여러 번 조사했을 때 얼마나 흔들리는가는 표준오차다.

즉,
SD는 데이터의 산포,
SE는 추정치(평균)의 산포다.

따라서 표본이 많을수록 모집단 평균과 가깝게 추정되기 때문에 모집단 평균과 얼마나 차이가 나는지 나타내는 통계량으로 사용한다.

표본 크기 n이 커질수록
표본 평균은 모집단 평균 μ에 수렴한다.

이 현상을 대수의 법칙(Law of Large Numbers)이라고 한다.

표본이 많으면 우연히 치우친 값이 평균에서 희석된다.
그래서 평균이 안정된다.

그래서 표준오차는
“내 평균이 얼마나 믿을 만한가?”를 나타내는 지표다.

모집단의 특성을 추정할 때, 표본 평균의 표준오차가 작을수록 표본의 대표성은 높아진다.

대표성(Representativeness)이 높다는 건
표본이 모집단을 잘 반영한다는 뜻이다.

표준오차가 작다는 건
표본 평균이 거의 흔들리지 않는다는 뜻이다.

즉, 여러 번 조사해도 평균이 비슷하게 나온다는 의미다.

이 말은 곧
“이 평균은 우연에 덜 흔들린다”는 뜻이다.

그래서 대표성이 높다고 해석한다.

즉, 표준오차가 작을수록 좋음을 의미한다.

표준오차는 오차의 크기다.
오차가 작다는 건
모집단 평균에 가까울 가능성이 크다는 뜻이다.

신뢰구간(Confidence Interval)에서도
표준오차가 작으면 구간이 좁아진다.
구간이 좁다는 건 더 정확하다는 뜻이다.

일반적으로 표본의 수 n이 많을수록 표준오차는 작아진다.

공식이 이미 보여준다.

n이 커질수록
분모 √n이 커진다.
분모가 커지면 전체 값은 작아진다.

즉, 표본이 많을수록 평균의 흔들림은 줄어든다.

그래서 큰 표본이 더 신뢰된다.

정리

SD = 데이터의 퍼짐
SE = 평균의 퍼짐
SE는 √n에 반비례
n ↑ → SE ↓ → 정확도 ↑
SE가 작을수록 대표성 높음

6) 변동계수(CV, Coefficient of Variation)

“측정 단위에 따라 표준편차의 값이 달라지므로 단위가 다른 두 집단을 비교하는 경우 두 표준편차의 단위를 같게 할 필요가 있다.”

표준편차(Standard Deviation)는 원래 데이터의 단위를 그대로 가진다.

예를 들어:

공부시간 → 단위: 시간(hour)
몸무게 → 단위: kg
매출 → 단위: 원

표준편차도 똑같은 단위를 가진다.

왜 단위가 문제인가?

예를 들어보자.

집단 A
평균 = 10시간
표준편차 = 2시간

집단 B
평균 = 1000시간
표준편차 = 20시간

표준편차만 보면 B가 더 커 보인다.
하지만 비율로 보면:

A는 평균 대비 20%
B도 평균 대비 2%

즉, 절대값으로 비교하면 왜곡된다.

그래서 “단위를 제거한 상대값”이 필요하다.

“이를 위하여 표준편차를 평균으로 나눈 값에 100을 곱한 값을 변동계수라 하고 상대 변동(분산) 개념으로 정의하고 있다.”

변동계수 정의

변동계수 = 표준편차 ÷ 평균 × 100

왜 이렇게 정의하냐?

표준편차 → 얼마나 퍼졌는지
평균 → 기준 크기
나누면 → 평균 대비 퍼짐의 비율
100 곱하면 → 퍼센트(%)로 표현

▶ 수식

모집단일 때:

σ (시그마) = 모집단 표준편차
μ (뮤) = 모집단 평균

표본일 때:

S = 표본 표준편차
엑스바 = 표본 평균

▶ 왜 σ 대신 S를 쓰는가?

모집단 전체를 다 알면 σ
표본만 있으면 S 사용

통계에서 항상
모집단 → 그리스 문자
표본 → 로마 문자
로 구분한다.

“추정 통계학에서 표본의 크기 결정시 활용하며, 평균의 차이가 큰 두 집단의 산포를 비교할 때도 용이하다.”

변동계수는 다음에 사용된다:

표본 크기 설계
평균이 다른 집단 비교

왜 평균이 다르면 CV가 필요하냐?

표준편차는 평균이 크면 자연히 커지는 경향이 있다.
그래서 평균 차이를 제거하고 비교해야 공정하다.

“변동계수의 값이 작으면 상대적인 차이가 작고, 클수록 상대적인 차이가 크다는 것을 의미한다.”

CV가 작다 → 평균 대비 변동이 작다 → 더 일정하다
CV가 크다 → 평균 대비 변동이 크다 → 더 불안정하다

변동계수 분석 예시

문제 상황

A학생
평균 8시간
표준편차 0.5시간

B학생
평균 6시간
표준편차 0.8시간

누가 더 꾸준한가?

계산

해석

A = 6.3%
B = 13.3%

A가 더 작다.

즉 평균 대비 흔들림이 더 작다.

→ A가 더 꾸준하다.

비대칭도

“자료의 중심경향치를 파악하여 대표성을 확인하고, 산포도를 통해 자료의 퍼짐 정도를 알 수 있으며, 또한 자료의 관측치들이 흩어진 정도나 관측치들이 가질 수 있는 값의 범위를 확인한다.”

이 문장은 통계에서 데이터를 파악하는 기본 2단계를 말한다.

중심경향치 → 어디에 모여 있나?
산포도 → 얼마나 퍼져 있나?

그리고 마지막에 하나 더 추가한다.

→ 값의 범위 (Range)

중심경향치 다시 정확히 정리

평균(Mean)
중앙값(Median)
최빈값(Mode)

왜 이걸 먼저 보냐?

데이터를 한 줄로 요약하려면
“대략 어디에 모여 있는지”부터 알아야 하기 때문이다.

산포도란?

데이터가 평균 주변에서 얼마나 퍼져 있는지.

대표적으로:

분산(Variance)
표준편차(Standard Deviation)

왜 퍼짐을 봐야 하냐?

평균이 같아도 퍼짐이 다르면 완전히 다른 데이터다.

“다만 중심경향치와 산포도로 측정된 통계량으로는 관측치가 집중되어 있는 정보는 알 수 없다.”

평균과 표준편차는 알려준다.

중심
퍼짐

하지만 말해주지 못하는 게 있다.

→ 분포 모양 (Shape)

예를 들어:

데이터 A: 좌우 대칭
데이터 B: 한쪽으로 길게 늘어짐

평균과 표준편차가 같아도
모양은 완전히 다를 수 있다.

그래서 “형태”를 보는 통계량이 필요하다.

“우리가 다루는 대부분의 통계적 분석법은 자료가 정규분포를 만족한다고 가정하고 진행하는 것이기 때문에”

왜 갑자기 정규분포가 나오냐?

정규분포(Normal Distribution)는
종 모양의 좌우대칭 분포다.

많은 통계 기법이 이걸 가정한다:

t-test
ANOVA
회귀분석
상관분석

왜?

정규분포는 수학적으로 다루기 쉽고
확률 계산이 명확하기 때문이다.

“이 규정을 확인하여 관측치 값이 좌, 우로 몰려 있는 정도에 따라 데이터 변환 등을 통해 정규분포를 따르는 검정방법을 만족시켜야 한다.”

만약 데이터가:

왼쪽으로 몰림
오른쪽으로 몰림

→ 정규분포 가정을 깨뜨릴 수 있다.

그래서:

로그변환(Log Transform)
제곱근 변환(Square Root Transform)

같은 방법을 써서
분포를 대칭에 가깝게 만든다.

1. 왜도 (Skewness)

“왜도는 자료 분포의 모양이 좌, 우 어느 쪽으로 얼마나 기울어져 있는가의 비대칭성 정도를 나타내는 통계량이다.”

왜도(Skewness)는

분포가
어느 방향으로
얼마나 기울어졌는지

를 수치화한 것이다.

Skewness = 비대칭성(Asymmetry)

“대칭을 이루는 정규분포는 최빈값과 함께 평균과 중앙값이 중앙의 한 곳에 위치하는데”

정규분포 특징

정규분포에서는:

평균 = 중앙값 = 최빈값

왜?

좌우가 완전히 대칭이기 때문이다.

“최빈값이 도수곡선의 왼쪽이나 오른쪽에 위치할 경우 평균과 중앙값은 최빈값 위치와 다른 곳에 위치하게 된다.”

왜도가 발생하면

평균
중앙값
최빈값

위치가 달라진다.

왜도 < 0 (왼쪽 꼬리 길다)

평균 < 중앙값 < 최빈값

왜?

왼쪽에 작은 값들이 길게 늘어져 있어서
평균이 왼쪽으로 끌려가기 때문이다.

왜도 > 0 (오른쪽 꼬리 길다)

최빈값 < 중앙값 < 평균

왜?

큰 값들이 평균을 오른쪽으로 끌어당긴다.

왜도 공식

왜 3제곱이냐?

제곱하면 부호가 사라진다.
세제곱하면 부호가 유지된다.

그래서:

왼쪽 치우침 → 음수
오른쪽 치우침 → 양수

또한 세제곱은
평균에서 멀리 있는 값에 더 큰 가중치를 준다.

② 첨도 (Kurtosis)

“첨도는 자료의 분포가 중심에서 어느 정도 멀리 있는가를 측정할 때 사용되는 통계량이다.”

첨도는 “뾰족함”만 보는 게 아니다.

실제로는:

꼬리가 얼마나 두꺼운가
극단값이 얼마나 많은가

를 보는 것이다.

“정규분포는 첨도가 3인 분포이며”

왜 3이냐?

정규분포의 수학적 계산 결과가 3이기 때문이다.

“일반적으로 정규분포의 첨도를 0으로 만들기 위해 3을 빼고 정의하는 경우가 많은데 이를 Excess Kurtosis라 한다.”

Excess = 초과

즉:

실제 첨도 − 3

정규분포 기준을 0으로 맞추는 것이다.

첨도 공식

▶ 왜 4제곱이냐?

4제곱은 극단값을 훨씬 더 크게 만든다.

그래서:

꼬리가 두꺼우면 값이 커진다.
극단값이 많으면 양수 크게 나온다.

첨도 해석

첨도 < 0 → 퍼진 분포 (Platykurtic)
첨도 = 0 → 정규와 유사 (Mesokurtic)
첨도 > 0 → 뾰족 + 꼬리 두꺼움 (Leptokurtic)

728x90

LIST

'2. 빅데이터 탐색 > 데이터 탐색' 카테고리의 다른 글

다변량 데이터 탐색 (0)	2026.02.27
시공간 데이터 탐색 (0)	2026.02.27
시각적 데이터 탐색 (1)	2026.02.26
상관관계 분석 (0)	2026.02.24
데이터 탐색 개요 (0)	2026.02.24

'2. 빅데이터 탐색/데이터 탐색' Related Articles