Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

hye-_

상관관계 분석 본문

2. 빅데이터 탐색/데이터 탐색

상관관계 분석

hyehh 2026. 2. 24. 21:56

728x90

SMALL

데이터 탐색은 데이터 분석에 앞서 변수들의 관계를 파악하는 목적을 가지고 있다.

데이터 탐색은

데이터 탐색 (Exploratory Data Analysis, EDA)

Exploratory = 탐색의
Data = 데이터
Analysis = 분석

왜 “탐색”이라는 단어를 쓰는가?

왜냐하면 분석 전에 데이터를 “이해”하는 과정이 필요하기 때문이다.

데이터는 그냥 숫자 덩어리가 아니다.
그 안에는 구조, 이상치, 관계, 왜곡, 분포가 숨어 있다.

왜 그냥 바로 모델을 만들면 안 될까?

→ 데이터를 이해하지 않으면
잘못된 변수 선택
잘못된 가정
잘못된 모델링
이 발생하기 때문이다.

즉, 데이터 탐색은 지도 없이 산에 오르지 않기 위한 사전 정찰 과정이다.

데이터 분석에 앞서

왜 “앞서”라고 표현했을까?

데이터 분석(Data Analysis)은

모델링
예측
추론
통계 검정

같은 실제 계산 작업을 의미한다.

그런데 그 전에 데이터 상태를 모르면

변수 단위가 다를 수도 있고
이상값(outlier)이 존재할 수도 있고
분포가 비정규일 수도 있다

그래서 “앞서”라는 말은
분석의 전제 조건 단계라는 뜻이다.

변수들의 관계를

변수 (Variable)

Variable = 변할 수 있는 것

왜 변수는 중요할까?
데이터는 결국 “변수들의 집합”이다.

예:

키
몸무게
나이
소득

이 변수들이 서로 독립적인가?
아니면 영향을 주는가?

그 “관계”를 보지 않으면
모델이 잘못된 결론을 낼 수 있다.

파악하는 목적을 가지고 있다.

왜 목적이 “관계 파악”일까?

데이터 분석의 핵심은
“무엇이 무엇에 영향을 주는가?”

이걸 모르면

설명변수(Independent Variable) 선택이 틀리고
종속변수(Dependent Variable) 해석이 틀린다

그래서 탐색은 단순히 보는 것이 아니라
구조를 이해하는 단계다.

수집된 변수의 상관관계를 파악하여 분석을 위한 독립변수와 설명변수 등을 파악할 수 있고, 이상값을 제거할 수 있으며, 개별 변수들 간의 관계를 관찰하여 발견하지 못한 패턴을 발견할 수 있다.

수집된 변수의 상관관계를 파악하여

상관관계 (Correlation)

Correlation = 함께 관련되어 움직임
co- (함께) + relation (관계)

왜 상관관계를 보나?

데이터는 대부분 혼자 존재하지 않는다.
키와 몸무게
공부시간과 성적
광고비와 매출

이런 관계를 수치화하는 것이 상관관계다.

분석을 위한 독립변수와 설명변수 등을 파악할 수 있고

독립변수 (Independent Variable)

Independent = 독립적인
다른 변수에 의해 결정되지 않는다고 가정하는 변수

설명변수 (Explanatory Variable)

어떤 결과를 설명하는 역할을 하는 변수

왜 이걸 구분하나?

모델링에서
X (입력)
Y (출력)

을 구분해야 하기 때문이다.

상관관계를 보면
어떤 변수가 설명력이 있는지 추정 가능하다.

이상값을 제거할 수 있으며

이상값 (Outlier)

Out = 밖에
lier = 누워있는 것

즉, 분포 밖에 튀어나온 값

왜 제거해야 할까?

상관계수는 평균 기반 계산이기 때문에
극단값 하나가 전체 관계를 왜곡시킬 수 있다.

그래서 탐색 단계에서 반드시 확인한다.

개별 변수들 간의 관계를 관찰하여 발견하지 못한 패턴을 발견할 수 있다.

패턴 (Pattern)

반복되는 구조
일정한 규칙성

왜 패턴을 찾아야 할까?

데이터 분석의 본질은
보이지 않는 구조를 발견하는 것

산점도를 그려보기 전까지는
관계가 직선인지 곡선인지
군집이 있는지 없는지 모른다.

그래서 탐색은 “발견의 과정”이다.

상관관계 분석(Correlation Analysis)은 두 개의 연속형 변수 간의 선형적 관계를 분석하는 기법이다.

상관관계 분석(Correlation Analysis)은

Correlation = 상관
Analysis = 분석

왜 굳이 분석이라는 말을 쓰는가?

단순히 보는 것이 아니라
수치로 계산하기 때문이다.

대표적인 상관계수:

피어슨 상관계수 (Pearson Correlation Coefficient)
스피어만 상관계수 (Spearman Rank Correlation)

두 개의 연속형 변수 간의

연속형 변수 (Continuous Variable)

Continuous = 끊어지지 않는

예:

키 (170.1, 170.23 가능)
몸무게 (65.3kg 가능)

왜 연속형이어야 하나?

피어슨 상관계수는
거리와 평균 기반 계산이기 때문에
연속적 값이 필요하다.

선형적 관계를 분석하는 기법이다.

선형 (Linear)

Line = 직선

왜 선형만 보나?

상관계수는
직선 관계의 강도를 측정한다.

곡선 관계는 잘 측정하지 못한다.

선형적 관계라 함은 흔히 비례식이 성립되는 관계를 말한다.

비례식이란?

y = ax

왜 비례를 말하나?

선형 관계는
기울기와 절편으로 표현 가능하다.

즉, x가 증가하면
y도 일정 비율로 증가하는 구조다.

즉, 상관관계 분석은 변수들 간의 선형성 강도에 대한 통계적 분석이라 할 수 있다.

선형성 강도란?

얼마나 직선에 가까운가?

상관계수 r 값:

+1 → 완전 양의 선형관계
0 → 선형관계 없음
-1 → 완전 음의 선형관계

왜 통계적이라고 하는가?

표본 데이터를 기반으로
수치로 추정하기 때문이다.

예를 들어, 키와 몸무게의 상관관계를 분석하고자 할 때, 주어진 데이터 집합을 산점도로 도식화하면 키가 증가할수록 몸무게 또한 증가하는 패턴을 확인할 수 있는데, 이는 키와 몸무게 두 변수는 양(+)의 상관관계를 가지고 있다는 의미로 해석할 수 있다.

산점도 (Scatter Plot)

Scatter = 흩뿌리다
Plot = 그리다

왜 산점도를 쓰나?

눈으로 관계를 보기 위해서다.

키가 증가할수록 몸무게 또한 증가하는 패턴

이게 바로 양의 상관관계다.

양(+) = 같은 방향

x ↑ → y ↑

정리

데이터 탐색은 분석 전에 한다
목적은 변수 관계 이해
상관관계는 두 변수의 선형 관계 강도 측정
선형은 직선 관계
상관계수는 -1~1 사이 값

상관관계 분석(Correlation Analysis) 이 제대로 작동하기 위해 필요한 전제 조건(가정사항, Assumptions)

왜 가정이 필요할까?

통계 기법은 아무 데이터에나 쓰는 도구가 아니다.
특정 조건이 만족되어야만 그 계산 결과가 왜곡되지 않고 의미를 가진다.

즉,

상관관계 분석은 아무 때나 쓰는 것이 아니라,
반드시 지켜야 할 전제 조건이 있다.

상관관계 분석의 가정사항(가능조건)은 아래와 같다.

왜 “가정사항”이라는 말을 쓰는가?

가정사항 (Assumptions)

Assumption = 가정
어떤 분석이 성립하기 위해 “미리 전제하는 조건”

왜 통계에서 가정이 중요할까?

통계 계산은 수학적 공식을 기반으로 한다.
그 공식은 특정 조건에서만 정확하다.

예를 들어:

정규분포를 가정했는데 실제 데이터가 한쪽으로 치우쳐 있다면
선형관계를 가정했는데 실제는 곡선 관계라면

계산 결과는 틀릴 수 있다.

그래서 “가능조건”이라고도 표현한다.
조건이 만족될 때만 사용 가능하다는 뜻이다.

1) 이변량 : 비교 가능한 두 개의 연속형 변수 존재.

이변량 (Bivariate)

Bi = 두 개
Variate = 변수

즉, Bivariate = 두 변수

왜 상관관계 분석은 이변량이어야 할까?

상관관계 분석은
“두 변수 사이의 관계 강도”를 측정하는 도구다.

변수가 하나뿐이면 관계 자체가 존재할 수 없다.
세 개 이상이면 다변량(Multivariate) 분석이 된다.

그래서 기본 전제는 두 개다.

비교 가능한 두 개의

왜 “비교 가능한”이라는 말을 쓸까?

단위나 성격이 완전히 다른 값은
관계 해석이 어려울 수 있다.

예를 들어

혈액형과 키
이름과 몸무게

이런 경우는 상관계수를 계산할 수 없거나 의미가 없다.

연속형 변수 (Continuous Variable)

Continuous = 끊어지지 않는
Variable = 변수

연속형이란 무엇인가?

값이 실수 범위에서 자유롭게 존재할 수 있는 변수다.

예:

키 170.1cm
몸무게 65.38kg

왜 연속형이어야 할까?

피어슨 상관계수 (Pearson Correlation Coefficient)는
평균과 표준편차를 기반으로 계산한다.

범주형 변수 (Categorical Variable)는
평균 개념이 성립하지 않는다.

그래서 연속형이라는 조건이 붙는다.

2)정규분포: 변수 중 적어도 하나의 변수가 정규분포를 만족하는지 여부(정규성을 만족).

정규분포 (Normal Distribution)

Normal = 정상적인
Distribution = 분포

수학적으로는
평균을 중심으로 좌우 대칭인 종 모양 곡선이다.

왜 정규분포를 가정할까?

피어슨 상관계수는
통계적 유의성 검정 (Significance Test)을 할 때
정규성을 기반으로 p-value를 계산한다.

만약 정규분포가 아니면?

왜곡된 분포
한쪽으로 긴 꼬리 (Skewness)

이런 경우 상관계수의 통계적 검정이 정확하지 않을 수 있다.

변수 중 적어도 하나의 변수가

왜 둘 다가 아니라 “적어도 하나”라고 할까?

이론적으로는 두 변수 모두 정규성을 가지는 것이 이상적이다.

하지만 현실 데이터에서는
완벽한 정규성을 만족하기 어렵다.

그래서 최소한 한 변수라도
정규성을 만족하면 분석이 가능하다고 보는 것이다.

정규성을 만족

정규성 (Normality)

데이터가 정규분포를 따르는 특성

왜 “만족”이라는 표현을 쓰나?

완벽한 정규분포는 현실에서 거의 없다.

그래서 통계에서는
“정규성을 크게 벗어나지 않으면”
만족한다고 판단한다.

3)선형성 검증:연속형 두 변수 간에는 선형적인 관계 존재, 상관관계 분석 전에 두 변수 간의 산점도를 그려 선형성이 있는지 확인해야 함.

선형성 (Linearity)

Linear = 직선의
-ity = 성질

선형성 = 직선 관계의 성질

왜 선형성이 중요한가?

피어슨 상관계수는
직선 관계만 측정한다.

만약 관계가 곡선이면
상관계수는 0에 가깝게 나올 수도 있다.

하지만 실제로는 강한 곡선 관계가 존재할 수 있다.

즉,

선형성이 없으면
상관관계 분석은 왜곡된다.

산점도 (Scatter Plot)

Scatter = 흩뿌리다
Plot = 그리다

왜 산점도를 그려야 할까?

눈으로 보면

직선인지
곡선인지
이상값이 있는지

즉시 확인할 수 있다.

통계 계산 전에
시각적 검증을 반드시 해야 한다는 뜻이다.

정리

상관관계 분석은:

두 개의 연속형 변수 필요 (이변량 조건)
정규성 조건 필요
선형성 존재해야 함

이 세 가지 조건이 무너지면
상관계수 결과는 신뢰하기 어렵다.

상관관계 분석(Correlation Analysis)의 결과 해석과 한계, 그리고 회귀분석과의 차이

즉, “상관관계 분석으로 무엇을 알 수 있고, 무엇을 알 수 없는가”

상관관계 분석으로 두 변수 간의 선형관계를 가지고 있는지, 양(+)과 음(-)의 관계인지, 선형성의 크기(강도)는 얼마인지를 분석할 수 있다.

두 변수 간의 선형관계를 가지고 있는지

선형관계 (Linear Relationship)

Linear = 직선
Relationship = 관계

왜 선형관계만 보는가?

피어슨 상관계수(Pearson Correlation Coefficient, r)는
두 연속형 변수의 직선적 관계 강도를 측정하기 위해 만들어졌다.

만약 관계가 곡선이면
상관계수 값이 낮게 나올 수 있어서 실제 관계를 왜곡할 수 있다.

즉, 상관분석은 “선형성 존재 여부” 확인용이다.

양(+)과 음(-)의 관계인지

양(Positive) 상관

값이 같이 증가하면 양의 상관(+)

음(Negative) 상관

한 값이 증가할 때 다른 값이 감소하면 음의 상관(-)

왜 방향을 보는가?

관계가 어느 방향으로 움직이는지 알아야 변수 간 상호작용을 이해할 수 있다.
단순히 강도만 알면, 증가인지 감소인지 알 수 없기 때문이다.

선형성의 크기(강도)는 얼마인지를 분석할 수 있다

상관강도 (Strength of Correlation)

얼마나 직선에 가까운가를 수치로 나타낸 것
피어슨 상관계수 r 값 범위: -1~+1

왜 강도를 측정하나?

관계가 미미한지, 보통인지, 강한지 판단해야 분석 결과 해석이 가능하다.

예: r = 0.1 → 약한 관계
r = 0.7 → 강한 관계

따라서 변수들 간의 구체적인 인과관계(함수관계)를 파악하는 것이 아니며, 한 변수의 값으로부터 다른 변수의 값을 예측하고자 하는 인과관계는 회귀분석이 사용된다(가계소득이 높으면 저축금액은 얼마나 될까를 예측하는 사례).

구체적인 인과관계(함수관계)를 파악하는 것이 아니며

인과관계 (Causation)

Cause = 원인
Relation = 관계

왜 상관관계 분석은 인과관계를 알 수 없나?

상관계수는 단순히 두 변수의 값이 같이 움직이는 정도를 수치로 표현할 뿐이다.
어떤 변수가 다른 변수를 “원인”이라고 단정할 수 없다.

예를 들어, 아이스크림 판매량과 익사 사고가 동시에 증가해도
둘 사이의 직접적 인과관계는 존재하지 않을 수 있다.

한 변수의 값으로부터 다른 변수의 값을 예측하고자 하는 인과관계는 회귀분석이 사용된다

회귀분석 (Regression Analysis)

Regression = 회귀, 예측

왜 회귀분석을 쓰는가?

회귀분석은 한 변수를 독립변수(X)로 두고
다른 변수를 종속변수(Y)로 설정하여
Y = f(X) 형태로 함수적 관계를 모델링할 수 있다.

즉, 상관관계 분석보다 한 단계 더 나아가서
“예측 가능한 인과 관계”를 확인할 때 필요하다.

예시: 가계소득이 높으면 저축금액은 얼마나 될까를 예측

실제 데이터를 적용하면 이해가 쉽다.

X = 가계소득
Y = 저축금액

회귀분석을 통해 “소득이 100만원 증가하면 평균 저축금액은 얼마나 증가하는지” 계산 가능하다.

상관관계 분석만으로는
“증가/감소 방향과 강도”만 알 수 있다.
정확한 수치 예측은 불가능하다.

두 변수의 선형성은 산점도를 이용해 가시적으로 확인할 수 있으며, 양과 음의 방향과 크기는 상관계수로 측정한다.

산점도를 이용해 가시적으로 확인할 수 있으며

산점도 (Scatter Plot)

Scatter = 흩뿌리다
Plot = 그리다

왜 산점도를 그리나?

눈으로 두 변수 간 관계를 직관적으로 확인하기 위해서다.
선형성 여부, 이상치(outlier), 데이터 패턴을 확인할 수 있다.

숫자 계산만으로는 직선/곡선/군집 여부를 알기 어렵다.

양과 음의 방향과 크기는 상관계수로 측정

상관계수 (Correlation Coefficient, r)

수치로 관계의 방향과 강도를 나타냄
+1 → 완전 양의 상관, -1 → 완전 음의 상관, 0 → 상관 없음

왜 수치로 측정하나?

시각적 확인만으로는 정량적 비교가 어렵기 때문이다.
r 값으로 변수들 간 상관 강도를 비교하고 순위를 정할 수 있다.

예를 들어, 변수 A, B, C가 있다고 가정했을 떄 A와 B의 상관계수는 0.3, A와 C의 상관계수는 0.7이면, A와 C의 상관관계가 더 강한 상관관계를 가진다고 해석할 수 있다.

예시 해석

변수 A와 B → r = 0.3 → 약한 관계
변수 A와 C → r = 0.7 → 강한 관계

왜 이렇게 해석할까?

상관계수는 관계 강도를 0~1 사이 값으로 표현하므로,
숫자가 클수록 두 변수 간 선형관계가 더 강하다고 판단한다.

즉, 실제 분석에서는 r 값을 기준으로 변수 간 관계의 상대적 강도를 평가한다.

정리

상관분석 → 선형관계 존재 여부, 양/음 방향, 강도 확인
상관분석 → 인과관계 X, 예측 X
예측/인과관계 → 회귀분석 사용
선형성 → 산점도로 확인
방향과 강도 → 상관계수로 정량화

상관계수 해석 방법과
공분산(Covariance)과 상관계수(Correlation Coefficient)의 개념적 차이

상관관계개수 해석

왜 “상관관계개수 해석”이라고 하는가?

여기서 말하는 것은 정확히는
상관계수(Correlation Coefficient) 이다.

Correlation = 상관
Coefficient = 계수 (비율을 나타내는 수치)

왜 해석이 중요한가?

상관계수는 단순 숫자다.
0.3, -0.7 이런 숫자만 보면 의미가 없다.

그래서

선형성
방향
강도

라는 기준으로 해석해야 한다.

1)선형성: 두 개의 변수 간의 직선관계(비례식), 산점도로 확인.

선형성

선형성 (Linearity)

Linear = 직선
-ity = 성질

왜 선형성을 먼저 보는가?

피어슨 상관계수(Pearson Correlation Coefficient)는
직선적 관계만 측정하기 때문이다.

곡선 관계는 잘 반영하지 못한다.

두 개의 변수 간의 직선관계(비례식)

직선관계란 무엇인가?

y = ax + b 형태

비례식은
y = ax

왜 비례식을 언급하나?

선형관계는 일정한 비율로 변화하는 구조를 말하기 때문이다.

예:
키가 커질수록 몸무게가 일정 비율로 증가

산점도로 확인

산점도 (Scatter Plot)

Scatter = 흩뿌리다
Plot = 그리다

왜 산점도로 확인하는가?

숫자만으로는 관계 형태를 알 수 없다.
눈으로 찍어보면
직선인지, 곡선인지, 무작위인지 알 수 있다.

그래서 분석 전에 반드시 시각적 검증을 한다.

2)선형관계의 방향(단조성): 양(+)의 상관관계(한 변수의 값이 증가함에 따라 다른 변수값도 증가), 음(-)의 상관관계(한 변수의 값이 증가함에 따라 다른 변수값은 감소), 0(선형 상관관계 없음).

선형관계의 방향(단조성)

단조성 (Monotonicity)

Mono = 하나
tonic = 방향

왜 단조성이라는 말을 쓰는가?

한 방향으로만 증가하거나 감소하는 관계를 말한다.
중간에 방향이 바뀌지 않는 구조다.

양(+)의 상관관계

Positive Correlation

왜 양이라고 부르는가?

상관계수 r 값이 +이면
같은 방향으로 움직인다.

x ↑ → y ↑

즉, 함께 증가한다.

음(-)의 상관관계

Negative Correlation

왜 음이라고 부르는가?

상관계수 r 값이 -이면
반대 방향으로 움직인다.

x ↑ → y ↓

즉, 하나 증가하면 다른 하나 감소한다.

0(선형 상관관계 없음)

r = 0

왜 0이면 선형관계가 없다고 하는가?

직선적 관계의 강도가 없다는 뜻이다.

하지만 주의할 점:
곡선 관계가 존재할 수도 있다.

즉, “선형”이 없다는 뜻이지
“아무 관계도 없다”는 뜻은 아니다.

3)관계의 크기(강도) -1 ~ +1 : 사이의 값. -1,+1: 완전한 선형관계. 피어슨 상관계수의 크기.

관계의 크기(강도)

왜 강도를 수치화하는가?

관계가 약한지 강한지 판단해야
해석과 의사결정이 가능하다.

-1 ~ +1 : 사이의 값

왜 이 범위인가?

피어슨 상관계수 공식은
공분산을 표준편차로 나누어 계산한다.

그래서 이론적으로
값은 -1과 +1 사이로 제한된다.

-1,+1: 완전한 선형관계

왜 완전한가?

r = +1
→ 모든 점이 완벽히 하나의 직선 위에 존재

r = -1
→ 완벽히 반대 방향 직선 위에 존재

즉, 오차가 전혀 없다.

피어슨 상관계수의 크기

피어슨 상관계수 (Pearson Correlation Coefficient)

왜 피어슨인가?

통계학자 Karl Pearson 이 제안한 상관계수이기 때문이다.

이 계수는 가장 널리 쓰이는 선형 상관 측정 방식이다.

두 변수의 선형관계를 측정하는 통계량으로는 공분산과 상관계수가 있다.

공분산 (Covariance)

Co = 함께
Variance = 분산

왜 공분산이 필요한가?

두 변수가 함께 얼마나 변하는지 측정한다.

하지만 단점이 있다.
단위의 영향을 받는다.

예:
cm 단위와 m 단위는 값이 달라진다.

상관계수 (Correlation Coefficient)

왜 상관계수를 쓰는가?

공분산을 표준화(Standardization)한 값이기 때문이다.

즉,

상관계수 = 공분산 ÷ (표준편차 × 표준편차)

그래서 단위의 영향을 받지 않는다.
비교가 가능하다.

공분산

공분산(Covariance)은 두 변수 X,Y가 서로 어떤 패턴(Pattern)을 보여주는가를 나타내는 지표이며, 서로 다른 변수들 사이에 얼마나 의존하는지를 수치적으로 표현한다.

공분산(Covariance)
→ Co(함께) + Variance(분산, 흩어짐)
→ “함께 흩어지는 정도”라는 뜻이다.
변수(Variable)
→ 값이 변하는 대상. 예: 키(X), 몸무게(Y)
패턴(Pattern)
→ 반복적으로 나타나는 일정한 움직임이나 경향
지표(Indicator)
→ 어떤 상태를 숫자로 보여주는 기준값
의존(Dependence)
→ 한 변수가 바뀔 때 다른 변수도 함께 변하는 경향

왜 이렇게 정의하냐

왜 공분산을 “패턴을 보여주는 지표”라고 하냐면,
데이터 분석에서는 각 변수의 크기보다 둘이 같이 움직이는 방식이 더 중요하기 때문이다.

왜 “의존을 수치적으로 표현한다”고 하냐면,
“같이 움직이는 것 같다”는 말은 주관적이기 때문에
반드시 숫자로 표현해야 비교와 분석이 가능하기 때문이다.

분산을 공유한다는 의미의 공분산은 동시에 두 개의 변수값을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표로 사용되며, 두 변수는 질적변수가 아닌, 크기가 측정되는 양적변수이다.

분산(Variance)
→ 값들이 평균으로부터 얼마나 흩어져 있는가를 나타내는 값
공유(share)
→ 함께 가진다는 의미
개별 관측치(Observation)
→ 데이터 한 줄. 한 사람, 한 사건, 한 시점
평균(Mean)
→ 모든 값을 더해서 개수로 나눈 값
질적변수(Qualitative variable)
→ 숫자처럼 보이지만 크기 비교가 의미 없는 변수
예: 남자=1, 여자=2 (2가 더 크다는 뜻 아님)
양적변수(Quantitative variable)
→ 실제 크기를 측정하는 변수
예: 키, 점수, 온도

왜 평균으로부터 떨어진 정도를 보냐

왜 그냥 X값, Y값을 보지 않고
평균으로부터 얼마나 떨어졌는지(편차)를 보냐면,

공분산은 “둘이 같은 방향으로 움직였는지”를 보려는 것이기 때문이다.

평균보다 큰 값은 +, 작은 값은 -가 된다.
그래야 방향성이 생긴다.

왜 질적변수는 안 되냐면,
질적변수는 평균이라는 개념 자체가 의미 없기 때문이다.
평균이 없으면 편차도 없고, 편차가 없으면 공분산도 계산 불가능하다.

따라서 수학적으로 공분산을 정의하면 변수 X와 변수 Y가 동시에 변하는 정도를 양으로 표현한 것으로 X의 편차와 Y의 편차의 곱을 평균한 값을 의미한다.

수학적으로 정의(Definition)
→ 말이 아니라 공식으로 표현한다는 뜻
동시에 변한다
→ X가 올라갈 때 Y도 올라가거나
X가 내려갈 때 Y도 내려가는 관계
편차(Deviation)
→ (값 - 평균)

왜 편차의 곱을 쓰냐

왜 X의 편차와 Y의 편차를 곱하냐면,

둘 다 평균보다 크면 (+ × +) = +
둘 다 평균보다 작으면 (- × -) = +
하나는 크고 하나는 작으면 (+ × -) = -

즉, 곱을 하면
같은 방향이면 양수
반대 방향이면 음수

이렇게 자동으로 방향 정보가 생긴다.

왜 평균을 다시 내냐면,
관측치가 여러 개이기 때문에
전체 경향을 하나의 숫자로 정리하기 위해서다.

σxy는 모집단의 공분산인 모공분산을 의미하며, 표본집단의 공분산은 Sxy로 표현하고 오차를 줄이기 위해 N이 아닌 n(표본의 갯수)-1로 나눠준다.

σ (시그마, Sigma)
→ 통계에서 모집단(Population) 값을 나타내는 기호
σxy
→ 모집단 X와 Y의 공분산 (모공분산)
모집단(Population)
→ 전체 집단
표본(Sample)
→ 모집단에서 일부만 뽑은 것
Sxy
→ 표본 공분산
N
→ 모집단의 데이터 개수
n
→ 표본의 데이터 개수

왜 n-1로 나누냐

왜 N이 아니라 n-1로 나누냐면,

표본에서는 이미 “표본 평균”을 계산해서 사용했다.
평균을 추정하는 순간 자유도(Degree of Freedom)가 1 줄어든다.

자유도란
자유롭게 변할 수 있는 데이터의 수를 말한다.

그 보정을 하지 않으면
공분산 값이 체계적으로 작아지는 편향(Bias)이 생긴다.

그래서 n이 아니라 n-1로 나눠준다.
이걸 불편추정(Unbiased estimation)이라고 한다.

정리

공분산은

평균을 기준으로
두 변수의 방향성을 비교해서
그 방향이 같은지 반대인지 숫자로 나타내는 것
모집단과 표본은 공식이 약간 다름 (n-1 보정)

공분산의 “해석 방법”과 “한계점”, 그리고 그 한계를 보완하는 “상관계수”

두 변수의 공분산 값이 0보다 크면 양(+)의 상관관계, 0보다 작으면 음(-)의 상관관계로 해석하고, 0인 경우는 서로 상관이 없음을 의미한다(독립의 의미는 아님).

공분산 값
→ 두 변수의 편차 곱을 평균한 값
0보다 크면 양(+)
→ +는 플러스(plus)의 기호
상관관계(Correlation)
→ Correlation은 “함께 움직이는 관계”라는 뜻
→ co(함께) + relation(관계)
0보다 작으면 음(-)
→ -는 마이너스(minus)의 기호
0인 경우
→ 편차 곱의 평균이 0이라는 의미
독립(Independence)
→ 한 변수가 변해도 다른 변수에 전혀 영향을 주지 않는 상태

왜 이렇게 해석하냐

왜 공분산이 0보다 크면 양의 상관관계냐면,
편차의 곱이 평균적으로 양수라는 뜻이기 때문이다.

X가 평균보다 클 때 Y도 평균보다 크고,
X가 평균보다 작을 때 Y도 평균보다 작다면
(+ × +) 또는 (- × -)가 반복되어 전체 평균이 양수가 된다.

왜 0보다 작으면 음의 상관관계냐면,
X가 평균보다 클 때 Y는 평균보다 작고
X가 작을 때 Y는 크다면
(+ × -)가 반복되어 평균이 음수가 되기 때문이다.

왜 0이면 상관이 없다고 하냐면,
양수와 음수가 섞여 평균적으로 상쇄되었다는 뜻이기 때문이다.

그런데 왜 “독립의 의미는 아님”이라고 괄호를 치냐면,
공분산이 0이라는 것은 선형적 관계(linear relationship)가 없다는 뜻이지,
비선형 관계까지 없다는 뜻은 아니기 때문이다.

예를 들어, U자 형태 관계는 공분산이 0이 될 수 있지만
완전히 독립이라고 할 수는 없다.

그런데 공분산에는 문제점이 하나 있다.

왜 문제점이 있다고 하냐면,
공분산은 방향성은 알려주지만
그 값 자체의 크기를 비교하기에는 한계가 있기 때문이다.

즉, 공분산 값이 100이라고 해서
무조건 강한 관계라고 말할 수 없기 때문이다.

X와 Y의 단위의 크기(cm, kg등)에 영향을 받는다는 것이다.

cm (centimeter) → 길이 단위
kg (kilogram) → 질량 단위

왜 단위 영향을 받냐면,
공분산 공식은 (X의 편차 × Y의 편차)의 평균이다.

만약 X 단위를 cm에서 m로 바꾸면
값이 100배 작아진다.

편차도 100배 작아진다.
그러면 곱은 100 × 100 = 10000배 작아진다.

즉, 단위를 바꾸면 공분산 값이 기하급수적으로 달라진다.

이건 관계가 바뀐 게 아니라
“표현 단위”만 바뀐 것이다.

그래서 문제가 된다.

즉, 국어점수와 영어점수의 방향성은 알 수 있으나 그 강도는 나타내지 못한다(측정 단위에 따라 크기가 달라진다).

왜 방향성은 알 수 있냐면,
양수/음수 여부는 단위를 바꿔도 변하지 않기 때문이다.

하지만 왜 강도는 알 수 없냐면,
공분산의 절댓값 크기는 단위에 따라 변하기 때문이다.

예를 들어 점수를 0~100점이 아니라
0~1000점 체계로 바꾸면
공분산 값은 100배 이상 커질 수 있다.

그러면 값이 커졌다고 해서
관계가 더 강해진 것이 아니다.

그래서 “강도 비교”에는 부적절하다.

이것을 보완한 개념이 상관계수이며, 상관계수(correlation Cofficient)는 측정 단위에 따라 크기가 바뀌지 않는 표준화된 공분산을 이용한다.

상관계수 (Correlation Coefficient)
→ correlation(상관) + coefficient(계수, 수치값)
Coefficient
→ 어떤 관계를 수치로 나타내는 값
표준화(Standardization)
→ 단위를 제거하고 동일한 기준으로 변환하는 과정

왜 상관계수가 필요하냐면,
공분산은 단위에 따라 크기가 달라져
비교가 불가능하기 때문이다.

상관계수는 공분산을
각 변수의 표준편차(Standard Deviation)로 나눈 값이다.

표준편차(Standard Deviation)는
데이터가 평균에서 얼마나 떨어졌는지를 나타내는 값이다.

이걸로 나누면 단위가 제거된다.

그래서 상관계수는 항상 -1에서 +1 사이 값이 된다.

+1 → 완전한 양의 선형 관계
-1 → 완전한 음의 선형 관계
0 → 선형 관계 없음

이제 단위에 영향을 받지 않는다.

차이 정리

공분산 → 방향만 안정적
상관계수 → 방향 + 강도 비교 가능

공분산 분석 사례 : A중학교에 다니는 학생 5명의 영어, 국어점수의 연관성 확인 사례.

여기서 “공분산 분석”은 “공분산을 계산해서 관계를 보는 것”을 뜻한다. 연관성은 보통 “같이 움직이냐”를 말하는데, 공분산은 특히 방향성(같이 증가/반대로 증가)을 잘 보여줘서 이 사례의 목적(연관성 확인)에 맞다.

설명: cov(X,Y) = cov(영어, 국어) = 시그마(영어의편차)(국어의 편차)/전체갯수 =4.25.

cov(X,Y)에서 cov는 covariance(공분산)의 약식 표기다. X,Y는 각각 변수 이름이고 여기서는 X=영어, Y=국어로 매핑
“시그마”는 보통 Σ(대문자 시그마, Sigma) 기호를 뜻하고 “합(sum)”이란 의미다. 즉, Σ(영어편차×국어편차)는 “모든 학생에 대해 (영어편차×국어편차)를 다 더한다”는 뜻이다.
다만 “/전체갯수”라고 되어 있는데, 표본공분산이라서 n-1로 나눴다. 그럼 이 식은 더 정확히 / (n-1)로 이해

설명: 주어진 표본의 영어점수, 국어점수의 평균은 5이다.

평균이 5라는 건 영어 점수 5개를 더하면 25, 국어 점수 5개를 더하면 25라는 뜻이다(평균=합/개수). 평균을 먼저 구하는 이유는 공분산이 “원점(0)” 기준이 아니라 각 변수의 중심(평균)을 기준으로 “위/아래로 얼마나 벗어났는지(편차)”를 비교하기 때문이다

각 학생의 점수에서 평균을 뺀 편차를 구한다.

편차(Deviation)는 말 그대로 “평균에서 얼마나 벗어났는가”를 숫자로 만든 거고, 수식은 (점수 − 평균)이다. 이걸 하는 이유는 단순히 점수가 큰지 작은지보다 평균보다 큰가(+) 작은가(-)를 통해 “같은 방향인지”를 판단할 수 있게 만들기 때문이다.

영어와 국어 편차의 곱의 합은 17.

“편차의 곱”이 핵심인 이유는 부호가 방향을 알려주기 때문이다. 예를 들어 영어편차가 +이고 국어편차도 +이면 곱이 +가 되어 “둘 다 평균보다 높다”를 뜻하고, 둘 다 -이면 (-×-)로 +가 되어 “둘 다 평균보다 낮다”를 뜻한다. 이런 곱들을 다 더한 값이 17이면, 전체적으로 같은 방향 사례가 더 많았다는 신호가 된다.

여기에 5명의 표본으로 연관성을 분석하고 있기 때문에 표본공분산을 적용하여 4(n-1,자유도)로 나누어 주었다.

표본(sample)은 전체(모집단)에서 일부만 뽑은 데이터다. 표본공분산에서 n-1로 나누는 이유는 평균을 표본에서 추정해 쓰는 순간 자유도(degrees of freedom, 자유롭게 변할 수 있는 정보량)가 1 줄어서, 그냥 n으로 나누면 공분산이 약간 작아지는 편향이 생길 수 있기 때문이다. 여기서는 n=5라서 n-1=4가 된다.

공분산은 4.25가 도출된다.

“편차곱의 합=17”, “n-1=4”라면 표본공분산은 17/4=4.25가 정확히 나온다

분석: 국어평균과 영어평균의 산점도를 확인하면 각 평균 5로부터 5명의 학생으 점수 분포를 확인할 수 있고 공분산은 0보다 4.25가 산출되었기 때문에 영어점수가 증가할 때 국어점수도 증가하는 것으로 확인된다.

산점도(scatter plot)는 (영어, 국어)를 점으로 찍어서 “같이 올라가는지”를 눈으로 보는 그림이다. 평균이 둘 다 5면, (5,5)를 기준으로 점들이 오른쪽 위(둘 다 큼)와 왼쪽 아래(둘 다 작음)에 많이 몰리면 공분산이 양수가 되기 쉽다. 공분산이 4.25처럼 0보다 크면 “같은 방향 증가 경향”이 있다고 해석하는 게 자연스럽다.

공식 풀어가는 과정

“평균이 5”, “편차곱 합이 17”, “표본공분산이 4.25”라고 했지.
그 조건을 정확히 만족하는 예시 점수표를 하나 구성하면 아래처럼 만들 수 있다(5명, 평균 5 유지, 편차곱 합 17).

학생 5명의 영어(X), 국어(Y) 점수 표 (예시)

학생	영어 X	국어 Y	영어평균 x̄=5	국어평균 ȳ=5	영어편차 (X−x̄)	국어편차 (Y−ȳ)	편차곱 (X−x̄)(Y−ȳ)
1	3.0	2.0	5	5	-2.0	-3.0	6.0
2	4.0	3.0	5	5	-1.0	-2.0	2.0
3	5.0	4.5	5	5	0.0	-0.5	0.0
4	6.0	7.0	5	5	1.0	2.0	2.0
5	7.0	8.5	5	5	2.0	3.5	7.0
합	25.0	25.0			0.0	0.0	17.0

평균 확인: 영어 합 25 → 25/5=5, 국어 합 25 → 25/5=5
편차합이 0인 것도 정상(편차는 평균 기준이라 합이 0이 되는 구조)

4) 수학 공식 “풀어가는 과정” 그대로

(1) 표본 평균

(2) 편차 만들기

(3) 편차곱을 모두 더하기 (Σ, 시그마 합)

(4) 표본공분산(표본이므로 n-1로 나눔)

해석

왜 (4.25>0)이면 “영어가 증가할 때 국어도 증가”로 보냐면, 편차곱이 전체적으로 양수로 누적됐다는 뜻이라 평균보다 높은 학생은 둘 다 높고, 평균보다 낮은 학생은 둘 다 낮은 패턴이 많았다는 신호이기 때문이다.
왜 산점도를 보라고 하냐면, 공분산 숫자 하나만으로는 “점들이 어떻게 퍼졌는지(분포 모양)”를 직관적으로 보기 어렵고, 평균 (5,5)를 기준으로 오른쪽 위/왼쪽 아래에 점이 몰리는지 눈으로 확인하면 “양의 공분산”이 더 설득력 있게 이해되기 때문이다

기호

1-1. cov(X, Y)

모양: cov(X, Y)
읽는 법: “코브 엑스 와이” 또는 “공분산 엑스 와이”
뜻: X와 Y가 함께 움직이는 정도를 나타내는 값
왜 이렇게 쓰나: 공분산을 말로만 하면 애매하니까, 수학에서 함수처럼 cov( , ) 형태로 적어 “두 변수를 넣으면 공분산이 나온다”는 계산 규칙을 딱 고정하려는 거야.

1-2. X, Y

읽는 법: “엑스”, “와이”
뜻: 변수 이름
- 여기서는 X=영어 점수, Y=국어 점수
왜 이렇게 이름 붙이나: 데이터를 일반화하려면 “영어, 국어” 대신 X, Y로 쓰면 어떤 과목이든 같은 공식으로 설명 가능해져서, 통계 공식이 재사용 가능한 형태가 된다.

1-3. Σ (시그마)

모양: Σ
읽는 법: “시그마”
뜻: “전부 더해라”라는 합(sum) 기호
예시 해석: Σ a_i 는 a1 + a2 + a3 + … 이런 뜻
왜 필요한가: 학생이 5명처럼 여러 명이면, 한 명씩 계산한 값을 “모아서 더해야” 전체 경향을 보게 되는데, 그걸 길게 쓰지 말고 한 글자 Σ로 깔끔하게 표현하려고 만든 기호다

1-4. i (아이), (i=1)부터 (n)까지

읽는 법: “아이”
뜻: 학생 번호 같은 인덱스(index)
i=1 to n 읽는 법: “아이가 1부터 n까지”
왜 쓰나: 학생 1,2,3,4,5를 매번 글로 쓰면 지저분하니까, i라는 번호표를 붙여 “i번째 학생”을 일반식으로 표현해 반복 계산을 한 줄로 표현하려는 목적이다

1-5. (n) (엔)

읽는 법: “엔”
뜻: 표본의 개수(학생 수)
여기서는 n = 5
왜 중요한가: 평균도 “합/개수”로 구하고, 표본공분산도 “합/(n-1)”로 나누기 때문에, n이 뭐냐를 모르면 계산의 분모가 아예 정해지지 않아서 공분산을 낼 수가 없다.

1-6. x̄ , y̅ (엑스 바, 와이 바)

모양: x 위에 막대가 있음 → x̄
읽는 법: “엑스 바”, “와이 바”
뜻: 평균(mean)
- (\bar{x}) = 영어 평균
- (\bar{y}) = 국어 평균
왜 막대를 쓰나: 평균은 원래 값 x와 다른 “대표값”이니까, x와 구분되도록 위에 막대를 얹어 “이건 원본 점수가 아니라 평균이다”라고 눈에 띄게 만들기 위해 이런 표기를 쓴 거다.

1-7. ((x_i - \bar{x})), ((y_i - \bar{y})) (편차)

뜻: 편차(deviation) = “개별값 - 평균”
왜 빼나: 공분산은 “점수 자체”가 아니라 “평균보다 높은지/낮은지” 방향이 중요하다. 평균을 빼면 높은 값은 +, 낮은 값은 -가 되어 방향 정보가 생기고, 그 방향의 일치 여부로 함께 움직임을 판단할 수 있다.

1-8. ((x_i - \bar{x})(y_i - \bar{y})) (편차의 곱)

읽는 법: “(엑스 아이 마이너스 엑스 바) 곱하기 (와이 아이 마이너스 와이 바)”
뜻: i번째 학생의 영어 방향과 국어 방향이 같은지/반대인지를 숫자로 표시
왜 곱하나: 같은 방향이면 +×+ 또는 -×-로 양수가 나오고, 반대 방향이면 +×-로 음수가 나와. 곱셈은 방향 일치 여부를 한 번에 표시해주는 장치라서 공분산에서 핵심 역할을 한다.

2) 이제 “공식”을 한 줄씩 읽고 해석하기

우리가 쓰는 표본공분산 공식은 보통 이렇게 사용:

2-1. (S_{xy})

읽는 법: “에스 엑스 와이”
뜻: 표본공분산(sample covariance)
왜 S를 쓰나: 모집단 공분산(σxy)과 구분하려고 표본에서 계산한 값을 S로 따로 표시해. 즉 Sxy는 “표본으로 계산한 추정치”라는 꼬리표 같은 거다

2-2. (\frac{1}{n-1})

읽는 법: “1 나누기 (엔 마이너스 1)” 또는 “분모가 n-1인 1”
뜻: 마지막에 “(n-1)로 나누겠다”는 뜻
왜 n-1이냐: 표본은 평균을 데이터로부터 추정했기 때문에 자유도가 1 줄어든다. 그 상태에서 그냥 n으로 나누면 공분산이 작아지는 편향이 생길 수 있다 그래서 그걸 보정하려고 n-1을 쓰는 게 표준 규칙이다.

2-3. (\sum_{i=1}^{n})

읽는 법: “아이가 1부터 n까지 시그마”
뜻: i=1,2,3,…,n에 대해 뒤의 값을 전부 더해라
왜 이렇게 쓰나: 학생이 5명이면 사실 5개만 더하면 되지만, 학생 수가 500명, 5000명이어도 같은 공식으로 쓰기 위해 “1부터 n까지 전부 더하라”를 일반 기호로 만든 거다

2-4. ((x_i-\bar{x})(y_i-\bar{y}))

읽는 법: 위에서 말한 “편차 곱”
뜻: i번째 학생의 영어/국어가 평균 대비 같은 방향이면 +, 반대면 -
왜 핵심인가: 공분산이 “같이 움직이냐”를 보는 값인데, 같이 움직임은 결국 평균보다 위냐 아래냐 방향의 일치로 판단할 수 있다. 편차 곱은 그 방향 일치를 한 번에 드러내서 공분산의 심장 같은 역할이다

3) (n=5)

조건:

Step 1) “n-1” 만들기

n=5니까
n-1 = 5-1 = 4
왜 이걸 먼저 하냐: 마지막에 나눌 분모가 확정돼야 계산이 닫힌다. 표본공분산은 “합을 구한 다음 나누기” 구조라서, 분모 4를 먼저 확정하면 전체 흐름이 안정적으로 따라가진다.

Step 2) 시그마 합(Σ)을 실제 숫자로 대체하기

왜 “17”: 이 17은 5명 각각의 “방향 일치 점수”를 모두 더한 누적값이다. 이 값이 양수로 크게 나오면 같은 방향이 많다는 뜻이고, 음수면 반대 방향이 많다는 뜻이라 해석의 출발점이 된다.

Step 3) 표본공분산 공식에 그대로 끼워넣기(대입)

여기에 (n-1=4), 합=17을 넣으면

왜 대입을 하냐: 수학 공식은 “틀”이고, 대입은 “데이터”를 그 틀에 넣는 과정이다. 틀에 값을 넣어야 추상적인 공식이 실제 숫자로 바뀌고, 그때부터 결과를 해석할 수 있게 된다.

Step 4) 나누기(또는 곱하기) 계산

왜 4.25가 나오면 양의 관계냐: 공분산은 부호가 방향을 말한다. 4.25는 0보다 큰 양수라서 평균보다 높은 학생들은 두 과목이 함께 높고, 평균보다 낮은 학생들도 함께 낮은 패턴이 더 많다는 뜻이어서 “같이 증가/감소” 경향을 말할 수 있다.

4) “산점도에서 평균(5,5) 기준으로 보는 법”도 기호로 연결

평균이 둘 다 5면 기준점은 (5,5).
점들이 오른쪽 위(영어>5, 국어>5), 왼쪽 아래(영어<5, 국어<5)에 많으면
편차가 같은 부호가 많아져서 공분산이 양수가 되기 쉽다.
왜 평균점을 기준으로 보냐: 공분산은 원점(0,0)이 아니라 평균을 원점처럼 취급해서 “위/아래 방향”을 비교하는 계산이다. 그래서 산점도도 평균점(5,5)을 기준으로 4분면처럼 나눠 보면 공식과 시각이 딱 이어진.

상관계수 종류

상관계수는 공분산을 각 변수의 표준편차로 나누어(표준화하여) 두 변수 사이의 관계 정도나 방향을 하나의 수치로 나타내는 지표이며, 통계학에서의 상관계수는 일반적으로 피어슨 상관계수를 지칭한다.

상관계수 (Correlation Coefficient)
→ correlation(상관, 함께 움직임)
→ coefficient(계수, 수치값)
공분산 (Covariance)
→ co(함께) + variance(흩어짐)
표준편차 (Standard Deviation)
→ standard(기준의) + deviation(편차)
→ 평균에서 얼마나 떨어졌는지를 나타내는 값
표준화 (Standardization)
→ 단위를 제거하여 공통 기준으로 변환하는 과정
피어슨 상관계수 (Pearson Correlation Coefficient)
→ Karl Pearson이라는 통계학자의 이름에서 유래

왜 표준편차로 나누냐

공분산은 단위 영향을 받는다.

cm를 m로 바꾸면 값이 달라진다.

그래서 공분산을 각 변수의 표준편차로 나누어
단위를 제거한다.

공식으로 쓰면:

읽는 법:

“알 은 코브 엑스 와이 나누기
시그마 엑스 곱하기 시그마 와이”

r = 상관계수
σ (시그마) = 표준편차

왜 이렇게 하면 단위가 사라지냐?

분자에는 X단위 × Y단위가 있고
분모에도 X단위 × Y단위가 있기 때문에
약분되어 단위가 사라진다.

그래서 항상 -1 ~ +1 사이 값이 된다.

그러나 상관계수를 선택하는 기준은 특정 분포를 가정하느냐와 측정하고자 하는 데이터의 형태에 따라 달라진다.

분포 (Distribution)
→ 데이터가 퍼져있는 모양 (정규분포 등)
가정 (Assumption)
→ 분석 전에 “이럴 것이다”라고 전제하는 조건

왜 기준이 달라지냐

모든 데이터가 정규분포(Normal Distribution)를 따르는 것은 아니다.

데이터가 정규분포를 따르지 않으면
피어슨 상관계수는 왜곡될 수 있다.

그래서 데이터 형태에 따라
다른 상관계수를 선택한다.

피어슨 상관계수는 특정 분포를 따르면서(모수적) 등간척도 및 비율척도와 같은 연속형의 데이터에 적용되며, 스피어만 상관계수나 켄달 상관계수는 특정 분포를 가정하지 않으면서(비모수적) 서열척도 변수인 경우 주로 이용된다.

모수적 (Parametric)

parameter(모수, 모집단 특성값)
특정 분포를 가정함 (보통 정규분포)

비모수적 (Non-Parametric)

non = 아니다
특정 분포를 가정하지 않음

등간척도 (Interval scale)

간격이 일정함
예: 온도(섭씨)

비율척도 (Ratio scale)

절대 0 존재
예: 키, 몸무게

연속형 데이터 (Continuous data)

실수값으로 표현 가능

스피어만 (Spearman)

순위 기반 상관계수

켄달 (Kendall)

순위 일치 정도 기반 상관계수

왜 이렇게 나뉘냐

피어슨은 “선형 관계”를 본다.

데이터가 정규분포에 가까울 때 가장 정확하다.

하지만 서열 데이터(1등,2등,3등)에는
정규분포 가정이 부적절하다.

그래서 순위를 이용하는
스피어만이나 켄달을 사용한다.

모수적 방법(Parametric method) : 모수를 특정 분포로 가정하여 접근하는 방법.
비모수적 방법(Non-Parametric method):모집단의 특정 분포를 가정하지 않고 접근하는 방법.

왜 모수적 방법을 쓰냐?

분포를 가정하면
추론이 더 정밀해진다.

왜 비모수적 방법이 필요하냐?

현실 데이터는
정규분포가 아닐 때가 많기 때문이다.

편상관계수

편상관계수(Partial Correlation Coefficient): 부분상관계수로도 부르며, 제3변수의 영향을 고려하지 않고 두개의 변수에 대한 상관관계를 분석하는 상관계수와 달리, 제 3변수가 주는 요인 p-1개를 제어하고 두 변수의 순수한 상관관계를 나타낸다.

Partial = 부분
Coefficient = 계수
p = 전체 독립변수 개수
p-1 = 하나 제외한 나머지

왜 필요하냐

예:

학습시간(X1)
시험점수(Y)
나이(X2)

학습시간과 점수의 상관이 높게 나왔는데
그게 사실 나이 때문일 수 있다.

그래서 나이의 영향을 제거한 후
순수한 학습시간과 점수의 관계를 본다.

즉, 종속변수 Y와 독립변수 x1,x2,...xp가 존재할 경우, 변수 Y와 x1의 편상관계수는 설명변수 x2,...xp를 제어변수로 하고 나머지 두 변수의 순수한 상관관계를 분석할 수 있다. (예:학습시간과 시험점수 간의 상관관계에서 나이의 영향 제외)

기호 읽는 법

Y = 종속변수 (결과)
x1,x2,...xp
→ “엑스 원, 엑스 투, … 엑스 피”
... (점 세 개)
→ 계속 이어진다는 뜻

왜 제어하냐

상관은 인과관계가 아니다.

제3변수가 동시에 영향을 주면
겉보기 상관이 생길 수 있다.

그래서 제어(control)하여
순수한 관계만 추출한다.

정리

공분산 → 단위 문제
상관계수 → 표준화하여 해결
피어슨 → 모수적, 연속형
스피어만/켄달 → 비모수적, 서열형
편상관 → 제3변수 통제

피어슨 상관계수 Pearson Correlation Coefficient

피어슨 상관계수(PCC)는 두 변수가 각각 등간변수 혹은 비율변수로 측정된 경우 상관관계의 크기를 측정하는 상관계수이다.

피어슨 상관계수(PCC)
→ PCC는 Pearson Correlation Coefficient의 약자
→ Pearson(피어슨)은 통계학자 Karl Pearson의 이름
→ Correlation(상관, 함께 움직임)
→ Coefficient(계수, 수치값)
등간변수(Interval Variable)
→ 간격이 동일한 척도
→ 예: 섭씨온도
→ 차이는 의미 있지만 절대적 0은 없음
비율변수(Ratio Variable)
→ 절대 0이 존재하는 척도
→ 예: 키, 몸무게, 시간
→ 배수 비교 가능

왜 등간·비율 변수에서만 쓰냐

피어슨 상관계수는 실제 “숫자의 크기 차이”를 이용해 계산한다.

즉, 평균과 표준편차를 사용한다.

서열변수(1등,2등)는 숫자처럼 보여도
간격의 의미가 없기 때문에
피어슨 공식이 왜곡될 수 있다.

그래서 등간·비율 같은 연속형 변수에서만 사용한다.

피어슨 상관계수는 변수 X와 변수 Y가 함께 변하는 정도(공분산)에 X와 Y 각각 변하는 정도(표준편차)를 나눈 값으로 정의되며, 수식은 공분산/((x표준편차) 곱하기 (y표준편차)).

수식으로 쓰면:

읽는 법:

“알 은 코브 엑스 와이 나누기
시그마 엑스 곱하기 시그마 와이”

r

읽는 법: “알”
뜻: 피어슨 상관계수 값

cov(X,Y)

읽는 법: “코브 엑스 와이”
뜻: 공분산

σ (시그마)

읽는 법: “시그마”
뜻: 표준편차(Standard Deviation)

σX

엑스의 표준편차

σY

와이의 표준편차

왜 공분산을 표준편차로 나누냐

공분산은 단위 영향을 받는다.

예를 들어 점수를 100점 만점에서
1000점 만점으로 바꾸면 공분산은 크게 변한다.

하지만 표준편차도 같은 비율로 커진다.

그래서 분모에 σXσY를 두면
단위가 약분된다.

즉,

분자 단위 = X단위 × Y단위
분모 단위 = X단위 × Y단위

약분 → 단위 사라짐

그래서 항상 -1 ~ +1 사이 값이 된다.

피어슨 상관계수는 +1과 -1 사이의 값을 가진다.

왜 -1과 +1 사이인가

공식 구조상
공분산의 최대값은
표준편차 곱보다 클 수 없다.

이건 코시-슈바르츠 부등식(Cauchy-Schwarz inequality)이라는
수학적 성질 때문이다.

그래서 이론적으로

읽는 법:

“마이너스 1보다 크거나 같고
플러스 1보다 작거나 같다”

의미

r = +1 → 완전한 양의 선형관계
r = -1 → 완전한 음의 선형관계
r = 0 → 선형관계 없음

피어슨 상관계수는 ±0.3 미만이면 약한 선형 상관관계, ±0.7 이상이면 강한 선형 상관관계를 의미한다.

왜 0.3, 0.7 기준이냐

이건 수학적 절대 기준이 아니라
경험적 기준(rule of thumb)이다.

일반적으로:

r 값	해석
0 ~ 0.3	약함
0.3 ~ 0.7	중간
0.7 이상	강함

왜 이렇게 나누냐면
상관계수는 선형 강도를 나타내는데
0.7 이상이면 데이터 점들이 거의 직선에 가깝게 배열되기 때문이다.

전체 구조 다시 연결

공분산 → 단위 영향 있음
피어슨 상관계수 → 공분산을 표준편차로 나눔
→ 단위 제거
→ -1 ~ +1 범위
→ 강도 해석 가능

스피어만 상관계수

스피어만 상관계수(SROCC)는 두 데이터의 실제 값 대신, 두 값의 순위를 사용해 상관계수를 계산하는 방식이며, 두 변수(서열변수와 서열변수)가 정규성을 따르지 않는 비모수적 관계에서 단조성을 파악하기 위해 사용한다.

스피어만 상관계수(SROCC)
→ SROCC는 Spearman Rank Order Correlation Coefficient의 약자
→ Spearman(스피어만)은 통계학자 이름
→ Rank Order(순위)
→ Correlation Coefficient(상관계수)
실제 값 대신 순위 사용
→ 점수 자체가 아니라 1등, 2등 같은 순서 사용
서열변수(Ordinal Variable)
→ 순서는 있지만 간격 의미 없음
정규성 (Normality)
→ 정규분포(Normal Distribution)를 따른다는 가정
비모수적 (Non-Parametric)
→ 특정 분포를 가정하지 않는 방법
단조성 (Monotonicity)
→ 한 변수가 증가하면 다른 변수도 계속 증가하거나
계속 감소하는 경향

왜 실제 값 대신 순위를 쓰냐

피어슨은 평균과 표준편차를 사용한다.
하지만 순위 데이터는 평균의 의미가 약하다.

그래서 순위를 다시 1,2,3…로 정렬한 후
그 순위끼리 상관을 본다.

피어슨 → 실제 값 사용 + 정규성 가정 + 선형관계 측정
스피어만 → 순위 사용 + 정규성 가정 없음 + 단조관계 측정

즉,

정규성이 깨지면
피어슨이 왜곡될 수 있기 때문에
스피어만을 사용한다.

정규성 (Normality)

정규성은
데이터가 정규분포(Normal Distribution)를 따른다는 가정이다.

정규분포는:

평균을 중심으로 좌우 대칭
종 모양 (벨 곡선)

피어슨 상관계수는
공분산과 표준편차를 이용하는데,

이 값들이 안정적으로 해석되려면
데이터가 대략 정규분포에 가까워야 한다.

왜냐하면
피어슨은 평균 기반 계산이기 때문이다.

정규성을 따르지 않으면 무슨 문제가 생기냐?

예를 들어보자

데이터에 이상치(outlier)가 많다.

피어슨 공식:

공분산과 표준편차는
이상치에 매우 민감하다.

값 하나가 극단적으로 크면
평균이 흔들리고
공분산이 크게 왜곡된다.

즉,

정규성이 깨진 데이터(왜도, 치우침, 이상치 많음)에서는
피어슨 값이 실제 관계를 제대로 반영하지 못할 수 있다.

그런데 스피어만은 왜 괜찮냐?

스피어만은:

실제 값 대신
순위(rank) 를 사용한다.

예:

값	순위
10	1
1000	5

1000이 아무리 커도
순위는 5일 뿐이다.

즉,

극단값이 있어도
순위 체계 안에서는
영향이 제한된다.

그래서

이상치에 덜 민감
정규성 가정 필요 없음
분포가 비대칭이어도 가능

더 중요한 차이

피어슨은 선형(linear) 관계를 측정한다.

스피어만은 단조(monotonic) 관계를 측정한다.

예를 들어:

Y = log(X)

이건 직선이 아니다.
곡선이다.

피어슨은 낮게 나올 수 있다.
하지만 순위는 완벽히 증가한다.

그래서 스피어만은 높게 나온다.

즉,

정규성이 깨진 데이터는
대개 선형성도 약하다.

그래서 스피어만이 더 적합한 경우가 많다.

요약

스피어만을 쓰는 이유는:

데이터가 정규분포를 따르지 않을 때
이상치가 많을 때
서열 데이터일 때
관계가 선형이 아니라 단조일 때

관계에는 크게 3가지가 있다.

선형 관계 (linear)
단조 관계 (monotonic)
비단조 관계 (non-monotonic)

여기서 단조 관계는
“계속 한 방향으로만 움직이는 관계”다.

단조(monotonic)의 정확한 뜻

monotonic은

mono = 하나
tonic = 방향

즉,

“한 방향으로만 간다”는 뜻이다.

정의 (수학적으로)

단조 관계란,

한 변수가 증가할 때
다른 변수도

계속 증가하거나
계속 감소하는 관계

를 말한다.

여기서 중요한 건:

반드시 직선일 필요는 없다.

예시

단조 증가 (monotonic increasing)

X ↑ → Y ↑
계속 증가

예:

X	Y
1	2
2	4
3	9
4	16

직선은 아니지만
계속 증가한다.

이건 단조 증가다.

단조 감소 (monotonic decreasing)

X ↑ → Y ↓
계속 감소

예:

X	Y
1	10
2	8
3	6
4	4

이건 단조 감소다.

단조 아님 (non-monotonic)

예:

X	Y
1	1
2	4
3	2
4	5

증가했다가 감소했다가 다시 증가한다.

이건 단조가 아니다.

선형 vs 단조 차이

선형(linear)은
직선 형태여야 한다.

단조(monotonic)는
직선일 필요 없다.
계속 한 방향이면 된다.

그래서:

모든 선형 관계는 단조 관계지만,
모든 단조 관계가 선형은 아니다.

왜 스피어만이 단조를 측정하냐

스피어만은 “순위”를 본다.

순위가 계속 증가하면
모양이 곡선이든 뭐든 상관없이
상관이 높게 나온다.

그래서:

피어슨 → 선형 측정
스피어만 → 단조 측정

단조 관계란
“중간에 방향을 바꾸지 않는 관계”다.

예를 들어, 수학점수와 영어점수와의 상관계수는 피어슨 상관계수로 계산할 수 있고, 수학과목의 석차와 영어과목의 석차는 스피어만 상관계수로 계산할 수 있다.

왜 점수는 피어슨이 가능하냐?

점수는 등간·비율척도이다.
즉 숫자 간격이 의미 있다.

왜 석차는 스피어만이냐?

석차는 1등과 2등 사이 차이가
점수 차이와 비례한다고 볼 수 없다.

그래서 실제 값이 아니라
순위의 일관성만 본다.

식에서 x_i는 변수 x에서 i번째 데이터의 순서, y_i는 변수 y에서 i번째 데이터의 순위이며, 뮤_x와 뮤_y는 각각 x_i, y_i 평균을 뜻한다.

x_i (엑스 아이)
→ 변수 x에서 i번째 데이터
→ 여기서는 “순위값”
y_i (와이 아이)
→ 변수 y에서 i번째 데이터 순위
i (아이)
→ 데이터 번호 (1번째, 2번째…)
μ_x (뮤 엑스)
→ 평균 (Mean)
→ 그리스 문자 μ(뮤)는 평균을 의미

읽는 법:

μ → “뮤”

왜 평균을 다시 쓰냐

스피어만은 결국
“순위에 대해 피어슨 공식을 적용”한 것이다.

즉,

1단계: 값 → 순위 변환
2단계: 순위값으로 피어슨 공식 적용

그래서 평균(μ_x, μ_y)이 다시 등장한다.

단조성

단조성이 좋다는 것은 한 변수의 값의 크기가 커지면(또는 작아지면) 다른 변수의 크기도 커진다(또는 작아진다)는 의미이다.

왜 단조성이 중요하냐

피어슨은 “선형(linear)” 관계를 본다.

하지만 스피어만은
꼭 직선일 필요는 없다.

계속 증가하기만 하면 된다.

예:

x 증가 → y 증가 (곡선이라도 상관없음)

이걸 단조 증가(monotonic increasing)라고 한다.

피어슨 상관계수와 마찬가지로 스피어만 상관계수는 +1과 -1 사이의 값을 가진다.

왜 -1 ~ +1이냐?

순위 값에 대해 피어슨 구조를 쓰기 때문이다.

공식상 코시-슈바르츠 부등식에 의해
항상 이 범위를 벗어날 수 없다.

1은 한 쪽의 순위가 증가함에 따라 다른 쪽의 순위도 증가함을 뜻하고, -1은 한 쪽의 순위가 증가할 때 다른 쪽의 순위는 감소함을 뜻한다. 0은 한 쪽의 순위 증가가 다른 쪽의 순위와 연관이 없음을 뜻한다.

왜 +1이면 완전한 증가냐?

모든 순위가 정확히 같은 순서로 정렬되어 있다는 뜻이다.

왜 -1이면 완전한 감소냐?

한 변수 순위가 1,2,3,4라면
다른 변수는 4,3,2,1처럼 완전히 반대 순서이다.

왜 0이면 관계 없음이냐?

순위 증가가 다른 변수 순위와 무작위 관계라는 뜻이다.

스피어만 상관계수(로우)는 데이터 내 편차와 에러에 민감하며, 일반적으로 켄달 상관계숩보다 높은 값을 가진다.

로우(ρ)

스피어만 상관계수는 보통

ρ (그리스 문자 “로우”)로 표기한다.

읽는 법:

ρ → “로우”

왜 켄달보다 값이 크게 나오기 쉽냐

스피어만은 순위 차이의 제곱을 기반으로 계산한다.
켄달은 “순위 쌍의 일치/불일치”를 계산한다.

켄달은 더 보수적인 측정이다.
그래서 일반적으로 스피어만 값이
켄달보다 조금 더 크게 나온다.

정리

피어슨 → 실제 값 기반, 선형
스피어만 → 순위 기반, 단조성
켄달 → 순위 쌍 기반, 더 보수적

켄달 상관계수

켄달 상관계수는 스피어만 상관계수처럼 서열변수와 서열변수를 이용하는 순위 상관계수의 한 종류이며, 두 변수들 간의 순위를 비교하여 연관성을 계산한다.

켄달 상관계수
→ Kendall Correlation Coefficient
→ Kendall은 통계학자 Maurice Kendall의 이름
서열변수(Ordinal Variable)
→ 순서는 있으나 간격 의미는 없음
순위 상관계수(Rank Correlation Coefficient)
→ 실제 값이 아니라 “순위”를 기반으로 계산하는 상관계수
연관성(Relationship)
→ 두 변수가 함께 움직이는 정도

왜 스피어만처럼 서열변수를 쓰냐

서열 데이터는 평균·표준편차 개념이 약하다.
그래서 실제 값이 아니라 “순서 일치 정도”를 본다.

켄달은 특히
“쌍(pair) 단위 비교”를 통해
순위 일치 여부를 계산한다는 점이 특징이다.

두 변수 X,Y에 대한 관측값이 (X_i, Y_i),...(X_n, y_n)으로 주어졌을 때 X를 크기 순으로 정렬하여 대응되는 Y가 어느 정도로 X의 순위와 일치하는지 관점에서 상관계수를 정의한다.

(X_i, Y_i)
→ 읽는 법: “엑스 아이, 와이 아이”
→ i번째 데이터 쌍
... (점 세 개)
→ 계속 이어짐을 의미
(X_n, Y_n)
→ n번째 데이터 쌍
n
→ 전체 데이터 개수

왜 X를 정렬하냐

켄달은 “순서의 일치”를 본다.

그래서 먼저 X를 작은 것부터 큰 것까지 정렬한다.

그 다음
X의 순서와 Y의 순서가
같은 방향인지 반대 방향인지 비교한다.

즉, 점수 자체가 아니라
“쌍들의 상대적 순서”를 본다.

즉, X의 순위와 일치시키기 위해 Y를 얼마나 바꾸어야 하는 정도로 상관관계를 평가한다는 의미이다.

왜 “얼마나 바꾸어야 하는가”라는 표현을 쓰냐?

만약 X와 Y의 순서가 완전히 동일하면
바꿀 필요가 없다 → 완전 일치

하지만 순서가 많이 뒤섞여 있으면
많이 바꿔야 한다 → 낮은 상관

켄달은 결국
“순위 뒤집힘의 정도”를 보는 것이다.

(X,Y) 형태의 순서쌍으로 데이터가 있을 때, x_i < x_j,y_i < y_j 또는 x_i > x_j,y_i > y_j가 성립하면 부합이며, x_i < x_j,y_i > y_j 또는 x_i > x_j,y_i < y_j이면 비부합으로 정의한다.

x_i < x_j
→ “엑스 아이가 엑스 제이보다 작다”
y_i < y_j
→ “와이 아이가 와이 제이보다 작다”
→ “크다”

부합(Concordant)

조건:

x_i < x_j 이면서 y_i < y_j
또는
x_i > x_j 이면서 y_i > y_j

즉, 두 변수의 순서 방향이 같다.

비부합(Discordant)

조건:

x_i < x_j 이면서 y_i > y_j
또는
x_i > x_j 이면서 y_i < y_j

즉, 순서 방향이 반대다.

켄달 상관계수는
“두 변수의 순서가 얼마나 같은 방향으로 움직이느냐”를 보는 방법이다

그걸 계산하기 위해

데이터를 두 개씩 짝(pair) 으로 비교한다.

그리고 각 쌍을 이렇게 분류한다:

부합 (concordant)
비부합 (discordant)

상황 설정

데이터가 이렇게 있다고 하자.

학생	X (수학)	Y (영어)
A	70	80
B	85	90
C	60	75

이제 우리는
학생 두 명을 골라서 비교한다.

부합(Concordant)의 뜻

두 학생을 비교했을 때
X의 크기 관계와 Y의 크기 관계가 같은 방향이면 부합이다.

수식으로 쓰면:

xᵢ < xⱼ 이면서 yᵢ < yⱼ
또는
xᵢ > xⱼ 이면서 yᵢ > yⱼ

읽는 법:

“엑스 아이가 엑스 제이보다 작고
와이 아이도 와이 제이보다 작다”

즉,

둘 다 같이 증가하거나
둘 다 같이 감소하면 부합이다.

예시

A(70,80) 와 B(85,90)

70 < 85
80 < 90

같은 방향이다.

부합

비부합(Discordant)의 뜻

두 학생을 비교했을 때
X와 Y의 크기 관계가 반대 방향이면 비부합이다.

수식으로 쓰면:

xᵢ < xⱼ 이면서 yᵢ > yⱼ
또는
xᵢ > xⱼ 이면서 yᵢ < yⱼ

즉,

한쪽은 증가했는데
다른 쪽은 감소하면 비부합이다.

예시

만약 이런 데이터라면:

학생	X	Y
A	70	95
B	85	80

70 < 85
95 > 80

X는 증가
Y는 감소

비부합

왜 이렇게 쌍으로 비교하냐?

켄달은 모든 데이터 쌍을 비교한다.

데이터가 n개면
쌍의 개수는:

읽는 법:

“엔 곱하기 엔 마이너스 원 나누기 이”

왜 2로 나누냐?

(A,B)와 (B,A)는 같은 비교이기 때문이다.

켄달 상관계수 공식 구조

켄달 타우(τ)는 대략 이런 구조다:

읽는 법:

“타우는 부합 개수 마이너스 비부합 개수 나누기 전체쌍”

의미

전부 부합이면 → τ = 1
전부 비부합이면 → τ = -1
반반이면 → τ ≈ 0

직관적 이해

부합이 많다
→ 두 변수는 같은 방향으로 움직인다
→ 양의 상관

비부합이 많다
→ 반대 방향으로 움직인다
→ 음의 상관

부합 = “같이 움직임”
비부합 = “반대로 움직임”

이렇게 모든 쌍을 비교해
부합 개수와 비부합 개수를 센다.

즉, x_i가 커질 때 y_i도 커지면 부합, x_i가 커질 때 y_i가 작아지면 비부합이라고 본다.

왜 이렇게 직관적으로 표현하냐?

켄달의 본질은
“증가-증가” 또는 “증가-감소”
관계의 빈도를 세는 것이다.

즉,
같이 증가 → 긍정
반대로 증가 → 부정

빈도 기반 평가이다.

켄달 상관계수의 범위 : 1은 부합 데이터쌍의 비율이 100%임을, -1은 비부합 데이터쌍의 비율이 100%임을 뜻하며, 0은 x와 y간에 값의 연관성이 없음을 뜻한다.

켄달 상관계수는 보통

그리스 문자 “타우”로 표기한다.

읽는 법:

τ → “타우”

왜 1, -1, 0인가

켄달 공식은 대략적으로

읽는 법:

“타우는 부합 개수 마이너스 비부합 개수 나누기 전체쌍”

전부 부합이면 → τ = 1
전부 비부합이면 → τ = -1
비슷하면 → 0

켄달 상관계수(타우)는 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용하다.

동률(Tie)

동률은
같은 값이 여러 개 존재하는 경우이다.

왜 켄달이 유리하냐?

켄달은 순위 쌍 기반이기 때문에
데이터 수가 적어도
안정적인 추정이 가능하다.

또한 동률 보정 방식이
상대적으로 체계적이다.

전체 비교 정리

구분	피어슨	스피어만	켄달
기반	실제 값	순위	순위 쌍
가정	정규성	비모수	비모수
측정	선형	단조	순위 일치 비율
기호	r	ρ	τ

상관계수 3가지의 차이는
결국 다음 6가지 기준에서 나뉜다:

어떤 변수유형에 쓰는가
분석의 목적이 무엇인가
정규성 가정이 필요한가
어떤 관계 형태를 측정하는가
사용하는 기호(상관계수 표기)
값의 범위

피어슨 vs 스피어만 vs 켄달 비교표

	피어슨 (Pearson)	스피어만 (Spearman)	켄달 (Kendall)
변수유형	등간척도(Interval), 비율척도(Ratio) 같은 연속형 변수	서열척도(Ordinal) 또는 연속형을 순위 변환 후 사용	서열척도(Ordinal), 특히 순위쌍 비교에 적합
목적	두 변수의 선형(linear) 관계 강도 측정	두 변수의 단조(monotonic) 관계 강도 측정	두 변수의 순위 일치 정도(부합/비부합 비율) 측정
정규성	필요함 (모수적, Parametric)	필요 없음 (비모수적, Non-Parametric)	필요 없음 (비모수적, Non-Parametric)
관계	직선 관계 (선형성)	증가 또는 감소하는 단조 관계 (곡선 가능)	순서 방향 일치 여부 기반 관계
상관계수 기호	r	ρ (로우, rho)	τ (타우, tau)
범위	-1 ≤ r ≤ 1	-1 ≤ ρ ≤ 1	-1 ≤ τ ≤ 1

요약

피어슨 → “직선처럼 움직이냐?”
스피어만 → “계속 같은 방향으로 움직이냐?”
켄달 → “쌍을 비교했을 때 순서가 얼마나 일치하냐?”

왜 스피어만 값이 켄달보다 보통 더 크게 나오냐?

스피어만은 순위 차이의 제곱을 기반으로 계산
켄달은 부합/비부합 비율 기반 → 더 보수적

그래서 실제 데이터에서는
|ρ| > |τ| 인 경우가 많다.

상관계수 분석은 변수에 따라 치우침이 다른 경우가 많아, 변수의 치우침이 상대적으로 작아서 상관계수가 크게 나오는 경우가 있는 반면, 치우침이 상대적으로 커서 상관계수가 작게 나오는 경우가 있다.

상관계수 분석 → 두 변수의 관계 강도를 계산하는 분석
치우침(Skewness) → 데이터 분포가 한쪽으로 쏠린 정도
상관계수 → r (피어슨), ρ(로우), τ(타우)

왜 치우침이 영향을 주냐

데이터가 한쪽으로 몰려 있으면
공분산과 표준편차 계산에 영향을 준다.

특히 이상치(outlier)가 존재하면
상관계수가 실제 관계보다 커지거나 작아질 수 있다.

즉, 계산된 상관계수는
항상 “진짜 관계”를 완벽히 반영한다고 볼 수 없다.

그래서 값만 보고 결론을 내리면 위험하다.

따라서 상관관계 분석을 통해 얻은 상관계수를 일반화하여 사용하기 위해서는 상관계수의 유의성을 확인해야 한다.

일반화(Generalization) → 표본 결과를 모집단에 적용하는 것
유의성(Significance) → 우연이 아닐 가능성

왜 유의성 확인이 필요하냐

표본에서 계산된 상관계수는
우연히 나왔을 가능성이 있다.

예를 들어
학생 5명만 뽑았는데 상관이 높게 나왔다면
그게 전체 학생에게도 적용될까?

이걸 확인하는 과정이
“통계적 유의성 검정”이다.

통계적으로 유의하다는 말은 관찰된 현상이 전적으로 우연에 의해 벌어졌을 가능성이 낮다는 의미이며, 상관계수의 유의성을 판단하기 위해서는 모상관계수인 p를 사용하여 가설을 설정하고 이를 검정하게 된다.

통계에서는 보통 ρ (로우, rho) 를 사용한다.

ρ (로우) → 모상관계수 (population correlation)
모상관계수 → 모집단의 “진짜 상관”

읽는 법:

ρ → “로우”

왜 모상관계수를 쓰냐

표본 상관계수 r은
모집단의 상관 ρ를 추정한 값이다.

우리는 묻는 것이다:

“모집단 상관이 0일 가능성이 큰가?”

즉, ρ가 0인지 아닌지를 검정한다.

상관계수의 통계적 유의성을 검정하려면 귀무가설을 '상관계수가 0이다'로, 대립가설을 '상관계수가 0이 아니다'로 설정하며, 대립가설을 '아니다(p≠0)만' 사용하기 떄문에 양측검정을 수행하게 된다.

귀무가설(H₀, Null Hypothesis)
→ 차이가 없다, 효과가 없다
대립가설(H₁, Alternative Hypothesis)
→ 차이가 있다, 효과가 있다
양측검정(Two-tailed test)
→ +도 가능, -도 가능 둘 다 본다

왜 H₀: ρ = 0 이냐

ρ = 0 이라는 것은
모집단에서 선형 관계가 없다는 뜻이다.

즉, 기본 가정은
“관계가 없다”로 시작한다.

왜 대립가설을 ρ ≠ 0으로 두냐

상관이 +일 수도 있고 -일 수도 있기 때문이다.

그래서 한쪽만 보는 게 아니라
양쪽을 다 보는 양측검정을 한다.

양측검정 결과 검정통계량값이 기각역에 속해 있으면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 채택한다.

검정통계량(Test Statistic)
→ 데이터로부터 계산한 값 (예: t값)
기각역(Rejection Region)
→ 이 영역에 들어가면 H₀를 버린다

왜 기각하냐

우리는 “우연히 이런 값이 나올 확률”을 계산한다.

그 확률이 매우 낮으면
“우연이라고 보기 어렵다”고 판단하고
귀무가설을 기각한다.

만약 p값이 0.05보다 작다면 귀무가설이 참이라고 가정했을 때 데이터로부터 구한 상관계수를 볼 확률이 낮다는 의미이며, 그런 상관계수는 귀무가설 하에서는 우연히 발생하기 어렵다. 따라서 통계적으로 유의미한 상관계수를 의미한다.

p값(P-value)

p-value는
귀무가설이 참일 때
현재 데이터가 나올 확률이다.

보통 0.05 (5%)를 기준으로 쓴다.

p < 0.05 이면
유의하다고 판단한다.

왜 0.05냐

관례적 기준이다.
5%보다 낮으면
우연으로 보기 어렵다고 본다.

흐름 정리

상관계수 계산 →
그 값이 우연인지 확인 →
ρ=0 가설 설정 →
양측검정 →
p값 확인 →
p < 0.05면 유의

상관계수가 크다고 해서
자동으로 “의미 있다”는 것은 아니다.
반드시 유의성 검정을 해야 한다.

피어슨 상관관계 분석 사례: A중학교에서 학생들의 지각횟수와 국어성적의 상관관계를 확인하기 위해 5명의 학생을 무작위로 표본으로 선정하여 분석하였다.

피어슨 상관관계 분석 → Pearson Correlation Analysis
무작위 표본(Random Sample) → 임의로 선택된 표본
표본(sample) → 모집단의 일부

왜 무작위 표본이 중요하냐

무작위로 뽑지 않으면
특정 유형 학생만 포함될 수 있다.

그러면 상관계수가 왜곡된다.

그래서 모집단을 대표하기 위해
무작위 표본이 필요하다.

피어슨 상관계수는 기본적으로 이렇게 정의된다.

기호

r

읽는 법: “알”
뜻: 피어슨 상관계수 값

x_i

읽는 법: “엑스 아이”
뜻: X 변수의 i번째 관측값

y_i

읽는 법: “와이 아이”
뜻: Y 변수의 i번째 관측값

μ_X

읽는 법: “뮤 엑스”
뜻: X의 평균 (Mean of X)

μ는 그리스 문자 “뮤”
평균을 의미하는 기호

μ_Y

읽는 법: “뮤 와이”
뜻: Y의 평균

Σ

읽는 법: “시그마”
뜻: 전부 더하라

√

읽는 법: “루트”
뜻: 제곱근

데이터

지각횟수 (X)	국어성적 (Y)
1	8
2	7
3	6
4	4
5	5

평균 계산

편차 계산

X	Y	X-μ_X	Y-μ_Y
1	8	-2	2
2	7	-1	1
3	6	0	0
4	4	1	-2
5	5	2	-1

분자 계산

공식 분자:

계산:

(-2×2) + (-1×1) + (0×0) + (1×-2) + (2×-1)

= -4 -1 + 0 -2 -2
= -9

분모 계산

= (-2)² + (-1)² + 0² + 1² + 2²
= 4 + 1 + 0 + 1 + 4
= 10

= 2² + 1² + 0² + (-2)² + (-1)²
= 4 + 1 + 0 + 4 + 1
= 10

분모 전체:

최종 계산

요약

μ는 평균
(x_i - μ_X) 는 편차
편차 곱을 다 더한 뒤
각 편차 제곱합으로 나누면
피어슨 상관계수 r이 된다.

해석

피어슨 상관계수는 -1에 가까우므로 지각횟수와 국어성적은 음의 상관관계가 높음.

왜 음의 상관인가?

지각횟수 ↑ → 성적 ↓

즉, 한 변수가 증가하면
다른 변수는 감소한다.

r이 -1에 가까울수록
거의 직선 형태의 강한 음의 선형관계다.

우리가 알고 싶은 건 이거

“표본에서 나온 상관계수 r이 우연히 나온 값이냐?
아니면 진짜로 상관관계가 있다고 말할 수 있느냐?”

즉,

표본 상관계수 r은 -0.9처럼 나왔는데
이게 모집단에서도 진짜 상관이 있는지 검정하는 거다.

그래서 t-검정을 이용해 상관계수의 유의성을 판단하는 거야.

상관계수 유의성 검정 절차

① 귀무가설 / 대립가설 설정

귀무가설 H₀ : ρ = 0 (상관관계가 없다)
대립가설 H₁ : ρ ≠ 0 (상관관계가 있다)

여기서

ρ (rho, 로우) = 모집단 상관계수
r = 표본 상관계수

왜 ρ를 쓰냐면?

→ 우리는 표본 r로 모집단 ρ가 0인지 아닌지 검정하는 거니까.

② 유의수준 설정

보통

α = 0.05
또는 0.1

α(알파)는 제1종 오류 확률이야.

즉,

"진짜 상관이 없는데, 있다고 잘못 판단할 확률"

③ 검정통계량 계산

공식:

여기서

r = 표본 상관계수
ρ₀ = 가설의 모집단 상관계수 (보통 0)
n = 표본 크기
자유도(df) = n - 2

왜 자유도가 n-2냐?

상관계수는 두 변수를 사용하니까
회귀직선의 기울기와 절편 2개를 추정하므로 자유도 2개가 빠진다.

④ 기각역 설정

양측검정이면

이 값보다 크면 귀무가설 기각.

문제 상황

표본 5명
상관계수 r = -0.9
α = 0.1
양측검정

① 가설

H₀ : ρ = 0
H₁ : ρ ≠ 0

② 자유도

df = n - 2 = 5 - 2 = 3

③ t값 계산

r = -0.9, n = 5, ρ₀ = 0(귀무가설에서 “모집단 상관계수는 0”) 이고, 이걸로 t값을 계산하는 과정

0) 사용할 공식(상관계수 유의성 검정 t)

1) 분자부터 계산

여기서 분자가 -0.9로 음수가 된 이유는, r 자체가 음수(음의 상관)이기 때문이다
(p_0=0)은 “상관이 없다”는 기준점이라서 그냥 r이 그대로 남는 구조다

2) 분모 안쪽(루트 안)을 만들기

(1) (r^2) 계산

음수를 제곱하면 양수가 된다.
그래서 r이 -0.9여도 (r^2)는 0.81

(2) (1 - r^2) 계산

이 0.19는 “상관이 완벽(±1)이 아니라서 남아있는 흔들림/오차” 같은 역할을 한다.
r이 ±1에 가까울수록 (r^2)가 1에 가까워져서 (1-r^2)가 작아지고, 그럼 t가 커지기 쉬워진다.

(3) (n-2) 계산

n - 2 = 5 - 2 = 3

표본 5명에서 자유도는 3.

(4) 나누기

0.19를 3으로 나누면 약 0.06333이 된다.

3) 분모 완성: 제곱근(루트) 씌우기

즉 분모는 대략 0.2517 정도
분모가 작을수록 전체 t값은 커지는데, 여기서는 분모가 0.25로 꽤 작다. 그래서 |t|가 커진다.

4) 최종 t 계산: 분자 / 분모

t = -3.58

5) 왜 t가 음수?

t의 부호(+, -)는 r의 부호를 그대로 따라간다.

r이 음수면 → t도 음수
r이 양수면 → t도 양수

왜냐면 (p_0=0)일 때 분자는 사실상 r이고, 분모는 항상 양수(루트라서)니까 부호는 분자가 결정한다.

6) 음수라는 게 “더 나쁘다”는 뜻이 아님

검정에서는 보통 |t| 크기가 중요하다.

(t=-3.58)이든
(t=+3.58)이든

둘 다 “0에서 얼마나 멀리 갔냐(극단적이냐)”가 핵심이라서, 보통 (|t|)로 판단한다.

④ 임계값 확인

왜 임계값이 2.354냐?

먼저 상황 정리

이 문제 조건:

유의수준 α = 0.1
양측검정
표본 n = 5
자유도 df = n - 2 = 3

왜 α/2를 쓰냐?

양측검정이기 때문이다.

우리는

ρ ≠ 0

즉, 양쪽 다 봐야 해.

그래서 10%를 양쪽으로 나눠:

왼쪽 꼬리 5%
오른쪽 꼬리 5%

임계값이란?

임계값은 말 그대로

“이 값보다 극단적이면 기각한다”는 기준점

즉 우리는 찾는 거다:

자유도 3인 t분포에서
오른쪽 면적이 0.05가 되는 t값은 얼마인가?

t분포표에서 찾는 방법

t분포표는 이렇게 읽는다:

df	0.10	0.05	0.025
3	1.638	2.353	3.182

여기서:

df = 3
양측검정
α/2 = 0.05

그러니까

→ 열에서 0.05 찾고
→ 행에서 df=3 찾으면

t = 2.353

반올림하면

2.354

왜 2.354가 되는지 직관적으로 설명

자유도가 작을수록 (표본이 적을수록)

→ 분포가 넓어짐
→ 꼬리가 두꺼워짐
→ 극단값이 더 커야 5%가 됨

그래서

정규분포라면 1.96이지만
df=3이면 2.354가 되는 거다

그래서 기각역은

지금 t = -3.58이니까

→ -2.354보다 더 왼쪽
→ 기각

포인트

임계값은

"확률을 기준으로 경계선을 정한 숫자"

이 숫자는 계산해서 나오는 게 아니라
t분포표에서 찾아오는 값이다.

만약 표본이 30개였다면?

df = 28

임계값은 약 2.048

표본이 많아질수록

→ t분포가 정규분포(1.96)에 가까워짐

⑤ 비교

|t| = 3.58 > 2.354

→ 기각역에 들어감
→ 귀무가설 기각

⑥ p-value

p = 0.037

0.037 < 0.1

→ 역시 기각

우리가 알고 있는 것

t = -3.58
자유도 df = 3
양측검정

우리는 지금 이걸 묻는 거다:

“상관이 없다고 가정했을 때,
이렇게 -3.58 같은 극단적인 값이 나올 확률이 얼마나 되냐?”

이 확률이 바로 p-value

p-value를 진짜 말로 설명하면

p-value는 그냥 이거:

그래프에서 -3.58보다 더 왼쪽에 있는 면적

그리고 양측이니까:

오른쪽 끝에 +3.58보다 더 오른쪽 면적까지 합친 것

그림

t분포는 가운데 0.

왼쪽 꼬리       0       오른쪽 꼬리
-----|-----------|-----------|-----
    -3.58        0          +3.58

우리가 구하는 건:

왼쪽 극단 면적
오른쪽 극단 면적

이 두 개를 더한 값.

그럼 숫자 0.037은 어디서 나온 거냐?

계산기나 통계 프로그램에

df=3
t= -3.58

넣으면

왼쪽 면적이 약 0.0185 나온다.

양쪽이니까:

끝.

왜 0.0185가 나오는가?

이건 그냥 t분포의 “곡선 아래 면적”이야.

t분포는 정해진 곡선이고,
-3.58 지점 왼쪽 면적을 적분해서 계산한 값이 0.0185다

이건 우리가 암산하는 게 아니고
컴퓨터가 계산한 값이다.

요약

t = -3.58
그보다 더 극단적인 면적 계산
단측 ≈ 0.0185
양측이니까 ×2
= 0.037

더 쉽게 말하면

t가 0 근처면 p는 큼
t가 멀어질수록 p는 작아짐
-3.58은 꽤 멀리 있음
그래서 p가 0.037처럼 작게 나온 거다.

“p값은 그냥 꼬리 면적인데
그걸로 어떻게 ‘우연인지 아닌지’를 판단하는가?”

우리가 실제로 하는 사고 과정

우리는 직접 이렇게 묻지 않아:

“효과가 있나?”

우리는 이렇게 묻는다:

“효과가 없다고 가정하면, 이런 결과가 얼마나 이상한가?”

이게 가설검정의 핵심 구조

귀무가설을 일부러 진짜라고 가정함

지금 귀무가설:

즉,

상관관계가 없다고 가정

이 상태에서

t = -3.58 같은 값이 나올 확률이 얼마나 되냐?

그게 p-value

p-value는

“상관관계가 없을 확률”

이 아니다.

p-value는

“상관관계가 없다고 가정했을 때,
이런 데이터가 나올 확률”

이야.

이 둘은 완전히 다르다.

p값의 진짜 의미

p = 0.037

이 말은:

상관이 없다고 가정했는데
이렇게 극단적인 결과가 나올 확률이 3.7%밖에 안 된다.

이게 핵심.

왜 이걸로 판단하냐?

논리는 이거:

만약 H₀가 맞다면,
이런 극단값은 거의 안 나와야 함.

근데 나왔다.

그럼 둘 중 하나:

정말 엄청 희귀한 우연이 일어났다.
H₀가 틀렸다.

통계는 보통 이렇게 판단해:

“확률이 충분히 작으면,
우연이라고 보기보다는 가설이 틀렸다고 보는 게 합리적이다.”

그래서 α(유의수준)를 미리 정함

예를 들어:

α = 0.05

이건 말 그대로:

“우연 확률이 5% 이하이면
우연이라고 안 보겠다.”

라는 약속이다.

지금은:

0.037 < 0.05

→ 우리가 허용한 우연 범위보다 작음
→ 그래서 귀무가설 기각

논리 구조

이건 확률 논리다.

“이 사건이 너무 희귀하다면
그 전제가 틀렸다고 보는 게 합리적이다.”

이게 통계의 기본 사고 방식이다..

p값이 낮다는 건:

“귀무가설이 맞다면 이 데이터는 거의 나올 수 없다”

는 뜻.

그래서

귀무가설을 버리는 거다

해석

그래프에서

가운데 0
양쪽 ±2.354가 임계값
-3.58은 왼쪽 꼬리 안쪽

그래서

유의수준 10%에서 상관관계가 있다.

유의수준(α) = 0.1 은

“상관이 없는데도, 실수로 있다고 말할 확률을 10%까지 허용하겠다.

정리

상관계수 유의성 검정은:

r이 클수록 t값 커짐
표본이 많을수록 분모 작아져서 t 커짐
결국 t-분포로 판단함

왜 t분포를 쓰는가?

표본이 작을 때(n < 30)

모집단 분산을 모르기 때문에
정규분포 대신 t분포 사용.

가장 중요한 구조

상관계수 검정은 결국

상관계수 → t값 변환 → t분포에서 판단

① 통계적 결론 – 기각역

검정통계량 t = -3.58은 기각역에 속하여 귀무가설은 기각된다. 따라서 지각횟수와 국어성적은 상관관계가 있다.

② 통계적 결론 – p값 사용

p값(0.037) < 유의수준(α = 0.1), p값이 유의수준보다 작으므로 귀무가설은 기각된다. 따라서 지각횟수와 국어성적은 상관관계가 있다.

“t = -3.58은 기각역에 속하여 귀무가설은 기각된다.”

기각역이 뭐냐?

기각역(Reject Region)은

“이 범위에 들어오면 귀무가설을 버린다”라고 미리 정해둔 영역

이 문제에서는:

유의수준 α = 0.1
양측검정
자유도 3

그래서 임계값이:

±2.354

즉,

t < -2.354
또는 t > 2.354

이면 기각.

근데 왜 -3.58이면 기각이냐?

t = -3.58

이 값은

-2.354보다 더 왼쪽

즉,

“상관이 없다면 이런 극단적인 값은 거의 안 나온다”

라는 의미야.

그래서

→ 귀무가설(ρ = 0)을 버림

그래서 왜 “상관관계가 있다”고 말하냐?

귀무가설은

ρ = 0 (상관이 없다)

이걸 기각했으니까

→ ρ ≠ 0

→ 상관관계가 있다

라고 결론 내리는 거다.

“p값(0.037) < 유의수준(α = 0.1)”

p값이 뭐냐?

p-value는

“귀무가설이 맞다고 가정했을 때,
지금 같은 극단적인 결과가 나올 확률”

지금은

p = 0.037

이 말은

상관이 없다고 가정하면
이런 결과가 나올 확률이 3.7%밖에 안 된다

근데 왜 0.1이랑 비교하냐?

유의수준 α = 0.1은

내가 허용할 오차 확률

즉,

“10%까지는 우연이라고 봐줄게”

라는 기준

비교하면?

0.037 < 0.1

→ 우연히 나왔다고 보기엔 너무 확률이 작다.

→ 그러니까

귀무가설 기각.

이해

“상관이 없다면 이런 값은 거의 안 나온다.
그러니까 상관이 있다고 보는 게 더 합리적이다.”

정리

t = -3.58 → 기각역 안 → 기각
p = 0.037 → 0.1보다 작음 → 기각
따라서 상관관계 있음

그림 해석

① 가운데 봉우리

이 곡선이 t분포(df=3) .
가운데 0이 “상관이 없다(귀무가설)” 기준점.
대부분 확률은 가운데에 몰려 있어.

② 빨간 점선 (임계값)

좌우에 있는 점선이

±2.354

이게 기각역 경계선.

이 바깥 면적이 α = 0.1
양쪽 0.05씩

즉,

여기 밖으로 나가면 기각

③ 파란 실선 -> 관측된 t = -3.58

왼쪽에 있는 파란 실선이 바로

t = -3.58

이 값이 임계값(-2.354) 보다 더 왼쪽에 있어.

즉,

기각역 안에 들어가 있음

초록 실선 -> 대칭 t = 관측된 t값의 절댓값 위치

지금:

t=−3.58t = -3.58

이면

∣t∣=3.58|t| = 3.58

그래서

실제 관측값: -3.58
대칭 위치: +3.58

④ 주황색으로 칠해진 부분 = p-value영역

왼쪽 끝 (t ≤ -3.58)
오른쪽 끝 (t ≥ +3.58)

이 두 면적을 더한 게

p = 0.037

이제 연결

유의수준 α = 0.1

→ 기각역 전체 면적이 0.1

p = 0.037

→ 실제 데이터가 차지하는 극단 면적

비교하면:

0.037 < 0.1

그래서 기각.

α는 “미리 정해둔 꼬리 면적”
p는 “실제로 데이터가 만들어낸 꼬리 면적”
p가 더 작으면 → 기각

728x90

LIST

'2. 빅데이터 탐색 > 데이터 탐색' 카테고리의 다른 글

다변량 데이터 탐색 (0)	2026.02.27
시공간 데이터 탐색 (0)	2026.02.27
시각적 데이터 탐색 (1)	2026.02.26
기초 통계량 추출 및 이해 (0)	2026.02.25
데이터 탐색 개요 (0)	2026.02.24

'2. 빅데이터 탐색/데이터 탐색' Related Articles

hye-_

상관관계 분석 본문

상관관계 분석

데이터 탐색은

데이터 분석에 앞서

변수들의 관계를

파악하는 목적을 가지고 있다.

수집된 변수의 상관관계를 파악하여

분석을 위한 독립변수와 설명변수 등을 파악할 수 있고

이상값을 제거할 수 있으며

개별 변수들 간의 관계를 관찰하여 발견하지 못한 패턴을 발견할 수 있다.

상관관계 분석(Correlation Analysis)은

두 개의 연속형 변수 간의

선형적 관계를 분석하는 기법이다.

산점도 (Scatter Plot)

키가 증가할수록 몸무게 또한 증가하는 패턴

정리

상관관계 분석(Correlation Analysis) 이 제대로 작동하기 위해 필요한 전제 조건(가정사항, Assumptions)

왜 “가정사항”이라는 말을 쓰는가?

이변량 (Bivariate)

비교 가능한 두 개의

연속형 변수 (Continuous Variable)

정규분포 (Normal Distribution)

변수 중 적어도 하나의 변수가

정규성을 만족

선형성 (Linearity)

산점도 (Scatter Plot)

정리

상관관계 분석(Correlation Analysis)의 결과 해석과 한계, 그리고 회귀분석과의 차이

두 변수 간의 선형관계를 가지고 있는지

양(+)과 음(-)의 관계인지

선형성의 크기(강도)는 얼마인지를 분석할 수 있다

구체적인 인과관계(함수관계)를 파악하는 것이 아니며

한 변수의 값으로부터 다른 변수의 값을 예측하고자 하는 인과관계는 회귀분석이 사용된다

예시: 가계소득이 높으면 저축금액은 얼마나 될까를 예측

산점도를 이용해 가시적으로 확인할 수 있으며

양과 음의 방향과 크기는 상관계수로 측정

예시 해석

정리

상관계수 해석 방법과공분산(Covariance)과 상관계수(Correlation Coefficient)의 개념적 차이

왜 “상관관계개수 해석”이라고 하는가?

선형성

두 개의 변수 간의 직선관계(비례식)

산점도로 확인

선형관계의 방향(단조성)

양(+)의 상관관계

음(-)의 상관관계

0(선형 상관관계 없음)

관계의 크기(강도)

-1 ~ +1 : 사이의 값

-1,+1: 완전한 선형관계

피어슨 상관계수의 크기

공분산 (Covariance)

상관계수 (Correlation Coefficient)

공분산

왜 이렇게 정의하냐

왜 평균으로부터 떨어진 정도를 보냐

왜 편차의 곱을 쓰냐

왜 n-1로 나누냐

정리

공분산의 “해석 방법”과 “한계점”, 그리고 그 한계를 보완하는 “상관계수”

왜 이렇게 해석하냐

차이 정리

공식 풀어가는 과정

학생 5명의 영어(X), 국어(Y) 점수 표 (예시)

4) 수학 공식 “풀어가는 과정” 그대로

(1) 표본 평균

(2) 편차 만들기

(3) 편차곱을 모두 더하기 (Σ, 시그마 합)

(4) 표본공분산(표본이므로 n-1로 나눔)

해석

기호

1-1. cov(X, Y)

1-2. X, Y

1-3. Σ (시그마)

1-4. i (아이), (i=1)부터 (n)까지

1-5. (n) (엔)

1-6. x̄ , y̅ (엑스 바, 와이 바)

1-7. ((x_i - \bar{x})), ((y_i - \bar{y})) (편차)

1-8. ((x_i - \bar{x})(y_i - \bar{y})) (편차의 곱)

상관계수 해석 방법과
공분산(Covariance)과 상관계수(Correlation Coefficient)의 개념적 차이