관리 메뉴

hye-_

회귀분석 본문

3. 빅데이터 모델링/분석 기법 적용

회귀분석

hyehh 2026. 3. 12. 15:03
728x90
반응형
SMALL

회귀분석

회귀(Regression)는 평균으로 '돌아간다'는 의미로, 영국의 학자 프랜시스 골턴(Francis Galton)이 '인간의 키가 세대를 지날수록 평균과 가까워진다'는 연구 결과를 '회귀'라 이름 붙인 것에서 시작한다.

회귀(regression)라는 단어의 탄생 배경과 의미

여기서 Regression이라는 영어 단어는

regress
→ 뒤로 돌아가다
→ 원래 상태로 돌아가다

라는 뜻을 가지고 있다.

그래서 통계학에서는 "값이 평균으로 돌아가는 현상"을 의미한다.

왜? 

왜냐하면 현실 세계의 데이터는 극단적인 값이 계속 유지되기보다는 시간이 지나면서 평균적인 값에 가까워지는 경향을 보이는데, 이 현상을 최초로 체계적으로 관찰하고 설명한 사람이 바로 프랜시스 골턴이며 그는 부모와 자식의 키 데이터를 분석하면서 이러한 평균 회귀 현상을 발견했기 때문에 이 현상을 회귀(regression)라고 이름 붙이게 된 것이다.

용어 설명

Regression

  • Regression = 회귀
  • 의미 = 평균으로 돌아가는 현상

Francis Galton

영국 통계학자
찰스 다윈의 사촌

생물 통계학 (Biostatistics)
상관관계 (Correlation)
회귀분석 (Regression Analysis)

이 개념들을 처음 연구한 사람이다.


예시

예를 들어 보자.

부모 평균 키

190 cm

자식 평균 키

185 cm

또 그 다음 세대

180 cm

극단값 → 평균으로 가까워짐

이 현상을

Regression to the mean
평균으로의 회귀

라고 한다.


부모의 키가 크고, 자식은 부모보다 더 크다고 하더라도 후손의 키가 세대를 이어가면서 무한정 커지는 것은 아니며, 부모의 키가 작고, 자식은 부모보다 더 작더라도 후손의 키가 세대를 이어가며 무한정 작아지는 것이 아니라는 것이다.

극단적인 값이 계속 증가하거나 감소하지 않는다는 자연현상을 설명한다.

큰 값 → 평균으로 내려옴
작은 값 → 평균으로 올라옴

이 현상을 말한다.

왜?

왜냐하면 생물학적 특성이나 자연 현상은 여러 개의 독립적인 요인들이 동시에 영향을 주기 때문에 하나의 세대에서 극단적으로 나타난 값이 다음 세대에서도 동일하게 유지되기는 어렵고, 유전적 요인과 환경적 요인들이 섞이면서 결국 전체 모집단의 평균에 가까운 방향으로 값이 조정되는 경향이 나타나기 때문이다.

용어

모집단 평균

기호

μ (뮤)

읽는 방법

의미

Population Mean
모집단 평균

예시

예를 들어

대한민국 평균 키

μ = 173 cm

어떤 부모

190 cm

자식

180 cm

다음 세대

175 cm

점점

173 cm

근처로 간다.

 

즉, 사람의 키가 평균 키로 회귀하려는 경향을 가지는 것은 자연의 법칙이라는 의미이며, 회귀분석은 이처럼 데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법으로 정리할 수 있다.

평균으로 돌아가는 현상

을 이용해서 만든 분석 방법이

회귀분석
Regression Analysis

라고 설명한다.

왜? 

왜냐하면 데이터는 완전히 랜덤하게 움직이는 것이 아니라 특정한 중심값이나 평균을 기준으로 일정한 패턴이나 경향성을 가지는 경우가 많으며 통계학에서는 이러한 평균 회귀 경향을 수학적 모델로 표현하여 변수들 사이의 관계를 설명하고 미래 값을 예측할 수 있도록 하는 분석 방법을 발전시켰는데 그것이 바로 회귀분석이기 때문이다.

용어

Regression Analysis

Regression
= 회귀

Analysis
= 분석

회귀분석 = Regression Analysis

수식

회귀분석의 기본 수식

수식 읽기

y = 베타0 + 베타1 x + 엡실론

각 기호 의미

기호의미

y 종속변수 (Dependent Variable)
x 독립변수 (Independent Variable)
β0 절편 (Intercept)
β1 회귀계수 (Regression coefficient)
ε 오차 (Error term)

 

절편 β₀ x=0일 때 y값
회귀계수 β₁ x가 1 증가할 때 y 변화량
오차 ε 실제값 − 예측값

예시

공부시간 → 시험점수

수식

점수 = 50 + 5 × 공부시간

공부 1시간 증가 → 점수 5점 증가

 

 

회귀분석은 통계학에서 가장 기본이 되는 자료 분석 방법으로, 자료들 간의 관계성을 수학적 추정을 통해 설명한다.

회귀분석의 역할

데이터들 사이 관계를 수학적으로 설명하는 방법

이다.

왜? 

왜냐하면 현실 데이터는 단순히 하나의 변수만 존재하는 것이 아니라 여러 변수들이 동시에 서로 영향을 주고받는 구조를 가지고 있기 때문에 이러한 변수들 사이의 관계를 단순히 눈으로 관찰하는 것만으로는 정확하게 이해하기 어렵고 통계학에서는 이러한 관계를 수학적 모델과 추정 방법을 이용하여 수치적으로 표현하고 해석하는 방법을 사용하게 되는데 그 대표적인 방법이 바로 회귀분석이기 때문이다.

 

회귀분석은 인과관계(Causal Relationship)를 증명하는 방법은 아니며, 인과관계를 검정하는 분석 방법이다(Causal Analysis).

매우 중요한 통계 개념을 설명한다.

회귀분석은

원인 → 결과

완전히 증명하는 방법이 아니다.

하지만

원인 가능성

검정하는 방법이다.

왜? 

왜냐하면 통계적 분석은 실험을 통해 모든 변수들을 완벽하게 통제하지 않는 이상 단순한 데이터 관측만으로는 어떤 변수 하나가 다른 변수의 결과를 직접적으로 발생시켰다고 확정적으로 말하기 어렵기 때문에 회귀분석은 단지 변수들 사이의 관계와 영향 정도를 추정하고 그 관계가 통계적으로 유의한지를 검정하는 도구로 사용되며 인과관계를 절대적으로 증명하는 방법으로 사용되는 것은 아니기 때문이다.

Causal Relationship

Causal = 원인
Relationship = 관계

인과관계

 

 

 

따라서 회귀분석은 변수 간의 함수관계를 분석하는 방법 중 하나로, 좀 더 수학적으로 표현한다면 독립변수와 종속변수 간의 1차 선형관계를 도출하여 독립변수가 종속변수에 미치는 영향 혹은 예측 정도를 분석하는 방법이다.

회귀분석의 수학적 정의

핵심

독립변수 → 종속변수 영향 분석

용어

독립변수 (Independent Variable)

기호

X

의미

원인 변수

공부시간
광고비
온도

종속변수 (Dependent Variable)

기호

Y

의미

결과 변수

시험점수
매출
아이스크림 판매량

수식

1차 선형 회귀

여기서는 오차가 없다.

왜냐하면 이 식은 예측값을 계산하는 식이기 때문이다.

 

읽기

y = 베타0 + 베타1 x

 

의미 오차
회귀모형 실제 데이터가 만들어지는 구조 있음
예측식 모델이 계산한 예측값 없음

예시

광고비 → 매출

회귀식

매출 = 100 + 20 × 광고비

의미

광고비 1 증가 → 매출 20 증가

 

회귀분석의 목적 : 한 변수(종속변수)가 다른 여러 변수(독립변수)에 의해 어떻게 영향을 받는가를 수학적 함수식으로 파악함으로써 상호관계를 추론 및 분석, 주어진 독립변수로부터 종속변수를 예측하기 위하여 사용하며, 이를 위해 직선 형태의 추세선 도출.

회귀분석의 목적

목적은 두 가지다.

1. 관계 설명
2. 미래 예측

왜? 

왜냐하면 데이터 분석의 궁극적인 목표는 단순히 과거 데이터를 설명하는 것에 그치지 않고 변수들 사이의 구조적인 관계를 이해함으로써 미래에 어떤 값이 나타날지를 예측하는 데 있기 때문에 회귀분석은 독립변수와 종속변수 사이의 수학적 관계식을 만들어내고 그 관계식을 이용하여 새로운 데이터가 주어졌을 때 종속변수의 값을 추정하는 데 사용된다.

수식

다중 회귀식

읽기

y = 베타0 + 베타1 x1 + 베타2 x2 ... + 베타k xk

예시

집값 예측

집값 = β0 + β1(면적) + β2(위치) + β3(방개수)

여러 변수 → 하나 결과 예측

 

정리

X → Y 관계를 수식으로 표현하고
X로 Y를 예측하는 것

회귀분석의 변수와 선형회귀식

 

회귀분석을 위한 변수는 독립변수와 종속변수로 구분하며, 독립변수는 원인(영향을 주는 변수)그리고 종속변수는 원인에 대한 결과(영향을 받는 변수)를 의미한다.

회귀분석에서 가장 먼저 해야 하는 일이 변수의 역할을 나누는 것이다.
즉, 회귀분석은 그냥 숫자를 아무거나 넣고 계산하는 것이 아니라, 어떤 변수가 영향을 주는 쪽인지, 어떤 변수가 영향을 받는 쪽인지 먼저 정해야만 성립하는 분석 방법이라는 뜻이다.

왜?

왜냐하면 회귀분석은 변수들 사이의 관계를 단순히 같이 움직이는지 보는 것에서 끝나는 것이 아니라, 한 변수의 변화가 다른 변수의 값 변화와 어떻게 연결되는지를 수식으로 표현하려는 방법이기 때문에, 어느 쪽이 설명하는 변수이고 어느 쪽이 설명받는 변수인지를 먼저 정하지 않으면 수식 자체를 세울 수 없기 때문이다.

용어

  • 독립변수: 영향을 주는 변수
  • 종속변수: 영향을 받는 변수
  • 영어로는
    • 독립변수 = Independent Variable
    • 종속변수 = Dependent Variable

수식

가장 기본적인 회귀식은 보통 이렇게 쓴다.

읽는 법:
와이는 베타0 더하기 베타1 곱하기 엑스 더하기 엡실론

여기서

  • (X): 독립변수
  • (Y): 종속변수

예시

예를 들어

  • 공부시간 = 독립변수
  • 시험점수 = 종속변수

라고 둘 수 있다.
왜냐하면 보통 공부시간이 변하면 시험점수가 달라지는 방향으로 해석하지, 시험점수가 바뀌어서 과거의 공부시간이 바뀐다고 해석하지는 않기 때문이다.

 

독립변수 = 설명변수 = 예측변수= 위험인자.

독립변수가 상황에 따라 여러 이름으로 불린다는 뜻이다.
즉, 본질은 같은데 보는 관점에 따라 명칭이 달라진다는 의미다.

왜?

왜냐하면 통계학, 의학, 머신러닝, 사회과학처럼 분야가 달라지면 같은 변수를 바라보는 목적이 달라지기 때문에, 어떤 분야에서는 다른 변수를 설명해주는 변수라는 뜻에서 설명변수라고 부르고, 어떤 경우에는 미래 값을 맞추는 데 쓰인다는 뜻에서 예측변수라고 부르며, 의학에서는 질병 발생 가능성에 영향을 주는 요인이라는 뜻에서 위험인자라고 부르기 때문이다.

용어

  • 설명변수 = Explanatory Variable
  • 예측변수 = Predictor Variable
  • 위험인자 = Risk Factor

즉 이름은 다르지만 회귀식 안에서 역할은 기본적으로 독립변수 쪽이다.

수식

예를 들어 흡연 여부가 폐질환 위험에 미치는 영향을 본다면

여기서

  • (X): 흡연 여부
  • (Y): 폐질환 관련 수치 또는 발생 확률에 대응하는 결과값

예시

  • 키 예측에서 부모 키는 설명변수
  • 시험점수 예측에서 공부시간은 예측변수
  • 질병 연구에서 흡연, 음주, 비만도는 위험인자

독립변수 형태 : 연속형 변수, 범주형 변수(가변환해서 사용 = 더미변수).

독립변수는 숫자가 쭉 이어지는 형태일 수도 있고, 카테고리처럼 구분되는 형태일 수도 있다
다만 범주형 변수는 바로 회귀식에 넣을 수 없기 때문에 숫자로 바꿔서 써야 한다

왜?

왜냐하면 회귀분석의 계산은 결국 덧셈, 곱셈, 행렬 계산 같은 수치 연산으로 이루어지는데, 범주형 변수는 문자나 이름 자체로는 계산이 되지 않기 때문에, 남자/여자, 서울/부산, 합격/불합격 같은 범주를 0과 1 같은 숫자 형태로 변환해 주어야 회귀모형 안에서 계수를 추정할 수 있기 때문이다.

용어

  • 연속형 변수 = Continuous Variable
    • 값이 연속적으로 이어지는 변수
    • 예: 키, 몸무게, 온도, 점수
  • 범주형 변수 = Categorical Variable
    • 값이 종류나 그룹으로 나뉘는 변수
    • 예: 성별, 지역, 혈액형
  • 가변환: 여기서는 보통 범주형 변수를 수치형으로 바꾸는 변환을 말하는 맥락이다.
  • 더미변수 = Dummy Variable
    • 범주형 변수를 0, 1 같은 인공 숫자로 바꾼 변수

수식

예를 들어 성별이 남/여 두 범주라면

이렇게 바꿔서 회귀식에 넣는다.

예시

연봉 예측을 할 때

  • 경력연수 = 연속형 변수
  • 성별 = 범주형 변수
  • 학력 = 범주형 변수

이 중 성별, 학력 같은 것은 더미변수로 바꿔서 넣는다.


종속변수 = 목표변수 = 반응변수 = 결과변수.

종속변수도 독립변수처럼 상황에 따라 부르는 이름이 다르다
즉, 결국 회귀분석에서 우리가 설명하거나 예측하고 싶은 대상이 종속변수라는 의미다.

왜?

왜냐하면 분석의 목적이 무엇인지에 따라 종속변수를 바라보는 관점이 달라지기 때문에, 예측 중심이면 맞춰야 할 값이라는 뜻에서 목표변수라고 하고, 실험이나 처리에 대한 반응이라는 관점이면 반응변수라고 하며, 어떤 원인들의 결과로 나타난 값이라는 관점이면 결과변수라고 부르게 되기 때문이다.

용어

  • 목표변수 = Target Variable
  • 반응변수 = Response Variable
  • 결과변수 = Outcome Variable 또는 Result Variable 맥락

수식

여기서 (Y) 가 바로 목표변수, 반응변수, 결과변수다.

예시

  • 매출 예측에서 매출 = 목표변수
  • 약물 실험에서 혈압 변화량 = 반응변수
  • 공부시간 분석에서 시험점수 = 결과변수

종속변수 형태 : 연속형 변수.

선형회귀에서는 종속변수가 보통 연속적인 숫자값이어야 한다

왜?

왜냐하면 선형회귀는 종속변수의 값을 직선 또는 평면 형태의 연속적인 함수값으로 예측하는 모델이기 때문에, 예측 대상인 종속변수가 0, 1, 합격/불합격 같은 범주가 아니라 점수, 키, 몸무게, 매출처럼 크기 자체를 가지는 연속적인 값이어야 모델의 구조와 해석이 자연스럽기 때문이다.

용어

  • 연속형 변수: 실수값처럼 이어지는 값
  • 선형회귀에서는 종속변수가 주로 이런 형태다.

수식

예를 들어 집값 예측

집값은 연속형 변수다.

예시

  • 시험점수
  • 몸무게
  • 월매출
  • 온도

이런 값들은 선형회귀의 종속변수로 쓰기 좋다.


선형관계는 선형회귀식을 이용하여 파라미터를 추정하고, 예측값과 실제 관측값 간 차이(잔차)의 합이 최소가 되는 직선이다.

선형회귀가 결국 데이터에 가장 잘 맞는 직선을 찾는 과정이라는 뜻이다.
여기서 중요한 건 아무 직선이 아니라 예측값과 실제값의 차이가 가장 작아지는 직선이라는 점이다.

왜?

왜냐하면 실제 데이터는 딱 하나의 직선 위에 정확히 올라가 있지 않고 조금씩 퍼져 있기 때문에, 회귀분석은 그 퍼진 점들 사이에서 전체적으로 가장 잘 대표할 수 있는 선을 골라야 하며, 이때 각 점에서 실제 관측값과 직선이 예측한 값 사이의 차이를 잔차라고 하고, 이 잔차들이 전체적으로 가장 작아지도록 만드는 기준을 사용해야 가장 적합한 직선을 찾았다고 볼 수 있기 때문이다.

용어

  • 선형관계: 직선 형태로 설명 가능한 관계
  • 파라미터(parameter): 모델을 결정하는 미지의 값
  • 예측값: 모델이 계산한 값
  • 실제 관측값: 실제 데이터에서 측정된 값
  • 잔차(residual): 실제값 - 예측값

수식

보통 실제값을 y_i, 예측값을 y_i  햇 라고 쓰면

여기서

그리고 선형회귀는 보통 잔차의 합 그 자체보다 잔차제곱합을 최소화한다.

예시

공부시간이 1, 2, 3, 4시간이고 점수가 55, 60, 68, 72점이라고 할 때,
이 점들을 가장 잘 지나가는 직선을 찾는 것이 선형회귀다.
각 점에서 선까지의 세로 거리 차이가 잔차다.


가장 간단한 관계식은 Y = b + aX 예로 들 수 있다.

가장 단순한 선형회귀의 형태가 직선 방정식이라는 뜻이다.
중학교 때 배운 (y = ax + b) 와 같은 구조다. 순서만 (b + aX) 로 쓴 것이다.

왜?

왜냐하면 독립변수가 하나이고 종속변수도 하나인 가장 단순한 회귀문제에서는 변수 간의 관계를 가장 간단한 함수 형태인 1차식으로 먼저 가정하는 것이 이해하기 쉽고 계산하기도 쉬우며, 실제로 많은 현상에서 변수 하나가 증가할 때 결과가 대체로 일정한 비율로 증가하거나 감소하는 경향을 1차 직선식으로 근사해서 설명할 수 있기 때문이다.

용어

  • (Y): 종속변수
  • (X): 독립변수
  • (a): 기울기
  • (b): 절편

수식

읽는 법:
와이는 비 더하기 에이 엑스

예시

여기서

  • 절편 50: 공부시간이 0일 때 예측 점수
  • 기울기 5: 공부시간이 1시간 늘면 점수가 5점 증가

이 관계식에서 X, Y는 데이터이고, a,b는 두 데이터의 관계를 설명하는 파라미터가 된다.

수식 안에서 무엇이 관측된 데이터이고 무엇이 모델이 찾아야 하는 값인지를 구분하는 내용이다.
즉, (X) 와 (Y) 는 실제로 얻은 값들이고, (a) 와 (b) 는 그 관계를 가장 잘 설명하도록 추정해야 하는 값이다.

왜?

왜냐하면 회귀분석은 이미 존재하는 데이터를 가지고 그 데이터들 사이의 규칙을 찾아내는 작업이므로, 관측된 입력값과 결과값 자체는 데이터로 주어져 있지만 그 데이터들 사이를 가장 잘 설명하는 직선의 기울기와 절편은 처음부터 알려져 있지 않기 때문에, 분석 과정에서 이 미지의 값들을 추정해야 하고 이때 그 미지의 설명값들을 파라미터라고 부르기 때문이다.

용어

  • 데이터: 실제 관측하여 얻은 값
  • 파라미터(parameter): 데이터 사이의 관계를 설명하는 모델의 미지수
  • 여기서
    • (X, Y): 데이터
    • (a, b): 파라미터

수식

여기서

  • (X, Y) 는 관측된 값
  • (a, b) 는 추정할 값

예시

데이터가 아래와 같다고 하자.

공부시간 X 점수 Y
1 55
2 60
3 68
4 72

이 데이터는 이미 주어진 값이고,
이걸 가장 잘 설명하는 (a), (b) 를 찾는 것이 회귀분석이다.


관계식에서 모든 데이터 위치와 직선의 위치가 정확히 일치하는 직선을 얻는 것은 현실에서 거의 불가능하기 때문에 무작위 에러(노이즈)를 추가하여 사용한다.

현실의 데이터가 너무 깔끔하지 않기 때문에, 수식 안에 오차항을 넣어야 한다
즉, 실제 현상은 직선 하나로 완벽히 설명되지 않으므로 설명되지 않는 부분을 따로 두는 것이다.

왜?

왜냐하면 현실에서는 같은 공부시간이라도 집중력, 건강상태, 문제 난이도, 시험 운, 측정 오차처럼 우리가 모델에 넣지 못한 요인들이 많아서 결과값이 완벽하게 하나의 직선 위에 놓일 수 없으며, 따라서 회귀모형은 설명 가능한 구조적 부분과 설명되지 않는 무작위 부분을 분리해서 표현해야 실제 데이터의 성질을 더 현실적으로 반영할 수 있기 때문이다.

용어

  • 무작위 에러 = random error
  • 노이즈(noise): 모델이 설명하지 못하는 우연한 흔들림
  • 보통 수식에서 epsilon 으로 나타냄

수식

읽는 법:
와이는 베타0 더하기 베타1 엑스 더하기 엡실론

여기서

예시

공부시간이 똑같이 3시간이어도

  • 어떤 학생은 컨디션이 좋아서 75점
  • 어떤 학생은 피곤해서 65점

이 차이는 단순 공부시간만으로 설명되지 않으므로 노이즈로 남는다.


수식에서 엡실론_1(잔차) 평균이 0이 되는 조건을 만족하는 회귀계수 베타_0, 베타_1의 관ㄱ계식이 선형회귀식이며, 이것으로 선형 모델을 도출하게 된다(엡실론_1평균이 최소가 되도록 파라미터(베타_0, 베타_1)의 값을 좁혀 가기 때문에 회귀라고 한다).

선형회귀식에서 오차항 또는 잔차가 한쪽으로 치우치지 않고 평균적으로 0 이 되도록 회귀계수를 정한다
다만 여기서 엄밀하게는 오차항의 기대값이 0, 또는 표본 수준에서는 잔차합이 0에 가깝다는 식으로 이해하는 것이 더 정확하다.

 

“엡실론 평균이 최소가 되도록”이라고 되어 있는데, 선형회귀에서 핵심 최소화 대상은 보통 엡실론 자체의 평균이 아니라 잔차 제곱합이다.
엡실론 평균이 0이라는 것은 가정에 가깝고, 추정은 제곱합 최소화로 한다.

왜?

왜냐하면 회귀모델이 좋은 모델이라면 예측이 전체적으로 위로만 치우치거나 아래로만 치우치면 안 되고, 어떤 데이터에서는 조금 크게 예측하고 어떤 데이터에서는 조금 작게 예측하더라도 전체적으로 보면 플러스 오차와 마이너스 오차가 서로 상쇄되어 평균적으로 0이 되는 방향이어야 모델이 특정 방향으로 편향되지 않았다고 볼 수 있으며, 이런 조건을 만족하도록 절편과 기울기를 추정해야 가장 균형 잡힌 선형모델을 얻을 수 있기 때문이다.

용어

수식

모형 수준에서는

 

보통 가정은

읽는 법:
이 오브 엡실론은 0이다
여기서 (E) 는 기댓값(Expected Value) 이다.

 

표본에서 예측식을 쓰면

 

잔차는

 

그리고 최소제곱법에서는

를 최소화하도록 hat{beta}_0, hat{beta}_1) 을 찾는다.

예시

직선이 너무 위에 있으면 실제값보다 예측값이 계속 커져서 잔차가 한쪽 방향으로 몰리고,
직선이 너무 아래에 있으면 반대로 예측값이 계속 작아진다.
그래서 위아래 오차가 균형을 이루도록 절편과 기울기를 조정하는 것이다.


또한 회귀분석에서 독립변수가 변화함에 따라 종속변수에 미치는 영향력의 크기를 회귀계수라 한다.

회귀계수가 무엇을 뜻하는지
즉, 독립변수가 조금 바뀌었을 때 종속변수가 얼마나 변하는지를 나타내는 숫자가 회귀계수라는 뜻이다.

왜?

왜냐하면 회귀분석의 핵심은 단순히 관련이 있다는 말로 끝나는 것이 아니라, 독립변수가 증가하거나 감소할 때 종속변수가 구체적으로 얼마나 변하는지를 수치로 표현하는 데 있으며, 바로 그 변화량을 계수 형태로 나타내야 해석이 가능하고 예측도 가능해지므로 이 변화의 크기를 나타내는 숫자를 회귀계수라고 부르는 것이다.

용어

수식

여기서 회귀계수 5는
공부시간이 1시간 증가할 때 점수가 평균적으로 5점 증가한다는 뜻이다.


회귀식에서 베타_0과 베타_1, 베타_2,... 베타_n를 회귀계수라 부르며, 회귀분석은 회귀계수를 찾아 독립변수와 종속변수 사이의 함수식을 정의한다(단순선형회귀는 독립변수의 회귀계수가 1개, 다중선형회귀는 독립변수 수만큼 회귀계수 존재).

회귀식 안의 베타들이 각각 종속변수와 독립변수의 관계를 나타내며, 회귀분석이 결국 이 베타값들을 찾는 작업이다.
또한 독립변수가 하나면 단순선형회귀, 여러 개면 다중선형회귀다.

왜?

왜냐하면 회귀모형은 데이터들 사이의 관계를 말로만 설명하는 것이 아니라 숫자로 표현된 함수식으로 정의해야 실제 계산과 예측에 사용할 수 있는데, 이 함수식의 핵심은 각 독립변수가 종속변수에 어느 정도 영향을 주는지를 나타내는 계수들이며, 독립변수가 하나일 때는 그 영향력을 나타내는 계수도 하나만 있으면 되지만 독립변수가 여러 개라면 각 변수마다 따로 영향력을 표현할 계수가 필요하기 때문이다.

읽는 법:
와이는 베타0 더하기 베타1 엑스1 더하기 베타2 엑스2 더하기 ... 베타 n 엑스 n 더하기 엡실론

예시


정의된 회귀계수가 통계적으로 유의미한지 파악한 후(F검정 등 이용), 유의하다고 검정이 될 경우에 회귀 모델을 이용해 종속변수의 값을 예측하게 되며, 일반적으로 두 변수 사이에 상관관계가 거의 없을 때 (상관계수=0) 회귀계수는 의미가 없다고 판단할 수 있다.

회귀계수를 구했다고 해서 무조건 믿는 게 아니라, 그 계수가 통계적으로 의미가 있는지 검정해야 한다
그리고 두 변수 사이 상관이 거의 없으면 회귀계수도 해석 가치가 낮아질 수 있다

왜?

왜냐하면 표본 데이터에서는 우연에 의해 어떤 기울기가 계산될 수도 있기 때문에, 단순히 숫자가 나왔다고 해서 독립변수가 종속변수에 실제 영향을 준다고 결론 내리면 안 되고, 그 계수가 우연히 나온 값이 아니라 통계적으로 유의한 값인지 검정을 통해 확인해야 하며, 만약 두 변수 사이에 선형적 관련성이 거의 없다면 회귀계수 역시 실제 해석력이 약하거나 0에 가까운 값이 되어 의미 있는 설명 변수라고 보기 어려워지기 때문이다.

용어

  • 통계적으로 유의미하다: 우연히 나온 결과라고 보기 어렵다
  • F검정: 회귀모형 전체가 유의한지 검정하는 방법
  • 상관계수 = Correlation Coefficient
    • 보통 (r) 로 쓴다.

수식

상관계수

단순선형회귀에서는 상관이 0이면 기울기 추정값도 0에 가까워지는 구조가 있다.
엄밀히는 “상관계수 = 0이면 항상 회귀계수가 의미 없다”는 말은 선형관계 기준에서 이해해야 한다.
비선형 관계는 상관계수 0이어도 존재할 수 있다.

F검정은 보통

형태로 생각한다.

예시

공부시간과 시험점수가 거의 아무 관계 없이 막 섞여 있다면
회귀직선을 그어도 기울기가 0에 가깝고, 검정에서도 유의하지 않게 나올 수 있다.
반대로 공부시간이 늘수록 점수가 일정하게 오르는 패턴이 강하면 회귀계수는 유의하게 나올 가능성이 크다.


회귀계수를 추정하기 위해 최소제곱법, 최대가능도법, 적률추정법 등을 사용한다.

회귀계수라는 미지의 값을 구하는 방법이 하나만 있는 것이 아니라 여러 가지 통계적 추정 방법이 있다

왜?

왜냐하면 회귀계수는 데이터만 보고 자동으로 딱 드러나는 값이 아니라 어떤 기준으로 가장 그럴듯한 값을 정해야 하는 추정 대상이기 때문에, 잔차의 제곱합을 최소로 하는 기준을 쓸 수도 있고, 현재 데이터를 가장 높은 확률로 만들어냈다고 볼 수 있는 값을 찾는 기준을 쓸 수도 있으며, 표본에서 계산한 모멘트와 이론적 모멘트를 맞추는 기준을 쓸 수도 있어서 여러 추정 방법이 존재하게 되는 것이다.

용어

  • 최소제곱법 = Least Squares Method / OLS(Ordinary Least Squares)
    • 잔차 제곱합을 최소로 만드는 방법
  • 최대가능도법 = Maximum Likelihood Estimation, MLE
    • 현재 데이터가 가장 그럴듯하게 나올 확률을 최대화하는 방법
  • 적률추정법 = Method of Moments
    • 표본의 모멘트와 이론 모멘트를 맞추는 방법

수식

최소제곱법은 보통

를 푸는 것이다.

 

최대가능도법은 오차가 정규분포를 따른다고 가정하면 가능도함수

또는 로그가능도

를 최대화하는 방식으로 간다.

 

적률추정법은 예를 들어

같은 이론적 모멘트를 표본평균과 맞추는 식으로 진행한다.

예시

  • 선형회귀 기본 교과서에서는 보통 최소제곱법을 가장 먼저 배운다.
  • 확률모형 관점이 강한 통계에서는 최대가능도법을 많이 쓴다.
  • 분포의 모수를 빠르게 추정하는 이론 파트에서는 적률추정법이 자주 나온다.

 


 

회귀분석의 유의성 검정 절차 

회귀분석 유의성 검정을 위한 첫 번째는 산점도 행렬을 시각화하고 상관관계 분석을 이용하여 독립변수(설명변수)와 종속변수(목표변수) 간의 데이터 경향성을 확인하는 과정이다.

회귀분석의 유의성 검정을 시작할 때 가장 먼저 해야 하는 일이 데이터를 눈으로 보고, 변수들 사이에 어떤 방향성과 패턴이 있는지 확인하는 것이다.
즉, 회귀식을 바로 세우기 전에 독립변수와 종속변수가 대체로 함께 증가하는지, 감소하는지, 직선처럼 보이는지, 전혀 관계가 없어 보이는지를 먼저 살펴봐야 한다는 의미다.

왜?

왜냐하면 회귀분석은 독립변수와 종속변수 사이에 일정한 함수관계, 특히 선형회귀에서는 직선형 관계가 어느 정도 존재한다는 전제를 두고 출발하는데, 데이터 자체를 보지도 않고 바로 회귀모형을 적합시키면 실제로는 관계가 거의 없거나 비선형 구조인데도 억지로 직선모형을 맞추게 될 수 있으므로, 먼저 산점도와 상관관계 분석으로 데이터의 방향성과 선형성 가능성을 확인해야 잘못된 모델 설정을 줄일 수 있기 때문이다.

용어

  • 유의성 검정: 통계적으로 우연인지, 의미 있는 결과인지 판단하는 절차
  • 산점도 행렬 = Scatter Plot Matrix
    • 여러 변수들끼리의 산점도를 한꺼번에 행렬 형태로 그려 놓은 그림
  • 시각화 = Visualization
    • 데이터를 그래프나 그림으로 표현하여 패턴을 확인하는 것
  • 상관관계 분석 = Correlation Analysis
    • 두 변수 사이가 함께 움직이는 정도를 수치로 보는 분석
  • 독립변수 = 설명변수 = Explanatory Variable
    • 다른 변수를 설명하거나 영향을 주는 변수
  • 종속변수 = 목표변수 = Target Variable
    • 설명되거나 예측되는 결과 변수
  • 데이터 경향성
    • 데이터가 증가/감소/직선형/곡선형/무관계 중 어떤 패턴을 보이는지

수식

상관관계의 대표 수식은 피어슨 상관계수다.

읽는 법:
알 은 시그마 엑스 아이 마이너스 엑스바, 와이 아이 마이너스 와이바의 곱의 합을, 엑스 편차제곱합과 와이 편차제곱합의 곱의 제곱근으로 나눈 값

여기서

예시

예를 들어 독립변수가 공부시간, 종속변수가 시험점수라고 하자.
산점도를 그렸더니 공부시간이 늘수록 시험점수도 대체로 오른다면 선형 경향성이 있어 보인다.
반대로 점들이 아무 방향 없이 흩어져 있으면 회귀분석을 해도 좋은 직선을 얻기 어렵다.
또 상관계수 (r) 가 0.8 정도면 강한 양의 선형관계 가능성이 있고, 0에 가까우면 선형관계가 약하다고 본다.


데이터 경향성 파악이 끝났다면 회귀계수의 유의성 확인, 분산분석/결정계수를 이용한 설명력 확인, 잔차의 기본 가정 만족 여부 확인 과정을 거쳐 회귀 모델의 적합성을 판단하게 된다.

데이터 경향성을 처음에 확인한 뒤에는 그다음 단계로 회귀계수가 진짜 의미가 있는지, 모델이 데이터를 얼마나 설명하는지, 잔차가 회귀분석의 기본 가정을 만족하는지를 차례대로 확인해야 최종적으로 회귀모델이 적절한지 판단할 수 있다

왜?

왜냐하면 단순히 산점도에서 직선처럼 보여도 실제로 계산된 회귀계수가 표본에서 우연히 나온 값일 수 있고, 계수가 유의하더라도 전체 모델이 데이터를 거의 설명하지 못할 수도 있으며, 설명력이 어느 정도 있어도 잔차가 정규성·등분산성·독립성 같은 기본 가정을 심하게 위반하면 회귀분석의 검정 결과와 해석 자체가 불안정해질 수 있으므로, 모델의 적합성은 하나의 기준이 아니라 여러 조건을 함께 보고 종합적으로 판단해야 하기 때문이다.

용어

  • 회귀계수의 유의성 확인
    • 각 독립변수의 계수가 0이 아닌 의미 있는 값인지 검정
  • 분산분석 = ANOVA = Analysis of Variance
    • 회귀모형 전체가 유의한지 보는 방법
  • 결정계수 = (R^2)
    • 모델이 종속변수 변동을 얼마나 설명하는지 나타내는 값
  • 설명력
    • 모델이 데이터를 설명하는 정도
  • 잔차 = Residual
    • 실제값 - 예측값
  • 기본 가정
    • 정규성, 등분산성, 독립성 같은 회귀분석의 전제 조건
  • 적합성 = Goodness of Fit
    • 모델이 데이터에 잘 맞는 정도

수식

여기서

  • (SSR): 회귀가 설명한 제곱합
  • (SSE): 오차 제곱합
  • (SST): 전체 제곱합

예시

예를 들어 집값을 예측하는 회귀모델을 만들었는데,

  • 면적의 회귀계수는 유의함
  • 모델의 (R^2) 는 0.75로 설명력이 높음
  • 하지만 잔차가 특정 구간에서만 크게 퍼져 있으면 등분산성 위반 가능성 있음

이 경우 계수는 괜찮아 보여도 모델을 수정할 필요가 생길 수 있다.


회귀분석의 유의성 검정 절차 1) 회귀 모델 설정 : 주요 독립변수, 종속변수 파악.

회귀분석 유의성 검정의 첫 단계가 어떤 변수를 원인 쪽으로 둘 것인지, 어떤 변수를 결과 쪽으로 둘 것인지 정하는 것이다.
즉, 회귀식을 만들기 전에 모델의 틀을 먼저 세워야 한다

왜?

왜냐하면 회귀분석은 아무 변수나 넣어서 자동으로 의미 있는 식이 되는 것이 아니라 연구 목적, 문제 정의, 도메인 지식에 따라 어떤 변수가 결과를 설명할 가능성이 있는지 먼저 정해야 하고, 종속변수와 독립변수의 역할이 바뀌면 같은 데이터라도 완전히 다른 회귀식과 해석이 나오기 때문에, 모델 설정 단계에서 변수 선택과 역할 정의가 가장 기초적이면서도 중요한 출발점이 되기 때문이다.

용어

  • 회귀 모델 설정
    • 어떤 형태의 회귀식을 만들지 정하는 것
  • 주요 독립변수
    • 종속변수에 영향을 준다고 보는 핵심 설명변수
  • 종속변수 파악
    • 예측하거나 설명하고 싶은 결과변수를 정하는 것

수식

예시

매출을 예측하고 싶다면

  • 종속변수 (Y): 매출
  • 독립변수 (X_1): 광고비
  • 독립변수 (X_2): 할인율
  • 독립변수 (X_3): 방문자 수

이렇게 먼저 모델 구조를 정한다.


회귀분석의 유의성 검정 절차 2) 데이터 경향성 확인 : 독립변수와 종속변수 간 산점도 분석 및 상관관계 분석을 이용하여 선형성 확인.

두 번째 단계가 독립변수와 종속변수 사이가 직선적으로 연결될 가능성이 있는지 확인하는 것이다.
즉, 선형회귀를 하려면 데이터가 최소한 대체로 직선형 패턴을 보여야 한다

왜?

왜냐하면 선형회귀는 말 그대로 선형, 즉 1차 직선 관계를 가정하는 모델이므로 데이터가 U자형, 곡선형, 구간별로 다른 패턴을 보이거나 전혀 관계가 없는 모습이라면 선형회귀를 쓰는 것이 부적절할 수 있고, 이 경우 단순히 계수를 추정하는 것보다 먼저 산점도와 상관분석을 통해 선형성 가정이 어느 정도 타당한지 확인해야 잘못된 모델 선택을 피할 수 있기 때문이다.

용어

  • 산점도 분석
    • 두 변수의 점 분포를 직접 눈으로 보는 분석
  • 상관관계 분석
    • 관계 강도를 숫자로 보는 분석
  • 선형성 = Linearity
    • 두 변수의 관계가 직선으로 가까이 표현되는 성질

수식

선형성이 있다고 보는 기본 모형은

읽는 법:
엑스가 주어졌을 때 와이의 기댓값은 베타0 더하기 베타1 엑스

여기서 (E(Y|X)) 는 조건부 기댓값, 즉 X값이 주어졌을 때 평균적인 Y값이다.

예시

광고비가 증가할수록 매출이 일정한 비율로 증가하는 형태면 선형성 가능성이 있다.
하지만 광고비가 조금일 때는 매출이 급증하다가 어느 수준 이후 거의 증가하지 않는다면 포화형 비선형 구조일 수 있다.
이때는 선형회귀보다 로그변환이나 다른 비선형 모델이 더 적합할 수 있다.



회귀분석의 유의성 검정 절차 3) 회귀계수 추정 : 최소제곱법, 최대가능도법, 적률추정법 등 사용.

세 번째 단계가 회귀식에 들어가는 절편과 기울기 같은 회귀계수를 실제 데이터로부터 계산해 내는 것이다.
즉, 모델의 형태를 정하고 나면 이제 숫자를 구해야 한다

왜?

왜냐하면 회귀모형의 구조를 아무리 잘 정해도 (beta_0, beta_1, beta_2) 같은 계수값이 정해지지 않으면 예측도 해석도 할 수 없고, 이 계수들은 데이터에 가장 잘 맞는 값을 추정해야 하므로 잔차 제곱합 최소화, 가능도 최대화, 모멘트 일치 같은 통계적 기준을 사용하여 수학적으로 추정해야 하기 때문이다.

용어

  • 회귀계수 추정
    • 미지의 베타값들을 데이터로부터 계산하는 것
  • 최소제곱법 = OLS = Ordinary Least Squares
    • 잔차 제곱합을 최소로 만드는 방법
  • 최대가능도법 = MLE = Maximum Likelihood Estimation
    • 현재 데이터를 가장 그럴듯하게 만드는 파라미터를 찾는 방법
  • 적률추정법 = Method of Moments
    • 표본의 모멘트와 이론 모멘트를 맞추는 방법

수식

예시

공부시간과 시험점수 데이터가 주어지면,
최소제곱법은 “점수 예측선과 실제 점수 사이 거리의 제곱합”이 가장 작아지도록 절편과 기울기를 정한다.
그래서 단순히 눈대중으로 선을 긋는 것이 아니라 계산으로 가장 적합한 직선을 찾는 것이다.


회귀분석의 유의성 검정 절차 4) 회귀계수 유의성 확인 : t검정을 이용해 회귀계수의 유의성 확인. 독립변수 간 다중공선성 확인(독립변수가 2개 이상인 경우). 종속변수에 영향을 주는 독립변수 선택 및 확인.

네 번째 단계 추정된 회귀계수가 실제로 통계적으로 의미 있는지 확인하고, 동시에 독립변수들끼리 너무 비슷한 정보를 갖고 있는지 확인하며, 결국 종속변수에 진짜 영향을 주는 변수만 남기는 과정이다.

왜?

왜냐하면 회귀계수는 표본에 따라 우연히 0이 아닌 값으로 나올 수도 있기 때문에 각 계수가 정말 필요한 변수인지 t검정으로 확인해야 하며, 특히 독립변수가 여러 개인 다중회귀에서는 서로 강하게 상관된 독립변수들이 동시에 들어가면 계수 추정이 불안정해지고 표준오차가 커져 해석이 왜곡될 수 있으므로 다중공선성을 점검해야 하고, 최종적으로는 종속변수 설명에 실제로 도움이 되는 변수만 선택해야 모델이 해석 가능하고 안정적이 되기 때문이다.

용어

  • t검정 = t-test
    • 개별 회귀계수가 0인지 아닌지 검정하는 방법
  • 회귀계수의 유의성
    • 해당 독립변수가 종속변수에 유의한 영향을 주는지 여부
  • 다중공선성 = Multicollinearity
    • 독립변수들끼리 강한 상관관계를 가져 정보가 겹치는 현상
  • 표준오차 = Standard Error
    • 추정치의 불확실성 정도
  • 변수 선택
    • 의미 있는 독립변수만 모델에 남기는 과정

수식

예시

예를 들어 집값 예측 모델에

  • 면적
  • 방 개수
  • 평수
    를 같이 넣으면, 면적과 평수는 거의 같은 정보를 줄 수 있어 다중공선성이 생길 수 있다.
    또 광고비 계수의 p값이 0.001이면 유의하다고 볼 수 있고, 어떤 변수의 p값이 0.6이면 그 변수는 회귀식에서 큰 역할이 없을 가능성이 있다.

회귀분석의 유의성 검정 절차 5) 회귀식 적합성 확인 : 모델 적합성 확인(분산분석(ANOVA)의 F검정), 모델 설명력 확인(결정계수, R^2), 데이터의 모델 적합성(회귀분석의 기본 가정 확인(정규성, 등분산성, 독립성 등)).

다섯 번째 단계는 모델 전체가 의미 있는지, 모델이 얼마나 설명하는지, 그리고 잔차가 기본 가정을 만족하는지를 확인하는 것이다.
즉, 회귀계수 하나하나만 볼 것이 아니라 모델 전체 수준에서 적합성을 점검해야 한다

왜?

왜냐하면 개별 회귀계수 몇 개가 유의하다고 해도 전체 모델이 종속변수 변동을 충분히 설명하지 못할 수 있고, 반대로 설명력이 어느 정도 있어도 잔차가 정규성이나 등분산성, 독립성 가정을 크게 위반하면 F검정과 t검정 결과의 신뢰성이 떨어질 수 있으므로, 모델 전체 유의성, 설명력, 잔차 가정이라는 세 축을 함께 점검해야 회귀식이 통계적으로도 실질적으로도 적절한 모델인지 판단할 수 있기 때문이다.

용어

  • 모델 적합성 확인
    • 회귀모형 전체가 데이터에 잘 맞는지 보는 것
  • 분산분석 = ANOVA = Analysis of Variance
    • 전체 변동을 회귀가 설명한 부분과 오차 부분으로 나누는 분석
  • F검정
    • 모델 전체가 유의한지 검정
  • 결정계수 = (R^2)
    • 설명력
  • 정규성 = Normality
    • 잔차가 정규분포를 따르는 성질
  • 등분산성 = Homoscedasticity
    • 잔차의 분산이 일정한 성질
  • 독립성 = Independence
    • 잔차들끼리 서로 독립적인 성질

수식

전체 회귀모형 유의성의 귀무가설은 보통

즉, 모든 기울기 계수가 0이라는 뜻이다.

 

F통계량은

여기서

  • (MSR): Mean Square Regression, 회귀평균제곱
  • (MSE): Mean Square Error, 오차평균제곱

결정계수는

예시

예를 들어 어떤 모델의

  • F검정 p값이 0.001이면 모델 전체는 유의하다고 본다.
  • (R^2 = 0.82) 이면 종속변수 변동의 82%를 설명한다고 해석한다.
  • 그러나 잔차 그래프가 깔때기 모양이면 등분산성 위반 가능성이 있어 모델 수정이 필요할 수 있다.

회귀분석의 유의성 검정 절차 6) 회귀식의 영향력 진단 : 관측값(데이터)의 이상값과 영향값(영향점)이 회귀식의 기울기(회귀계수)에 영향을 주는지 회귀식의 안정성을 진단. 마할라노비스 거리, 쿡의 거리, 레버리지 값. DFBETAS( Difference  in BETAS) 등 활용.

여섯 번째 단계 특정 관측값 몇 개가 회귀식 전체를 지나치게 흔들고 있는지 확인하는 단계
즉, 어떤 데이터 하나가 회귀직선의 기울기나 절편을 크게 바꾸고 있다면 그 모델은 안정적이지 않을 수 있으므로, 영향력 진단을 해야 한다

왜?

왜냐하면 회귀분석은 모든 관측값을 사용해 하나의 회귀식을 적합시키기 때문에 대부분의 데이터가 만드는 일반적 경향보다 몇 개의 극단적인 데이터가 회귀계수 추정값을 과도하게 끌어당기면 모델 전체 해석이 왜곡될 수 있고, 이런 경우 그 데이터가 단순 입력 오류인지 실제로 중요한 특이 사례인지 구분해야 하므로, 이상값·영향점·레버리지 등을 별도로 진단해 회귀식이 얼마나 안정적인지 확인해야 하기 때문이다.

용어

  • 관측값 = Observation
    • 한 행의 데이터, 하나의 샘플
  • 이상값 = Outlier
    • 다른 관측값에 비해 종속변수 또는 잔차 측면에서 유난히 튀는 값
  • 영향값 / 영향점 = Influential Point
    • 회귀계수나 회귀직선 자체를 크게 바꾸는 점
  • 기울기 = Slope
    • 회귀계수
  • 안정성
    • 일부 데이터가 빠져도 모델 구조가 크게 흔들리지 않는 정도
  • 마할라노비스 거리 = Mahalanobis Distance
    • 여러 독립변수를 함께 고려하여 얼마나 멀리 떨어진 관측값인지 보는 거리
  • 쿡의 거리 = Cook’s Distance
    • 특정 관측값이 회귀식 전체에 미치는 영향력 측정
  • 레버리지 값 = Leverage
    • 독립변수 공간에서 얼마나 멀리 떨어져 있는지 나타내는 값
  • DFBETAS = Difference in BETAS
    • 특정 관측값을 제거했을 때 각 회귀계수가 얼마나 달라지는지 보는 지표

수식

쿡의 거리는 보통

형태로 생각할 수 있다.
여기서

 

레버리지는 보통 hat matrix의 대각원소 (h_{ii}) 로 나타낸다.

예시

예를 들어 대부분 광고비가 100만 원 이하인데 한 기업만 광고비가 1억 원인 데이터가 들어 있으면, 그 한 점이 회귀직선을 강하게 끌어당길 수 있다.
이 점은 레버리지도 크고 쿡의 거리도 크게 나올 수 있으며, 제거 전후 회귀계수가 크게 달라지면 영향점이라고 본다.


회귀분석의 유의성 검정 절차 7) 최종 모델 선정.

앞의 모든 검토를 마친 뒤, 최종적으로 가장 해석 가능하고, 유의하고, 안정적인 회귀모델을 선택하는 단계

왜?

왜냐하면 회귀분석은 단순히 계산된 식 하나를 무조건 채택하는 과정이 아니라 변수 선택, 계수 유의성, 설명력, 잔차 가정, 영향점 진단 등을 거쳐 여러 후보 모델 중에서 가장 타당한 모델을 고르는 과정이기 때문에, 마지막에는 통계적 유의성과 실무적 해석 가능성, 예측 안정성을 모두 고려하여 최종 모델을 확정해야 하기 때문이다.

용어

  • 최종 모델 선정
    • 여러 검토를 거친 뒤 실제 사용할 회귀모델을 고르는 것

수식

최종 모델은 예를 들어

처럼 선택될 수 있다.

예시

처음에는 독립변수가 10개였는데,
검정과 진단을 거친 결과 의미 없는 변수 4개를 빼고, 다중공선성이 큰 변수 2개를 정리한 뒤,
결국 4개 변수만 포함한 모델이 최종 모델이 될 수 있다.


요약하면 회귀 모델(회귀식)이 통계적으로 유의미한지는 분산분석의 F통계량으로 확인하며, 회귀계수의 유의미함은 t통계량을 이용해 신뢰구간을 확인한다.

지금까지의 절차를 압축해서, 모델 전체의 유의성은 F통계량으로, 개별 회귀계수의 유의성은 t통계량과 신뢰구간으로 본다

왜?

왜냐하면 회귀분석에서는 “이 모델 전체가 쓸 만한가?”라는 질문과 “이 개별 독립변수의 계수가 진짜 의미 있는가?”라는 질문이 서로 다르기 때문에, 모델 전체는 여러 계수를 한꺼번에 묶어서 F검정으로 평가하고, 각 계수 하나하나는 표준오차를 반영한 t검정과 신뢰구간으로 평가해야 각각의 수준에서 통계적 유의성을 올바르게 판단할 수 있기 때문이다.

용어

  • F통계량
    • 모델 전체 유의성 판단
  • t통계량
    • 개별 계수 유의성 판단
  • 신뢰구간 = Confidence Interval
    • 모수가 포함될 것으로 기대하는 구간

수식

예시

예를 들어 광고비 계수의 95% 신뢰구간이 ((2.1, 5.8)) 이면 0을 포함하지 않으므로 유의하다고 본다.
반대로 ((-1.2, 3.4)) 이면 0을 포함하므로 유의하지 않다고 본다.

 

유의하다 (statistically significant)

우연이라고 보기 어려울 정도로 효과가 존재한다

  • 0 포함 → 귀무가설 기각 못함
  • 0 미포함 → 귀무가설 기각

또한 모형의 설명력이 있는가는 결정계수와 수정된 결정계수로 파악이 가능하다.

모델이 데이터를 얼마나 잘 설명하는지는 결정계수 (R^2) 와 수정된 결정계수 Adjusted (R^2) 로 확인할 수 있다

왜?

왜냐하면 회귀모형이 유의하다고 해서 반드시 설명력이 높은 것은 아니며, 또 단순한 결정계수 (R^2) 는 독립변수를 추가하면 대체로 커지는 경향이 있어서 변수 개수가 많아질수록 과대평가될 수 있으므로, 실제 설명력을 좀 더 공정하게 보려면 독립변수 개수와 표본 크기를 반영한 수정된 결정계수도 함께 확인해야 하기 때문이다.

용어

  • 모형의 설명력
    • 종속변수 변동을 얼마나 설명하는가
  • 결정계수 = (R^2)
  • 수정된 결정계수 = Adjusted (R^2)

수식

예시

어떤 모델의 (R^2 = 0.90) 이더라도 변수 20개를 넣어서 억지로 높아진 것일 수 있다.
그런데 수정된 (R^2) 가 0.62라면 실제로는 설명력이 그렇게 높지 않을 수도 있다는 신호다.


또한 회귀분석의 가정사항 및영향력을 진단하여, 회귀 모델 수정이 필요한지를 확인해야 한다.

회귀모형을 만든 뒤에는 그 모델이 가정을 잘 만족하는지, 특정 데이터가 지나치게 큰 영향을 주는지 확인해서 필요하면 모델을 수정해야 한다

왜?

왜냐하면 회귀분석은 한 번 식을 구했다고 끝나는 것이 아니라 잔차의 정규성·등분산성·독립성 같은 가정이 깨지면 검정 결과가 신뢰하기 어려워지고, 영향점이 회귀직선을 심하게 바꾸고 있으면 모델 해석이 특정 몇 개 관측값에 지나치게 의존하게 되므로, 진단 결과에 따라 변수 변환, 변수 제거, 이상값 검토, 다른 모델 선택 같은 수정 작업이 필요할 수 있기 때문이다.

용어

  • 가정사항
    • 회귀분석이 성립하기 위해 기대하는 조건
  • 영향력 진단
    • 특정 관측값이 모델에 미치는 힘을 진단하는 것
  • 모델 수정
    • 변환, 변수 선택 변경, 이상값 처리, 다른 모형 적용 등

수식

가정 위반 여부는 수식 하나로 끝나지 않고 잔차 (e_i) 를 중심으로 본다.

잔차 플롯, QQ plot, Durbin-Watson 통계량 같은 진단이 쓰인다.

예를 들어 독립성 점검에 자주 쓰는 더빈-왓슨 통계량은

예시

잔차가 시간 순서대로 비슷한 방향으로 계속 이어지면 독립성 위반일 수 있고,
잔차 분포가 한쪽으로 길게 치우치면 정규성 위반일 수 있으며,
잔차의 퍼짐이 예측값이 커질수록 커지면 등분산성 위반일 수 있다.
이때 로그변환이나 가중회귀 등을 고려할 수 있다.


필요할 경우에는 이상값과 영향값을 제거해야 할 수도 있는데 이상값과 영향값 모두 정보를 가진 관측값이기 때문에 회귀 모델 적합을 위해서는 제외하지만 왜 이 관측값이 다른 관측값에 비해 종속변수의 값을 크거나 작게 하는지 파악하여 정보를 얻고 이를 연구 결과나 의사결정에 반영할 필요가 있다.

이상값과 영향값이 모델을 불안정하게 만들면 제거할 수도 있지만, 그 점들이 단순 쓰레기 데이터라고 무조건 버리면 안 되고, 왜 그런 값이 나왔는지 해석해야 한다
즉, 제거는 모델 적합을 위한 기술적 조치일 수 있지만, 그 값 자체가 중요한 현상을 담고 있을 수도 있다는 의미다.

왜?

왜냐하면 이상값과 영향값은 회귀직선을 흔들 수 있어서 모델 성능이나 해석의 안정성을 위해 일시적으로 제외할 수 있지만, 그런 관측값이 나타났다는 사실 자체는 실제 현상에서 매우 중요한 예외 상황, 특수 집단, 구조적 변화, 입력 오류, 숨겨진 변수의 존재를 의미할 수 있으므로, 단순히 제거만 하고 끝내면 오히려 중요한 정보를 놓칠 수 있고 연구나 의사결정에서 핵심적인 통찰을 잃을 수 있기 때문이다.

용어

  • 제거
    • 모델 적합 과정에서 분석 대상에서 일시적으로 제외하는 것
  • 정보를 가진 관측값
    • 단순 노이즈가 아니라 특별한 의미를 가질 수 있는 데이터
  • 의사결정
    • 분석 결과를 실제 판단이나 정책, 업무에 반영하는 것

수식

이상값·영향값 판단에는 표준화 잔차나 studentized residual을 쓴다.

여기서

  • (e_i): 잔차
  • (s): 잔차 표준오차
  • (h_{ii}): 레버리지

예시

예를 들어 고객 대부분의 구매금액이 1만~10만 원인데 한 고객만 2천만 원을 구매했다면,
회귀모형에서는 영향점일 수 있다.
그런데 그 고객이 VIP 대량구매 고객이라면 이건 제거만 할 대상이 아니라 고가 고객군이라는 중요한 비즈니스 정보가 된다.


영향값이나 이상값은 모두 다른 관측값에 비해 잔차가 큰 관측값이라는 점에서 공통점이 있으나, 이상값은 비교할 대상이(독립변수 관계 속에서) 있어 그 값들에 비해 값이 매우 크거나 작아 회귀계수 추정값을 변화시킨다. 영향값은 이상값과 동일하게 회귀계수 추정값을 변화시키지만 비교 대상이 되는 관측값이 없으므로 이상값인지 판단할 수 없는 경우에 해당한다.

 이상값과 영향값이 비슷해 보이지만 완전히 같은 것은 아니라는 뜻이다.
둘 다 회귀식에 문제를 일으킬 수 있지만, 이상값은 주변에 비슷한 독립변수 값을 가진 다른 점들과 비교해서 튀는 경우이고, 영향값은 그런 비교 대상 자체가 없어도 회귀식 전체를 크게 움직이는 점일 수 있다는 의미다.

왜?

왜냐하면 어떤 관측값이 잔차가 크다고 해서 모두 같은 종류의 문제는 아니며, 독립변수 공간에서 주변에 비슷한 위치의 다른 점들이 충분히 있는데 그중 유독 종속변수 값이 크게 벗어나면 이상값이라고 보기 쉽지만, 독립변수 자체가 데이터 구름의 가장 바깥쪽에 있어 비교할 이웃 점이 거의 없는 경우에는 잔차뿐 아니라 위치 자체 때문에 회귀선의 기울기와 절편을 크게 좌우할 수 있어서 영향점이 될 수 있으므로, 두 개념을 구분해서 이해해야 진단 결과를 올바르게 해석할 수 있기 때문이다.

용어

  • 공통점
    • 둘 다 회귀식에 문제를 줄 수 있음
  • 잔차가 큰 관측값
    • 실제값과 예측값 차이가 큼
  • 독립변수 관계 속에서 비교할 대상
    • 비슷한 X값을 가진 다른 데이터
  • 회귀계수 추정값 변화
    • 그 점 때문에 기울기나 절편이 크게 달라짐

수식

지표 보는 것
레버리지 X 위치가 특이한가
쿡의 거리 모델 전체 영향
DFBETAS 특정 회귀계수 영향

 

예시

예를 들어 공부시간이 5시간인 학생들이 대부분 70~80점인데, 어떤 한 학생만 20점을 받았다면 이 학생은 주변 비교 대상이 있는 상태에서 크게 벗어난 이상값으로 보기 쉽다.
반면 공부시간이 20시간인 학생은 데이터 전체에서 혼자 멀리 떨어져 있고, 그 한 점 때문에 회귀직선 기울기가 크게 바뀐다면 이 점은 영향값 또는 영향점이 될 수 있다.
즉, 이상값은 “주변과 비교했을 때 튀는 점”의 성격이 강하고, 영향값은 “회귀식 전체를 흔드는 점”의 성격이 강하다.


정리

이 원문 전체를 하나로 이어서 보면, 회귀분석의 유의성 검정은 먼저 산점도 행렬과 상관관계 분석으로 독립변수와 종속변수 사이의 데이터 경향성과 선형성 가능성을 살펴보는 것에서 시작한다. 그다음 회귀계수를 추정하고, 각 회귀계수가 유의한지 t검정으로 확인하며, 다중회귀라면 독립변수들 사이의 다중공선성도 점검한다. 이후 분산분석의 F검정으로 모델 전체 유의성을 보고, 결정계수와 수정된 결정계수로 설명력을 확인하며, 잔차의 정규성·등분산성·독립성을 진단해 모델 가정이 만족되는지 확인한다. 그리고 이상값·영향값·영향점을 마할라노비스 거리, 쿡의 거리, 레버리지, DFBETAS 등으로 진단하여 회귀식의 안정성을 본 뒤, 최종적으로 가장 적절한 모델을 선정한다. 또한 이상값과 영향값은 제거 대상이 될 수도 있지만 중요한 정보를 담고 있을 수 있으므로 왜 그런 값이 나왔는지 해석하고 연구나 의사결정에 반영할 필요가 있으며, 이상값과 영향값은 모두 잔차가 크다는 공통점이 있지만 독립변수 공간에서 비교 가능한 주변점이 있는지 여부와 회귀계수에 미치는 방식에서 차이가 있다.

 


회귀분석의 기본 가정사항 

회귀분석 모델의 유의성이 검정되어 '잘 만들어진 모델' 이라는 신뢰를 얻더라도 영향값과 이상값 등에 적합이 과도하게 결정되는 상황이 발생하는 것은 바람직하지 않다.

 

회귀모델이 통계적으로 유의하다고 해서 항상 좋은 모델은 아니다.

왜냐하면 데이터 안에 존재하는 특정 값들, 즉 이상값(outlier)이나 영향값(influential point) 때문에 모델이 왜곡될 수 있기 때문이다.

 

모델이 유의하다 하지만 특정 데이터 몇 개 때문에 결과가 만들어졌을 수도 있다.

그래서 모델의 기본 가정을 추가로 검증해야 한다.


왜?

왜 이런 문제가 생기냐면 회귀분석은 최소제곱법(OLS)을 사용하기 때문이다.

OLS = Ordinary Least Squares

OLS의 목적

잔차(residual)의 제곱 합을 최소화

수식

여기서

y_i
→ 실제값 (observed value)

 

hat{y_i}
→ 회귀식이 예측한 값 (predicted value)

 

잔차

 

문제는 잔차를 제곱한다는 것

그래서

이상값 하나가 있으면

잔차가 매우 커지고
잔차²이 엄청 커짐

그래서 모델이 그 한 점을 맞추려고 전체 직선을 왜곡한다.


용어 설명

영향값 (Influential point)

모델의 회귀계수 자체를 크게 바꾸는 데이터

x 값이 매우 멀리 있는 데이터

 

이상값 (Outlier)

다른 데이터와 패턴이 다른 값

키 데이터

170
171
172
173
300

300은 이상값


예시

공부시간 X
시험점수 Y

데이터

1시간 → 60
2시간 → 65
3시간 → 70
4시간 → 75
5시간 → 78

이 데이터면

회귀식

 

그런데

데이터 하나 추가

10시간 → 30점

이상값 등장

그러면 회귀직선이

기울기가 크게 바뀐다.

그래서 모델 자체가 망가진다.

그래서 가정 검정을 한다.


 

기본 가정사항은 관측값(데이터)에 의해 회귀 모델이 적절했는지를 따져보기 위한 검토 방법 중 하나로 오차의 기본 가정이 위배된다면 모델이 적합하다고 할 수 없기 때문에, 회귀 모델의 기본 가정이 잘 성립했는지 확인이 필요하다.

 

회귀분석이 제대로 작동하려면 오차(residual)가 특정 성질을 가져야 한다는 뜻

회귀식 자체가 중요한 것이 아니라

오차의 구조가 중요하다.

왜냐하면

회귀모델의 모든 통계검정

t검정
F검정
신뢰구간

전부

오차의 가정을 기반으로 계산된다.

왜?

회귀분석 모델

핵심

이 ε가 특정 성질을 가져야 한다.


오차의 기본 가정

오차 ε는 다음 성질을 가져야 한다.

평균 0
분산 일정

정규분포


 

이를 검정할 수 있는 회귀분석의 기본 가정 4가지는 다음과 같다.

 

회귀분석에서 반드시 확인해야 하는 오차의 4가지 조건이 존재한다.

이 조건이 깨지면

회귀계수
t검정
F검정

전부 신뢰할 수 없다.

그래서

회귀분석에서는 반드시

가정 검정 (assumption test) 을 한다.


회귀분석 가정사항 1) 독립변수와 종속변수 간의 선형성: 

예측하고자 하는 독립변수 X와 종속변수 Y간의 선형성을 만족하는 특성을 의미. 선형회귀분석에서 중요한 기본 가정(비선형회귀분석에서는 해당하지 않음).

 

선형성(linearity)은

X와 Y 사이 관계가 직선 관계여야 한다는 의미이다. 

 

수식

선형회귀

여기서

β₁X

이 구조 자체가

직선 관계

이다.

 

왜?

만약 실제 관계가

곡선이면

회귀모델은 틀린 모델이 된다.

 

실제 관계

그러면

선형회귀

는 맞지 않는다.

그래서

선형성 확인을 한다.


회귀분석 가정사항 2)오차의 독립성 :

 예측의 오차값들은 서로 독립이라는 가정, 예측값의 변화에 따라 오차항이 특정한 패턴을 가져서는 안 됨을 의미.

 

오차끼리는 서로 상관관계가 없어야 한다.

 

Cov
→ covariance (공분산)

ε_i
→ i번째 오차

ε_j
→ j번째 오차

왜?

만약 오차가 서로 영향을 주면

회귀모델이

패턴을 제대로 설명하지 못했다는 뜻이다.

특히

시계열 데이터

에서 많이 발생한다.

오늘 오차 → 내일 오차 영향

 

더빈 왓슨 통계량

일반적으로 더빈-왓슨 통계량을 이용하여 독립성을 검정(통계량은 0 혹은 4에 가까울수록 상관관계 존재, 회귀식 부적합).

더빈왓슨 통계량

Durbin-Watson statistic

수식

읽기

e_t
→ t번째 잔차

e_{t-1}
→ 이전 잔차

 

값의 의미

DW 범위

0 ~ 4

 

 

그래서

0 또는 4 가까우면

→ 오차끼리 상관 존재

→ 회귀모델 부적합


회귀분석 가정사항 3)

 오차의 정규성: 오차의 분포가 정규분포를 만족하는지 여부.
Q-Q plot, 콜모고로프-스미르노프 검정, 샤피로 월크 검정 등 활용 

오차는

정규분포

를 따라야 한다.

왜?

회귀분석의

t검정
F검정

정규성 가정 기반

이다.

그래서

정규성이 깨지면

검정 결과가 틀릴 수 있다.


회귀분석이나 통계 분석에서 “데이터가 정규분포(normal distribution)를 따르는지 확인하는 방법
특히 회귀분석에서는 잔차(residual)가 정규분포인지 확인해야 하기 때문에 많이 사용된다.

 

정규성 검정(normality test) 방법은 크게 두 종류가 있다.

① 그래프 확인 (시각적 방법)

  • Q-Q plot

② 통계 검정 (수치적 방법)

  • Kolmogorov–Smirnov test
  • Shapiro–Wilk test
종류 방법
그래프 Q-Q plot
통계검정 Kolmogorov-Smirnov
통계검정 Shapiro-Wilk

Q-Q plot (Quantile–Quantile plot)

Quantile–Quantile plot

  • Quantile = 분위수
  • Plot = 그래프

두 분포의 분위수를 비교하는 그래프

이다.

원리

Q-Q plot은

데이터 분위수 vs 정규분포 분위수

를 비교한다.

그래프 축은 보통 이렇게 된다.

x축 : 이론적 정규분포 분위수
y축 : 실제 데이터 분위수

만약 데이터가 정규분포라면

그래프는

|
|      *
|    *
|  *
|*
+------------

이렇게 직선(45도선)에 가깝게 나온다.


정규분포가 아니면

패턴이 휘어진다.

예시

오른쪽 꼬리 긴 분포

|
|      *
|    *
|  *
| *
|*
+------------

왼쪽 꼬리 긴 분포

|
| *
|  *
|   *
|    *
|      *
+------------

결론

Q-Q plot 판단 기준

 

그래프 형태의미
직선 정규분포
곡선 비정규

Kolmogorov–Smirnov 검정 (K-S test)

Kolmogorov–Smirnov test

보통 K-S test라고 부른다.

 

이 검정은

실제 데이터의 누적분포(CDF)와
이론적 정규분포의 누적분포(CDF)를 비교

한다.

실제 CDF
vs
정규분포 CDF

차이를 본다.


핵심 통계량

 


해석

p값 결론
p > 0.05 정규성 만족
p < 0.05 정규성 위반

특징

단점

  • 정규성 검정에 덜 민감
  • 표본 크기에 영향 큼

그래서 실제로는 Shapiro-Wilk가 더 많이 쓰인다.


Shapiro–Wilk 검정

Shapiro–Wilk test

정규성 검정 중 가장 많이 사용하는 방법이다.


원리

데이터를 정렬한 후

정규분포에서 기대되는 값과 비교한다.

 

검정통계량

 

이 검정은

"데이터가 정규분포 모양과 얼마나 비슷한가"

를 계산한다.


해석

p값 결론
p > 0.05 정규성 만족
p < 0.05 정규성 위반

세 방법 차이

방법 종류 특징
Q-Q plot 그래프 눈으로 판단
K-S test 통계검정 덜 민감
Shapiro-Wilk 통계검정 가장 정확

 

Q-Q plot 분위수 그래프로 정규성 확인
Kolmogorov-Smirnov 분포 CDF 차이 검정
Shapiro-Wilk 정규성 검정 통계량

 

 


회귀분석 가정사항 4) 등분산성: 

오차의 분산은 독립변수값과 무관하게 일정해야 한다는 가정.

 

오차 분산이 일정해야 한다.

수식

 

Var
→ Variance (분산)

σ²
→ 동일한 분산

왜?

만약

오차 분산이 변하면

회귀계수의 신뢰구간검정이 틀어진다.


등분산 예시

좋은 경우

잔차 산점도

잔차
  |
  |   .   . .   .
  | .   .  .   .
  |   .  .   . .
--+---------------- 예측값
  | .   .  .   .
  |   .   .   .
  • 잔차가 0을 중심으로 랜덤하게 퍼짐
  • 왼쪽이나 오른쪽으로 갈수록 퍼짐 정도가 비슷
  • 패턴이 없음

오차의 분산이 일정하다.

그래서 회귀모델 가정 만족이다.


이분산 (문제)

잔차
  |
  | .
  |   .
  |     .
--+---------------- 예측값
  |        .   .
  |      .   .   .
  |    .  .  .  .
  • 예측값이 커질수록 잔차 퍼짐 증가
  • 분산이 일정하지 않음

오차 분산이 변한다.

그래서

등분산성 가정 위반

이다.

 


등분산성 검정(Variance Homogeneity Test) 을 수행한다.

대표적인 방법이 두 가지이다.

1. 레빈 검정 (Levene Test)
2. 바틀렛 검정 (Bartlett Test)


레빈 검정 (Levene Test)


개념

레빈 검정은 여러 집단의 분산이 서로 같은지 검정하는 통계 방법이다.

여러 그룹에서

인지 확인하는 검정이다.


가설 설정

귀무가설

모든 집단의 분산이 동일하다.


대립가설

적어도 하나의 집단 분산이 다르다.


왜 레빈 검정을 사용하는가

왜 레빈 검정을 사용하는지를 이해하려면 데이터 분포 특성을 이해해야 한다.

실제 데이터는 정규분포를 따르지 않는 경우가 매우 많으며 특히 이상치(outlier)가 존재하면 분산 추정이 크게 왜곡될 수 있다.

레빈 검정은 이러한 문제를 해결하기 위해 평균 대신 절대편차(absolute deviation)를 이용하여 분산 차이를 검정하는 방법을 사용하기 때문에 정규분포 가정이 약한 데이터에서도 비교적 안정적인 결과를 제공한다.


레빈 검정 계산 구조


이 값으로

ANOVA (분산분석) 를 수행한다.

 

레빈 검정은 사실상

절대편차 데이터를 이용한 분산분석이다.


예시

세 집단 시험 점수

A반

70, 72, 68

 

B반

85, 83, 84

 

C반

60, 95, 40


C반은 분산이 매우 크다.

레빈 검정을 수행하면

p-value

→ 등분산성 위배


바틀렛 검정 (Bartlett Test)


개념

바틀렛 검정은 여러 집단의 분산이 동일한지 검정하는 통계 방법이다.

하지만 레빈 검정과 가장 큰 차이는

정규분포 가정을 매우 강하게 요구한다는 점이다.


가설

귀무가설


대립가설


왜 바틀렛 검정을 사용하는가

바틀렛 검정은 모든 집단이 정규분포를 따른다는 가정 하에서 가장 강력한(powerful) 등분산 검정 방법이기 때문이다.

즉 데이터가 정규분포를 정확히 따르는 경우에는 레빈 검정보다 더 정확하고 민감하게 분산 차이를 탐지할 수 있기 때문에 통계적으로 효율적인 방법이 된다.


바틀렛 검정 통계량

 


레빈 검정 vs 바틀렛 검정 차이

 

검정 특징
레빈 검정 정규분포 가정 필요 없음
바틀렛 검정 정규분포 가정 필요
레빈 검정 이상치에 강함
바틀렛 검정 정규분포에서는 더 강력

왜 두 가지 방법이 존재하는가

왜 두 검정 방법이 동시에 존재하는지를 이해하려면 통계 검정의 trade-off(균형 관계) 를 이해해야 한다.

바틀렛 검정은 정규분포를 정확히 만족하는 데이터에서는 매우 높은 검정력을 가지지만 정규분포가 깨지거나 이상치가 존재하면 검정 결과가 크게 왜곡될 수 있다.

반면 레빈 검정은 정규분포 가정이 약하기 때문에 현실 데이터에서 더 안정적으로 사용할 수 있지만 정규분포 조건에서는 바틀렛 검정보다 약간 덜 민감할 수 있다.


회귀분석에서 왜 사용되는가

회귀분석의 기본 가정 중 하나는

이다.

모든 오차 분산 동일


만약

가 달라지면

이것을

이분산성(Heteroscedasticity)

이라고 한다.


그래서 잔차(residual)를 이용하여

  • 레빈 검정
  • 바틀렛 검정

을 수행한다.

 


회귀분석 유형 

회귀분석(Regression Analysis)은 데이터에서 변수들 사이의 관계를 설명하고 예측하는 통계 모델이다.
하지만 실제 분석 문제에서는 데이터 구조가 다양하기 때문에 회귀분석을 하나의 방식으로만 사용하지 않고 여러 기준으로 분류한다.

회귀분석 유형을 나누는 대표적인 기준은 다음 4가지이다.

1. 독립변수의 수 기준
→ 단순회귀 / 다중회귀

 

2. 독립변수의 척도(데이터 타입) 기준
→ 연속형 / 범주형

 

3. 독립변수와 종속변수 관계 형태 기준
→ 선형 / 비선형

 

4. 회귀계수 제약조건 추가 여부 기준
→ 릿지 / 라쏘 / 엘라스틱넷

 

즉 회귀분석은 단순히 직선 하나 그리는 방법이 아니라, 데이터의 구조와 변수 형태에 따라 여러 방식으로 확장되는 모델 체계라고 이해해야 한다.

 

회귀분석의 유형을 분류하는 기준은 다음과 같다.

 

회귀분석이라는 하나의 분석 방법도 여러 기준에 따라 서로 다른 유형으로 나눌 수 있다
즉 회귀분석은 단일한 하나의 알고리즘이 아니라 데이터 구조, 변수 개수, 변수 유형, 모델 제약 조건 등에 따라 서로 다른 형태의 회귀모델로 분류되는 분석 방법들의 집합이다.

왜?

왜 이런 분류가 필요하냐면 실제 데이터 분석 상황에서는 데이터 구조가 서로 다르기 때문이다.
어떤 데이터는 독립변수가 하나뿐인 경우도 있고, 어떤 데이터는 독립변수가 수십 개 이상 존재하는 경우도 있으며, 또 어떤 데이터는 숫자 데이터(연속형 변수)이고 어떤 데이터는 성별, 지역, 직업 같은 범주형 데이터이기 때문에 하나의 회귀 방식만으로는 모든 데이터를 분석할 수 없다.
그래서 통계학에서는 회귀모델을 데이터 구조에 맞게 여러 방식으로 확장하고 이를 분류 기준으로 정리한 것이다.


용어 설명

회귀분석
Regression Analysis

 

Regression
→ 되돌아간다는 의미에서 시작된 통계 용어이며 한 변수의 값이 다른 변수에 의해 설명되는 관계를 분석하는 방법

Analysis
→ 분석

회귀분석 = 변수 사이 관계를 분석하는 통계 모델


 

1)독립변수의 수: 1개(단순회귀분석), 2개 이상(다중회귀분석).

 

회귀분석을 독립변수의 개수 기준으로 분류하는 방법
즉 회귀분석 모델에서 설명변수(독립변수)가 몇 개 존재하는지에 따라 회귀모델의 형태가 달라지며, 독립변수가 1개일 경우 단순회귀분석이라고 하고 독립변수가 2개 이상일 경우 다중회귀분석이라고 부른다.

왜?

왜 독립변수 개수로 구분하냐면 회귀모델의 수식 구조가 완전히 달라지기 때문이다.
독립변수가 하나일 경우에는 2차원 좌표 평면에서 직선 하나로 관계를 표현할 수 있지만 독립변수가 여러 개가 되면 다차원 공간에서 평면 또는 초평면(hyperplane)으로 관계를 표현해야 하기 때문에 모델의 구조와 계산 방식이 달라진다.


수식

단순회귀분석

 


다중회귀분석

X₁, X₂ … Xₖ
→ 여러 개의 독립변수

k
→ 독립변수 개수


예시

단순회귀

공부시간 → 시험점수

X = 공부시간
Y = 시험점수


다중회귀

시험점수 예측

독립변수

공부시간
수면시간
출석률
IQ

 

이렇게 여러 변수가 들어가면 다중회귀분석이 된다.


 

2)독립변수의 척도 : 연속형(일반회귀분석), 범주형(더미변수=가변환을 이용한 회귀분석).

 

회귀분석을 독립변수의 데이터 유형(척도) 기준으로 분류하는 것이다.
즉 독립변수가 연속형 숫자 데이터일 경우 일반적인 회귀분석을 사용할 수 있고, 독립변수가 범주형 데이터일 경우에는 그대로 사용할 수 없기 때문에 더미변수(dummy variable)라는 변환 방법을 이용하여 회귀모델에 적용해야 한다

왜?

왜 범주형 변수는 그대로 사용할 수 없냐면 회귀분석은 수식 계산 기반 모델이기 때문이다.
회귀분석의 수식 구조를 보면 독립변수 X가 숫자로 계산되어야 βX 형태로 곱셈 연산이 가능하다.

회귀식

여기서

β₁ × X

이 연산이 가능하려면 X는 반드시 숫자값이어야 한다.

만약

성별

남자
여자

이렇게 문자형 데이터라면

β × 남자

같은 계산은 수학적으로 불가능하다.

그래서 범주형 변수는 숫자형 변수로 변환해야 한다.


용어 설명

척도 (Scale)

데이터 측정 방식

 

대표적인 척도

명목척도
서열척도
등간척도
비율척도

 

연속형 변수

Continuous Variable

실수값을 가질 수 있는 변수


몸무게
소득

 

범주형 변수

Categorical Variable

그룹을 나타내는 변수

성별
지역
직업


 

3)독립변수와 종속변수의 관계 : 선형(선형회귀분석), 비선형(비선형회귀분석).

 

회귀분석을 독립변수와 종속변수 사이 관계 형태 기준으로 분류하는 것이다.
즉 X와 Y 사이 관계가 직선 형태이면 선형회귀분석을 사용하고, 관계가 곡선 형태이면 비선형회귀분석을 사용한다

왜?

왜 이런 구분이 필요하냐면 현실 데이터 관계가 항상 직선 형태가 아니기 때문이다.

예를 들어

운동량과 체중 감소

초기에는 빠르게 감소하지만
나중에는 감소 속도가 느려진다.

이 관계는 직선이 아니라 곡선 관계이다.

그래서 비선형 모델이 필요하다.

수식

선형 회귀

그래프

직선


비선형 회귀

그래프

곡선


 

4)회귀계수 제약조건 추가: 릿지회귀분석(제곱합으로 규제), 라쏘회귀분석(절대값으로 규제), 엘라스틱넷(제곱합과 절대값으로 규제).

 

회귀분석을 회귀계수에 제약조건(regularization)을 추가하는 방식으로 분류하는 것이다.
즉 일반 회귀분석은 회귀계수를 자유롭게 추정하지만 릿지, 라쏘, 엘라스틱넷 같은 모델은 회귀계수 크기를 제한하는 규제(regularization) 조건을 추가하여 모델 과적합(overfitting)을 방지하는 회귀모델이다.

왜?

왜 규제가 필요하냐면 다중회귀분석에서 독립변수가 많아지면 모델이 데이터에 과도하게 맞춰지는 과적합 문제가 발생하기 때문이다.

 

과적합

Overfitting

훈련 데이터는 잘 맞지만
새로운 데이터에서는 성능이 떨어지는 현상

그래서 회귀계수 크기를 제한한다.


수식

기본 회귀


 

“회귀계수에 제약조건을 추가하는 이유 → 그 방법이 Ridge, Lasso, Elastic Net”
핵심은 과적합(overfitting)과 다중공선성(multicollinearity)을 줄이기 위해 회귀계수를 제한하는 것이다.


먼저 왜 회귀계수에 제약조건을 넣는가

일반 선형회귀는 최소제곱법(OLS)을 사용한다.

목표는 이것이다.

 

잔차제곱합(RSS)을 최소로 만드는 회귀계수 찾기

 

문제는 다음 상황이다.

1. 독립변수가 많을 때
2. 변수들끼리 강한 상관관계 있을 때 (다중공선성)
3. 데이터보다 변수 수가 많을 때

이때 OLS는

  • 회귀계수가 매우 커짐
  • 모델이 훈련데이터에 과하게 맞춤

과적합 발생

그래서 해결 방법이

회귀계수 크기를 제한(regularization)

하는 것이다.


Regularization (정규화, 규제)

방법은 간단하다.

기존 목적함수에 패널티(벌점)를 추가한다.

여기서 penalty가 바로

  • Ridge
  • Lasso
  • Elastic Net

이다.


1. Ridge Regression (릿지 회귀)

Ridge는 회귀계수 제곱을 패널티로 추가한다.


Ridge 특징

  • 계수를 0에 가깝게 줄임
  • 하지만 완전히 0으로 만들지는 않음

원래 계수
5   3   2   1

릿지
3.8 2.1 1.3 0.5

모두 작아짐


2. Lasso Regression (라쏘 회귀)

Lasso는 절댓값 패널티를 사용한다.

특징

라쏘는 계수를

0으로 만들어버린다

원래
5   3   2   1

라쏘
4   1   0   0

그래서

변수 선택(variable selection)

이 가능하다.


3. Elastic Net

Elastic Net은

Ridge + Lasso 합친 것

이다.

특징

  • 변수 선택 가능
  • 다중공선성 해결 가능

그래서

변수 많을 때 가장 많이 사용된다.


λ (람다)가 왜 들어가는가

람다는 패널티 강도 조절 파라미터다.

수식

여기서

  • λ = 0

이면

만 남는다.

일반 회귀 (OLS)


λ가 커지면

패널티가 강해진다.

그래서

회귀계수가 줄어든다.

λ = 0
5   3   2

λ = 1
4   2   1

λ = 10
1   0.3   0.1

λ 의미

λ는

모델 복잡도 조절 파라미터

이다.

그래서 보통

  • Cross Validation

으로 최적 λ를 찾는다.


 

더미변수(가변환)을 이용하면 연속형 변수처럼 사용할 수 있게 되어, 회귀분석 모델에 범주형 변수를 사용하여 분석할 수 있게 된다.

범주형 변수를 0과 1로 변환하여 회귀분석에서 사용할 수 있도록 만드는 방법이 더미변수이다.

더미변수(가변환) : 각 고유의 값을 하나의 열(변수)로 바꾸어 값이 있으면 1, 없으면 0을 가지는 값으로 존재 여부를 표시하는 방법.

더미변수 구조 예시

변환

 

남자 여자
1 0
0 1

또는

 

 

female
0
1

예시 회귀식

 


 

728x90
반응형
LIST