관리 메뉴

hye-_

단순회귀분석 본문

3. 빅데이터 모델링/분석 기법 적용

단순회귀분석

hyehh 2026. 3. 13. 21:04
728x90
반응형
SMALL

단순회귀분석

단순회귀분석(Simple Regression Analysis)은 통계학과 데이터분석에서 가장 기본적인 예측 모델이다.
이 분석 방법은 하나의 독립변수(Independent Variable)가 하나의 종속변수(Dependent Variable)에 어떤 영향을 미치는지를 수식으로 설명하고 예측하는 모델이다.

단순회귀분석의 구조는 크게 다음 네 가지 요소로 구성된다.

1. 모델 정의
→ 독립변수와 종속변수 관계를 수식으로 표현

2. 회귀식 구조
→ 직선 형태의 수식

3. 오차항 존재
→ 실제 데이터는 완벽한 직선이 아니기 때문에 오차 존재

4. 기본 가정 확인
→ 모델이 통계적으로 유효하려면 몇 가지 조건을 만족해야 함

이때 단순회귀분석은 다음 4가지 가정을 기반으로 한다.

1. 변수 조건
2. 선형성
3. 오차 정규성
4. 등분산성

이 가정이 성립해야 회귀모델의 통계적 검정(t검정, F검정 등)이 의미를 가지게 된다.

 

단순회귀분석(Simple Regression Analysis)은 하나의 독립변수가 종속변수에 미치는 영향을 추정하는 회귀분석 기법이다.

 

단순회귀분석의 가장 기본적인 정의.
즉 단순회귀분석은 여러 변수 중에서 하나의 독립변수(Independent Variable)가 하나의 종속변수(Dependent Variable)에 어떤 영향을 미치는지를 통계적 수식으로 추정하는 분석 방법이라는 의미이다.

여기서 중요한 핵심은 단순(simple) 이라는 단어인데 이 단어는 모델이 간단하다는 의미가 아니라 독립변수가 하나라는 의미로 사용된다.

왜?

왜 단순회귀분석을 사용하는가를 이해하려면 데이터 분석의 목적을 먼저 이해해야 한다.
데이터 분석에서는 보통 어떤 변수(X)가 다른 변수(Y)에 어떤 영향을 미치는지 알고 싶어한다.

예를 들어

공부시간 → 시험점수
광고비 → 매출
운동시간 → 체중

이러한 관계를 분석할 때 독립변수가 하나인 경우 가장 기본적으로 사용하는 모델이 단순회귀분석이다.

즉 단순회귀분석은 변수 사이 인과관계 또는 영향 관계를 수식으로 설명하기 위한 가장 기본적인 통계 모델이다.

용어 설명

독립변수
Independent Variable

Independent
→ 다른 변수에 의해 영향을 받지 않는다는 의미


결과에 영향을 주는 변수

 

종속변수
Dependent Variable

Dependent
→ 다른 변수에 의해 값이 결정되는 변수


결과 변수

 

추정
Estimation

모집단의 정확한 값을 모르기 때문에
표본 데이터를 이용해서 값을 계산하는 과정


 

따라서 독립변수와 종속변수가 각각 한 개이며, 오차항이 있는 선형관계로 정의한다.

 

단순회귀분석에서 독립변수와 종속변수의 구조와 관계 형태
즉 단순회귀분석에서는 독립변수 X가 하나이고 종속변수 Y도 하나이며 두 변수 사이의 관계는 직선 형태의 선형관계(linear relationship) 로 표현되며 실제 데이터는 완벽한 직선 관계가 아니기 때문에 오차항(error term) 이 포함된다는 의미이다.

왜?

왜 오차항이 필요한지를 이해하려면 현실 데이터의 특성을 이해해야 한다.

현실에서는 어떤 변수 하나만으로 결과를 완벽하게 설명할 수 없다.

시험점수

공부시간만으로 결정되지 않는다.

수면
IQ
집중력
환경

여러 요인이 존재한다.

그래서

회귀모델은

설명 가능한 부분 + 설명 불가능한 부분

으로 나누어 표현한다.

 

수식

 

예시

공부시간 X
시험점수 Y

회귀식

의미

공부시간 1시간 증가하면
시험점수 평균 5점 증가

하지만

개인차 존재 → ε

 

 

단순회귀분석의 가정사항과 정의는 다음과 같다.

 

단순회귀분석 모델이 통계적으로 올바르게 작동하기 위해 반드시 만족해야 하는 조건들이 존재한다
즉 회귀모델은 단순히 직선 하나를 그리는 계산 방법이 아니라 통계적 가정(assumption)을 기반으로 만들어진 모델이기 때문에 특정 조건들이 성립해야 회귀계수 추정값과 검정 결과가 신뢰할 수 있는 결과가 된다.

단순회귀분석의 가정사항 1) 독립변수 :

 연속형 변수(1개), 종속변수: 연속형 변수(1개).

 

단순회귀분석에서는 독립변수와 종속변수가 모두 연속형 변수여야 한다

왜?

왜 연속형 변수여야 하냐면 회귀모델은 수식 기반 계산 모델이기 때문이다.

회귀식

여기서

β₁ × X

곱셈 연산이 가능하려면

X는 숫자값이어야 한다.

연속형 변수

Continuous Variable

실수값 가능


몸무게
소득
온도

단순회귀분석의 가정사항 2) 선형성 만족 : 

독립변수와 종속변수의 선형성.

독립변수 X와 종속변수 Y 사이 관계는 직선 형태 관계여야 한다

수식

선형 관계

그래프

직선

 

왜?

만약 실제 관계가

곡선이면

선형회귀는 잘못된 모델이 된다.

그래서 선형성 확인이 필요하다.


단순회귀분석의 가정사항 3) 오차의 정규성 만족 : 

오차항의 정규성 검정 기법 : 샤피로-월크 검정, 콜모고로프-스미르노프 검정 등.

 

회귀모델에서 발생하는 오차(residual)는 정규분포를 따라야 한다는 가정이다.

수식

왜?

회귀분석의

t검정
F검정

정규분포 가정 기반

이다.

그래서 오차가 정규분포가 아니면 검정 결과가 왜곡된다.


단순회귀분석의 가정사항 4) 등분산성 만족(두 모집단 비교 시 : 독립표본 Z검정) 

 등분산성 검정 기법 : 레빈의 검정과 바틀렛 검정 등.

 

오차의 분산이 모든 독립변수 값에서 동일해야 한다는 가정이다.

수식

왜?

만약 분산이 일정하지 않으면

회귀계수의

표준오차
t통계량

계산이 틀어지게 된다.

그래서 등분산성 검정을 한다.

 

검정 방법

레빈 검정 : 정규분포 가정 없이 분산 동일성 검정
Levene Test

 

바틀렛 검정 : 정규분포 가정 하에서 분산 동일성 검정
Bartlett Test

 


단순회귀분석에서 회귀계수 추정, 최소제곱법 

단순회귀분석에서는 회귀직선의 기울기와 절편을 어떻게 계산할 것인지가 핵심 문제가 된다.
즉 데이터 점들이 여러 개 존재할 때 그 점들을 가장 잘 설명하는 직선을 찾아야 하는데, 이 직선을 결정하는 방법이 바로 최소제곱법(Least Squares Method)이다.

최소제곱법의 전체 구조는 다음과 같은 논리 흐름을 가진다.

1. 데이터 관측값과 회귀직선 사이에는 항상 오차가 발생한다.

2. 이 오차를 잔차(residual) 라고 부른다.

3. 잔차를 그냥 합하면 서로 상쇄될 수 있기 때문에 잔차 제곱합을 계산한다.

4. 잔차 제곱합이 가장 작아지는 직선을 찾는다.

5. 이 직선이 회귀직선(regression line) 이 된다.

그리고 이 과정에서 데이터 변동은 세 가지로 분해된다.

총 변동 = 설명된 변동 + 설명되지 않은 변동

 

단순회귀분석에서 회귀계수를 추정하기 위해 최소제곱법(Least Squared Method=최소자승법)을 사용한다.

 

단순회귀분석에서 회귀계수(Regression Coefficient)를 계산하는 방법이 최소제곱법이다.
즉 데이터가 여러 개 있을 때 그 데이터들을 가장 잘 설명하는 직선을 찾기 위해 각 데이터와 직선 사이의 오차를 계산하고 그 오차의 제곱합이 최소가 되는 직선을 찾는 방법을 사용하며, 이 방법을 최소제곱법이라고 한다

왜?

왜 최소제곱법을 사용하는지를 이해하려면 회귀분석의 목적을 먼저 이해해야 한다.

회귀분석의 목적은 단순히 직선을 그리는 것이 아니라 데이터 점들과 가장 가까운 직선을 찾는 것이다.

하지만 데이터는 항상 다음과 같이 퍼져 있다.

      .
   .
 .
        .

이 점들 사이에 수많은 직선을 그릴 수 있다.

그래서 문제는

어떤 직선이 가장 좋은 직선인가?

이 질문이 된다.

이때 가장 합리적인 기준이 바로

오차의 크기를 최소화하는 직선

이다.


용어 설명

최소제곱법
Least Squares Method

 

Least
→ 가장 작은

 

Squares
→ 제곱

 

Method
→ 방법

 

오차의 제곱 합이 가장 작은 직선을 찾는 방법


회귀계수
Regression Coefficient

 

Regression
→ 회귀

 

Coefficient
→ 계수

 

회귀식에서

β₀
β₁

같은 값이다.

 

최소제곱법은 잔차 제곱합(예측값과 실제 관찰값 사이의 차이)을 최소로 만드는 직선을 찾는 방법이며, SSE가 0이 되는 직선을 의미한다.

최소제곱법이 예측값(predicted value)과 실제 관측값(observed value) 사이의 차이인 잔차(residual)를 계산하고 그 잔차의 제곱을 모두 더한 값이 가장 작아지는 직선을 찾는 방법이라는 의미이다.

왜?

왜 잔차를 사용하는지를 이해하려면 예측값과 실제값 관계를 이해해야 한다.

데이터

X Y
10 71
20 45
30 24
40 8

직선을 그리면

예측값

이 생긴다.

 

실제값

그래서 차이가 생긴다.

이것을 잔차(residual) 라고 한다.


수식

Sum of Squared Errors

Sum
→ 합

Squared
→ 제곱

Errors
→ 오차

 

"SSE가 0이 되는 직선"

이라고 되어 있는데 실제 의미는

SSE가 최소가 되는 직선

이다.

왜냐하면 실제 데이터에서는 SSE가 0이 되는 경우는 거의 없다.


 

ESS(Explained Sum of Squares) 혹은 SSR(Regression Sum of Squares): 회귀식으로 설명 가능한 수치.

 

ESS 또는 SSR은 회귀모델이 설명할 수 있는 데이터 변동량을 의미한다.

수식

예측값이 평균에서 얼마나 떨어져 있는지 측정한다.

왜?

왜 이 값을 계산하냐면

모델이 데이터를 얼마나 설명하는지 측정하기 위해서이다.

ESS가 클수록

모델 설명력이 높다.


 

RSS(Residual Sum of Squares) 혹은 SSE(Sum of Squares Estimation of Error): 회귀식으로 설명 불가능한 수치.

 

RSS 또는 SSE는 회귀모델이 설명하지 못한 데이터 변동량을 의미한다.


수식

실제값과 예측값 차이의 제곱합이다.


관계식

읽기

TSS
Total Sum of Squares

 

ESS
설명된 변동

RSS
설명되지 않은 변동

 

 

최소제곱법 사례: 어느 실험실에서 10시간, 20시간, 30시간, 40시간마다 물질의무게를 측정한 자료가 있다. 35시간에 대ㅐ한 물질의 무게는? 무게 각각 71,45,24,8.

데이터

시간 무게
10 71
20 45
30 24
40 8

 

.최소제곱법은 다음 직선을 구하는 방법

즉, 시간이 늘어날수록 무게가 얼마나 줄어드는지
직선으로 가장 잘 맞추는 거야.


2. 공식

최소제곱법에서 기울기 (b), 절편 (a)

 

3. 평균 구하기

먼저 (x)와 (y)의 평균부터 구해야 한다.


4. 기울기 (b) 구하기

공식에 들어가는 값을 표로 정리하면 계산이 편해.

 

이제 합계를 구하면:

따라서 기울기 (b)는


5. 절편 (a) 구하기

이제

에 대입하면


6. 회귀식 완성

그래서 최소제곱법으로 얻은 직선은

이 뜻은:

  • 시간이 1시간 늘어날 때마다
  • 무게가 평균적으로 2.1만큼 감소한다

7. 35시간일 때 무게 구하기

이제 (x=35)를 넣으면 

 

 


8. 최종 답


왜 이렇게 구하는지 직관

최소제곱법은 각 점과 직선 사이의 세로 차이, 즉 잔차

를 제곱해서 모두 더한 값이 가장 작아지도록
직선을 정하는 방법이다.

즉, 그냥 대충 선을 긋는 게 아니라

전체 데이터에 가장 잘 맞는 직선

을 수학적으로 고른 거다.

그래서 35시간도 그 직선 위에서 예측한 값인 16이 나오는 거다


정리,


 

잔차의 제곱합을 최소화시키는 이유1) 잔차의 합이 0이 되는 해는 무수히 많음(유일한 해를 찾지 못함).

 

잔차를 그냥 합하면

양수와 음수가 서로 상쇄되어

항상 0이 될 수 있다.

그래서

유일한 직선을 찾을 수 없다.

 

잔차의 제곱합을 최소화시키는 이유 2) 잔차의 절대값 합은 미분이 불가능한 형태(작은 부분을 확대해도 뾰족한 형태로 제거 불가).

잔차 절대값

0에서 뾰족

미분 불가능

그래서 계산이 어렵다.

 

잔차의 제곱합을 최소화시키는 이유 3) 잔차의 제곱합은 미분이 가능한 형태로 유일한 해를 찾을 수 있음.

잔차 제곱

그래프

부드러운 곡선

미분 가능

그래서

로 계산하면

유일한 최소값을 찾을 수 있다.


정리

최소제곱법

이 값을 최소로 만드는 직선이 회귀직선

 

데이터 변동


단순회귀분석, 회귀계수 유의성 검정

회귀분석을 수행하면 다음과 같은 회귀식(regression equation) 이 만들어진다.

여기서 중요한 질문이 생긴다.

이 회귀계수들이 실제로 의미 있는가?

  • 독립변수 X가 정말 Y에 영향을 주는가
  • 아니면 단순히 우연히 계산된 값인가

이 질문을 검증하기 위해 사용하는 방법이 바로

회귀계수 t검정(t-test for regression coefficient) 이다.

검정 흐름은 다음과 같다.

1. 가설 설정
2. 검정통계량 계산
3. 기각역 판단
4. p값으로 유의성 판단

이 과정을 통해 각 회귀계수 β가 0인지 아닌지를 판단한다.

 

회귀분석 수행 시 도출되는 회귀계수의 t통계량은 해당 회귀계수가 통계적으로 얼마나 유의한가를 나타낸다.

 

회귀분석을 수행하면 계산되는 회귀계수(Regression Coefficient)에 대해 t통계량(t-statistic)을 계산하게 되며,

이 t통계량은 해당 회귀계수가 통계적으로 의미가 있는지, 즉 종속변수를 설명하는 능력이 있는지를 판단하는 기준이 된다

왜?

왜 t통계량을 사용하냐는 질문의 핵심은 회귀계수 값 자체만으로는 의미 여부를 판단할 수 없기 때문이다.

예를 들어 회귀분석 결과에서

이라는 값이 나왔다고 하자.

이 값만 보면

독립변수 X가 1 증가하면 Y가 3 증가한다

라는 의미를 가진다.

하지만 여기서 중요한 질문이 생긴다.

이 값이

진짜 관계인가?

아니면

우연히 표본 데이터 때문에 나온 값인가?

이 문제를 해결하기 위해 통계적 검정(statistical test) 이 필요하다.

이때 사용하는 방법이 t통계량이다.

t통계량은

추정된 회귀계수 / 그 계수의 표준오차

로 계산되며, 이 값이 크면 클수록 계수가 0이 아닐 가능성이 높다는 의미가 된다.

.

t통계량
t-statistic

t-distribution
→ t분포 기반 검정 통계량

표본에서 계산된 값이 모집단에서 의미 있는지 판단하는 통계량

 

수식

회귀계수 t통계량

읽기

t통계량

 

→ i번째 회귀계수 추정값

 

SE
Standard Error

→ 표준오차


 

회귀계수의 유의성을 판단하기 위해서 t검정을 수행하며, 검정 과정은 다음과 같다.

 

회귀계수가 통계적으로 의미 있는지 판단하기 위해 t검정을 수행하며 그 검정 과정이 일정한 통계 절차를 따른다

즉 회귀계수의 유의성 검정은 단순히 값만 보고 판단하는 것이 아니라 통계적 가설검정 절차를 통해 판단해야 한다

왜?

왜 이런 절차가 필요하냐면 통계학에서는 표본 데이터만으로 모집단의 관계를 판단해야 하기 때문이다.

우리는 보통 모집단 전체 데이터를 알 수 없고 일부 데이터만 가지고 분석하기 때문에 표본에서 계산된 회귀계수가 우연인지 실제 관계인지 판단해야 한다.

그래서 통계학에서는 항상 다음과 같은 절차를 따른다.

1. 가설 설정
2. 검정통계량 계산
3. 기각 여부 판단

이 과정을 가설검정(Hypothesis Test) 이라고 한다.

회귀계수의 유의성 검정, t검정 절차 1) 

귀무가설 및 대립가설 설정.

첫 번째 단계는 검정하고자 하는 가설을 설정하는 단계이다.

수식

 

왜?

왜 β=0을 기준으로 검정하냐면

β=0이라는 것은

독립변수 X가 종속변수 Y에 영향을 주지 않는다는 의미이기 때문이다.

따라서

β ≠ 0이면

X가 Y를 설명하는 변수라는 의미가 된다.


2 )

검정 통계량.

이 단계에서는 회귀계수의 t통계량을 계산한다.

수식

 

여기서

는 회귀계수의 표준오차(Standard Error)이다.

왜?

왜 표준오차로 나누냐면 회귀계수 값이 얼마나 불확실한지를 고려하기 위해서이다.

같은 값이라도

β = 3
표준오차 = 0.1

이면 매우 의미 있는 값이다.

하지만

β = 3
표준오차 = 10

이면 거의 의미가 없다.

그래서

계수 / 불확실성

비율을 계산한다.


핵심은 β 값 자체가 중요한 게 아니라, β가 “얼마나 정확하게 추정됐는지”가 중요하기 때문이다.
그 정확도를 나타내는 게 표준오차(Standard Error)이고, 그래서 β ÷ 표준오차 = t통계량을 본다.


기본 구조

회귀계수의 유의성은 보통 이걸로 판단한다.

효과 크기 ÷ 추정의 흔들림

이다.


표준오차가 0.1일 때

이 의미는

효과가 표준오차의 30배

라는 뜻이다.

  • 데이터 흔들림이 0.1 정도인데
  • 효과가 3이나 나온 것

그래서

우연일 가능성이 거의 없음

그래서 매우 유의함.


표준오차가 10일 때

이 의미는

효과가 오차보다 훨씬 작다

  • 데이터 흔들림이 ±10 정도
  • 그런데 효과는 3

그래서

이건 그냥 우연일 수도 있다

라고 판단한다.

그래서 유의하지 않다.


직관적인 예

예를 들어보자.

어떤 광고가 매출을 3만원 증가시킨다고 추정했다.

경우1

오차 ±0.1만원

3 ± 0.1

→ 거의 확실하게 증가


경우2

오차 ±10만원

3 ± 10

→ 실제 효과 범위

  • -7
  • 13

증가할 수도 있고 감소할 수도 있음

그래서

의미 없는 결과


그래서 통계에서 보는 것

통계는 항상

효과 크기 / 불확실성

을 본다.

그래서

의미
β만 큼 의미 없음
β ÷ SE (t값) 의미 판단

 

표준오차가 작다

→ 추정이 정확하다
→ β가 진짜 효과일 가능성 높다

 

표준오차가 크다

→ 추정이 불확실하다
→ β가 우연일 가능성 높다

 


3)

 

가설 검정(기각역).

이 단계에서는 계산된 t통계량이 기각역(rejection region) 안에 들어가는지를 확인한다.

 

기각역
Rejection Region

귀무가설을 기각하는 영역

예시

 

정보 역할
α 유의수준
α/2 양측검정일 때
df = n − k − 1 t분포 모양 결정
t₀.₀₂₅ 임계값

4)

유의성 검정(p값 사용).

이 단계에서는 p값(p-value)을 이용하여 가설을 판단한다.

p값

p-value

Probability value

귀무가설이 맞다고 가정했을 때

현재 결과가 나타날 확률

 

판단 기준

이면

귀무가설 기각


 

회귀계수에 대한 p값이 0.05보다 작거나 t통계량의 절대값이 기각역에 있으면 'i번째 회귀계수는 0이다' 라는 귀무가설을 기각하고, 해당 회귀계수는 통계적으로 유의하다( 변수의 설명력이 있다)고 판단할 수 있다.

 

회귀계수의 유의성 판단 기준을 설명하는 문장이다.


판단 기준

 

또는

 

 

t의 절대값이 임계 t값보다 크면

이면

귀무가설 기각

 

왜?

왜 이런 기준을 사용하는지 이해하려면 통계적 유의성(statistical significance) 개념을 이해해야 한다.

유의수준

라는 것은

우연히 이런 결과가 나올 확률이 5%보다 작으면 실제 관계가 있다고 판단한다는 의미이다.

따라서

p값이 0.05보다 작으면

이 회귀계수는 우연히 나온 값이 아닐 가능성이 높다고 판단한다.


예시

회귀 결과

변수 회귀계수 t값 p값
공부시간 3.2 4.5 0.0001

 

판단

p < 0.05

→ 귀무가설 기각

→ 공부시간은 시험점수 설명 변수


정리

 


회귀계수 유의성 검정 사례 

단순회귀분석에서 특정 독립변수의 회귀계수가 실제로 의미가 있는지 검정하는 과정

회귀분석을 수행하면 다음이 계산된다.

1. 회귀식
2. 회귀계수
3. 회귀계수 표준오차
4. t통계량
5. p값

그리고 이 값을 이용하여

"이 독립변수가 실제로 종속변수를 설명하는 변수인가?"

를 판단한다.

검정 흐름은 다음과 같다.

1. 회귀식 도출
2. 회귀계수 추정
3. 가설 설정
4. t통계량 계산
5. 임계값 비교
6. p값 비교
7. 통계적 결론

 

표본이 12개인 연구비와 매출의 회귀 모델은 최소제곱법에 의해 다음과 같이 산출되었다.

연구비와 매출 사이 관계를 분석하기 위해 회귀분석을 수행했으며, 총 데이터 표본이 12개이고 최소제곱법을 이용하여 회귀모델이 계산되었다

왜?

왜 최소제곱법을 사용했는지를 이해하려면 회귀분석의 목적을 이해해야 한다.

데이터는 보통 다음처럼 직선 위에 정확히 놓이지 않는다.

      .
   .
 .
        .

그래서 여러 직선을 그릴 수 있다.

이때 문제는

어떤 직선이 데이터를 가장 잘 설명하는가?

이다.

이 질문을 해결하기 위해 잔차 제곱합(SSE)을 최소로 만드는 직선을 찾는다.

이 방법이

최소제곱법

이다.

 

이 식은 연구비와 매출 사이 관계를 나타내는 회귀식(regression equation) 이다.

연구비가 증가하면 매출이 얼마나 증가하는지를 나타내는 식이다.

용어 설명

ŷ

→ 예측값 (Predicted value)

 

β̂₀

→ 절편 (Intercept)

 

β̂₁

→ 기울기 (Slope)

 

X

→ 독립변수 (연구비)

 

e

→ 오차항 (error term)


수식 의미

회귀식

의 의미

연구비가 1 증가하면

매출이 0.203 증가

 

절편

9.312

의 의미

연구비가 0일 때

예측 매출

9.312


표 설명

변수 회귀계수 표준오차 t통계량 p값
절편 9.312 0.563 16.54 0.0001
연구비 0.203 0.022 9.22 0.0001

 

여기서 중요한 값은

연구비 회귀계수

0.203

그리고

t값

9.22

이다.


가설 설정

원문

귀무가설

의미

연구비 변수는

매출을 설명하지 못한다

라는 가설이다.

 

대립가설

 

의미

연구비 변수는

매출을 설명한다


표준오차

 

이 식은 회귀계수의 표준오차(Standard Error) 를 계산하는 식이다.

용어

Standard Error

→ 표준오차

회귀계수 추정값이 얼마나 불확실한지 나타내는 값

검정통계량

이 식은 회귀계수 t통계량 계산식이다.

 

여기서는

귀무가설

 

의미

t값이

9.22

라는 것은

회귀계수가

표준오차의 9.22배 만큼 크다

는 의미이다.


자유도

 

여기서

n = 12

k = 1

그래서


기각역

의미

유의수준

0.05

양측검정

이므로

을 사용한다.

 

그래서

임계값

2.228


기각 조건

이면

귀무가설 기각


비교

 

그래서

귀무가설 기각


p값 검정

그래서

귀무가설 기각


통계적 결론

연구비의 회귀계수

0이 아니다

 

연구비는

매출을 설명하는 변수이다


 

단순회귀분석에서 t통계량은 회귀계수의 검정통계량이며, 제곱값은 모델의 적합성 검정값인 F통계량과 같다.

의미

단순회귀에서는

 

t검정

F검정

같은 의미를 가진다.


예시

 

그래서

단순회귀에서는

t검정 = F검정

이다.

 

 


단순회귀식 적합성 검정 구조

단순회귀분석을 수행하면 다음 세 가지 질문이 반드시 따라온다.

1.이 회귀모델이 통계적으로 의미가 있는가?
→ 독립변수가 종속변수에 영향을 주는가

2.이 모델이 데이터를 얼마나 잘 설명하는가?
→ 종속변수 변동을 얼마나 설명하는가

3.이 모델이 실제 데이터 구조에 맞는 모델인가?
→ 회귀분석의 기본 가정이 성립하는가

그래서 단순회귀분석에서는 모델 적합성 검정(Model adequacy test) 을 다음 세 단계로 수행한다.

1. F검정 (ANOVA) → 모델 유의성 검정

2. 결정계수 (R²) → 모델 설명력 검정
3. 기본 가정 검정 → 모델 적합성 검정

이 세 가지 검정을 통해 회귀모델이 실제 데이터 관계를 설명하는 유효한 모델인지 판단한다.


 

단순회귀식의 적합성 검정의 목적은 다음과 같이 구분할 수 있다.

 

단순회귀분석에서 회귀모델이 실제로 적절한 모델인지 판단하기 위해 수행하는 적합성 검정의 목적을 몇 가지 기준으로 나누어 설명할 수 있다

왜?

왜 회귀모델의 적합성을 검정해야 하는지를 이해하려면 회귀분석 결과의 구조를 먼저 이해해야 한다.

회귀분석을 수행하면 다음과 같은 회귀식이 만들어진다.

하지만 이 식이 계산되었다고 해서 이 모델이 반드시 의미 있는 모델이라는 보장은 없다.

왜냐하면 다음 세 가지 문제가 발생할 수 있기 때문이다.

1. 독립변수가 실제로는 영향이 없는데 우연히 계수가 계산되었을 수 있다.

2. 모델이 종속변수 변동을 거의 설명하지 못할 수도 있다.

3. 모델 가정이 깨져서 통계 결과가 왜곡되었을 수도 있다.

그래서 회귀분석에서는 모델 적합성 검정이라는 과정을 통해 이 모델이 실제로 신뢰할 수 있는 모델인지 확인한다.

 

목적 1) 모델 적합성 거정 :

 독립변수 X가 종속변수 Y에 대해 통계적으로 유의한 영향을 주는가를 확인. 검정 기법: 분산분석(ANOVA)의 F검정.

 

회귀모델 적합성 검정의 첫 번째 목적이 독립변수 X가 종속변수 Y에 실제로 영향을 주는지 확인하는 것이라는 의미이며, 이를 검정하기 위해 분산분석(ANOVA)의 F검정을 사용한다

용어 설명

분산분석

ANOVA

Analysis Of Variance

Analysis
→ 분석

Variance
→ 분산

분산을 분석하여 변수 관계를 판단하는 방법


F검정

F-test

분산비를 이용하여 모델이 유의한지 판단하는 검정


왜?

왜 분산분석을 사용하는지를 이해하려면 회귀분석의 변동 분해 구조를 이해해야 한다.

종속변수 Y의 총 변동은 다음 두 부분으로 나누어진다.

1. 회귀모델이 설명하는 변동

2. 모델이 설명하지 못하는 오차 변동

 

여기서

TSS

Total Sum of Squares

총 변동

 

SSR

Regression Sum of Squares

회귀에 의해 설명되는 변동

 

SSE

Sum of Squared Errors

오차에 의해 설명되는 변동


이때 회귀모델이 좋은 모델이라면

회귀가 설명하는 변동이 오차 변동보다 커야 한다.

그래서

를 계산한다.


목적2) 모델 설명력 검정 : 

종속변수의 분산 중에서 독립변수로 설명되는 비율. 회귀분석 모델로 종속변수를 얼마나 잘 설명할 수 있는가를 확인. 검정 기법: 결정계수.

 

회귀모델의 두 번째 목적이 종속변수 변동 중에서 독립변수가 설명할 수 있는 비율을 측정하는 것이며 이를 결정계수(R²)로 측정한다는 의미이다.

용어 설명

결정계수

Coefficient of Determination

기호

R^2

수식

 

 

SSR

Regression Sum of Squares

회귀가 설명하는 변동

 

TSS

Total Sum of Squares

전체 변동

왜?

왜 결정계수를 사용하는지를 이해하려면 모델 설명력 개념을 이해해야 한다.

예를 들어 종속변수 변동이 100이라고 하자.

그중

회귀모델이 설명한 변동

70

이면

모델이 데이터 변동의 70%를 설명한다.


예시

시험 점수

 

설명 변수

공부시간

이면

시험 점수 변동의 80%가 공부시간으로 설명된다.


목적3) 데이터의 모델 적합성 검정 : 

분산분석과 결정계수를 통해 유의한 결과가 나왔을 때, 관측값(데이터)에 의해 회귀 모델이 적절했는지를 확인.

 

회귀모델이 통계적으로 유의하고 설명력이 높다고 해도 데이터 구조 자체가 회귀모델 가정을 위반하면 모델이 적합하지 않을 수 있기 때문에 추가 검정이 필요하다

왜?

왜 추가 검정이 필요한지를 이해하려면 회귀분석 가정을 이해해야 한다.

회귀분석은 다음 가정을 가진다.

1. 선형성

2. 오차 정규성

3. 등분산성

4. 독립성

 

만약 이 가정이 깨지면

t검정

F검정

결정계수

결과가 왜곡될 수 있다.

 

검정 기법: 회귀분석의 기본 가정 확인(선형성, 정규성, 등분산성, 독립성).

회귀모델이 실제 데이터에 적합한지 판단하기 위해 회귀분석의 기본 가정을 확인해야 한다

가정

선형성

독립변수와 종속변수 관계가 직선

 

정규성

오차가 정규분포

 

 

등분산성

오차 분산 일정

 

독립성

오차끼리 상관 없음


모델 적합성 검정, 분산분석(ANOVA= F검정)

회귀 모델의 통계적 유의성을 검정하기 위해서 분산분석을 수행하여 독립변수 X가 종속변수 Y에 대해 통계적으로 유의한 영향을 주는가를 확인한다.

회귀모델 전체가 유의한지 판단하기 위해 분산분석(ANOVA)을 수행한다

왜?

왜 F검정을 사용하는지를 이해하려면 회귀 변동 구조를 이해해야 한다.

회귀가 설명하는 변동

SSR

 

오차 변동

SSE

 

모델이 좋으면

SSR >> SSE

 

그래서

을 계산한다.

 

이때 분산분석의 결과로 산출되는 F 통계량을 이용해 유의한 영향을 검정한다.

 

F통계량이 크면 클수록 회귀모델이 데이터를 잘 설명한다

 

분산분석표의 F 통계량은 MSR(회귀제곱평균)과 MSE(오차제곱평균)간의 비율로써

수식

MSR

Mean Square Regression

회귀 제곱 평균

 

MSE

Mean Square Error

오차 제곱 평균

 

이 값이 크다는 것은 F통계량이 분포도 우측에 존재한다는 뜻이며(기각역에 위치)

F값이 크면

귀무가설이 기각된다

 

귀무가설

 

독립변수 영향 없음

 

오차들에 의해 설명되는 변동보다 회귀선에 의해 설명되는 변동이 크다는 뜻이기도 하기 때문에 회귀선이 독립변수와 종속변수와의 관계를 잘 설명한다는 의미가 된다.

 

회귀모델이 데이터를 잘 설명할 때는 오차 변동보다 회귀 설명 변동이 크기 때문에 F값이 커지고 이 경우 회귀모델이 실제 변수 관계를 잘 설명하는 모델이라고 판단할 수 있다는 의미이다.

 


단순회귀분석의 분산분석 구조

단순회귀분석(Simple Regression Analysis)에서 분산분석(ANOVA, Analysis of Variance)을 이용하여 회귀모델이 통계적으로 의미가 있는지 검정하는 과정 전체 구조를 설명.

단순회귀에서 분산분석의 핵심 논리는 다음과 같다.

1. 종속변수 Y의 전체 변동을 계산한다.

2. 그 변동을 두 부분으로 나눈다.

  • 회귀모델이 설명하는 변동
  • 오차가 설명하는 변동

3. 두 변동의 크기를 비교한다.

4. 회귀가 설명하는 변동이 오차보다 충분히 크면
→ 독립변수 X는 Y에 영향을 준다.

이 비교를 수행하는 통계량이

F통계량(F-statistic) 이다.


귀무가설 및 대립가설

귀무가설

β₁ = 0

독립변수 X와 종속변수 Y는 서로 관련이 없다.

 

대립가설

β₁ ≠ 0

독립변수 X와 종속변수 Y는 서로 관련이 있다.

 

이 가설은 회귀모델에서 독립변수 X가 종속변수 Y에 영향을 주는지 여부를 검정하기 위한 통계적 가설 설정이다.

왜?

왜 β₁ = 0을 기준으로 검정하는지를 이해하려면 회귀식의 구조를 이해해야 한다.

단순회귀식은 다음과 같다.

여기서

β₁

→ 기울기


만약

이면

X가 아무 영향을 주지 않는 모델이 된다.

그래서

β₁ = 0

이라는 가설은

독립변수가 영향이 없다

라는 의미이다.


변동요인 산출 (제곱합 분해)

종속변수 Y의 전체 변동을 분해하는 과정

 

그림의 구조

한 점

 

세 가지 값이 존재한다.

그래서 변동이 세 가지로 나뉜다.


 

총변동

의미

종속변수 Y 전체 변동


회귀변동

의미

회귀모델이 설명하는 변동


오차변동

의미

회귀모델이 설명하지 못하는 변동


관계식

 

왜?

왜 이렇게 변동을 나누는지를 이해하려면 회귀분석의 목적을 이해해야 한다.

종속변수 Y는 여러 요인의 영향을 받아 변동한다.

매출

연구비
마케팅
경제상황

여러 요인이 존재한다.

회귀분석은

독립변수 X 하나로 설명되는 변동이 얼마나 되는지 측정하는 분석 방법이다.

그래서

전체 변동을

설명되는 부분
설명되지 않는 부분

으로 나눈다.

 


회귀

SSR

자유도

k

단순회귀

k = 1

 

평균제곱


오차

SSE

자유도

평균제곱


전체

SST

자유도

n-1


F 통계량

수식

 

MSR

Mean Square Regression

회귀 제곱 평균

 

MSE

Mean Square Error

오차 제곱 평균


왜 F값을 사용하는가

왜 F통계량을 사용하는지를 이해하려면 회귀모델의 의미를 이해해야 한다.

좋은 회귀모델이라면

회귀가 설명하는 변동 SSR이

오차 변동 SSE 보다 커야 한다.


그래서

MSR >> MSE
이면

F값이 커진다.

 

F값이 크다는 것은

회귀선이 데이터를 잘 설명한다

는 의미이다.


F 분포 위치

"분포도 우측"

F분포 그래프에서

큰 값 영역

을 의미한다.

 

F 값이 클수록

귀무가설 기각 가능성이 커진다.


기각 조건

양측 검정


p값 검정

이면

귀무가설 기각


결론 의미

귀무가설 기각

→ β₁ ≠ 0

→ 독립변수 X가 Y에 영향

→ 회귀모델 유의


정리


모델 설명력 검정, 결정계수(R^2)

회귀분석을 수행하면 보통 세 가지 질문을 통해 모델을 평가한다.

1. 모델이 통계적으로 의미가 있는가
→ F검정(분산분석)

2. 모델이 데이터를 얼마나 설명하는가
→ 결정계수 (R^2)

3. 모델 가정이 실제 데이터에서 성립하는가
→ 회귀진단(잔차 분석)

이 중 결정계수(Coefficient of Determination, (R^2))는 회귀모델이 종속변수 변동을 얼마나 설명하는지 나타내는 핵심 지표이다.
즉 결정계수는 모델 설명력(Model explanatory power) 을 측정하는 통계량이다.


 

결정계수는 종속변수의 분산 중에서 독립변수로 설명되는 비율을 의미한다.

 

결정계수((R^2))가 종속변수 Y의 전체 변동(분산) 중에서 독립변수 X에 의해 설명되는 부분이 얼마나 되는지를 나타내는 비율이라는 의미이다.

왜?

왜 결정계수를 사용하는지를 이해하려면 회귀분석에서 종속변수의 변동 구조를 먼저 이해해야 한다.
종속변수 Y의 값들은 보통 평균을 중심으로 여러 방향으로 퍼져 있으며 이러한 퍼짐을 분산(variance) 또는 변동(variation) 이라고 부른다.
회귀분석은 이 변동을 설명하려는 모델이기 때문에 전체 변동 중에서 모델이 설명할 수 있는 부분이 얼마나 되는지를 측정하는 지표가 필요하며 그 지표가 바로 결정계수이다.

용어 설명

결정계수

Coefficient of Determination

Coefficient
→ 계수

Determination
→ 결정 또는 설명

데이터 변동을 얼마나 설명하는지를 나타내는 계수

 

수식

결정계수 공식

 

SSR

Regression Sum of Squares

회귀가 설명하는 변동

 

SST

Total Sum of Squares

전체 변동

 

쉽게 말해, 이 통계 모델로 종속변수를 얼마나 잘 설명할 수 있는가를 숫자로 나타낸 것이 결정계수이다(추정된 회귀식이 전체 데이터에서 설명할 수 있는 데이터의 비율)

 

결정계수는 회귀모델이 종속변수 데이터를 얼마나 잘 설명하는지를 수치적으로 표현한 값이다.

왜?

왜 모델 설명력을 숫자로 표현해야 하는지를 이해하려면 회귀모델의 목적을 생각해야 한다.
회귀분석은 단순히 직선을 그리는 작업이 아니라 데이터 패턴을 설명하고 미래 값을 예측하기 위한 모델이다.
따라서 모델이 데이터 패턴을 얼마나 설명하는지를 정량적으로 평가해야 하며, 이를 위해 0에서 1 사이의 비율로 모델 설명력을 표현하는 결정계수가 사용된다.

예시

예를 들어

시험 점수 Y

공부시간 X

 

결정계수

R^2 = 0.70

이면

시험점수 변동의

70%가 공부시간으로 설명된다

 

결정계수는 0~1의 범위를 가지며, 1에 가까울수록 회귀 모델의 설명력이 높다는 것을 의미하고 또한 독립변수와 종속변수의 사이에 상관관계가 높을수록 1에 가까워지는 특성이 있다.

 

결정계수 값이 0에서 1 사이의 범위를 가지며 값이 클수록 회귀모델이 종속변수를 더 잘 설명한다는 의미이며 독립변수와 종속변수의 상관관계가 높을수록 결정계수 값이 1에 가까워진다

왜?

왜 결정계수가 0과 1 사이 값을 가지는지를 이해하려면 결정계수 수식을 보면 된다.

여기서

SSR

→ 설명된 변동

 

SST

→ 전체 변동

 

설명된 변동은 전체 변동보다 클 수 없기 때문에

이 된다.

의미

R² = 0

→ 모델이 아무것도 설명 못함

 

R² = 1

→ 모델이 데이터를 완벽하게 설명

 

따라서 결정계수가 0에 가까운 값을 가지는 회귀 모델은 유용성이 낮은 반면, 결정계수값이 클수록 회귀 모델의 유용성이 높다고 할 수 있다.

 

결정계수 값이 작으면 모델이 데이터를 거의 설명하지 못하기 때문에 유용성이 낮고, 값이 클수록 모델 설명력이 높기 때문에 회귀모델의 활용 가치가 높다

왜?

왜 설명력이 중요하냐면 예측 모델의 목적은 데이터를 설명하고 예측하는 것이기 때문이다.
만약 결정계수가 매우 작다면 모델이 데이터 구조를 거의 설명하지 못하는 것이므로 그 모델을 이용한 예측도 신뢰하기 어렵다.

예시

모델 A

R^2 = 0.10

→ 데이터 변동 10% 설명

 

모델 B

R^2 = 0.80

→ 데이터 변동 80% 설명

 

모델 B가 훨씬 좋은 모델이다.

 

예를 들어 결정계수값이 0.54라고 가정하면 종속변수의 변동 중 약 54%가 독립변수에 의해 설명이 가능하다고 해석한다.

 

결정계수 값이 0.54라면 종속변수 변동 중 약 54%가 독립변수에 의해 설명된다고 해석할 수 있다

예시

매출 Y

광고비 X


R^2 = 0.54

이면

매출 변동의

54%

가 광고비로 설명된다.

 

나머지

46%

다른 요인

경기
경쟁사
계절

등 때문이다.


 

피어슨 상관계수는 두 연속형 변수의 선형비례관계를 -1과 -사이의 값으로 수치화한 척도이다.

 

피어슨 상관계수(Pearson Correlation Coefficient)가 두 연속형 변수 사이의 선형 관계 강도를 -1에서 1 사이 값으로 나타내는 통계량이라는 의미이다.

용어 설명

피어슨 상관계수

Pearson Correlation Coefficient

기호

 

범위

 

 

독립변수가 한 개일 때 결정계수는 피어슨 상관계수의 제곱과 같으며

의미

단순회귀에서는


상관계수 제곱이

결정계수

이다.

 

이 값을 제곱하면 음의 값이 양의 값으로 바뀌면서 0부터 1까지의 결정계수값을 갖게 된다.

왜?

상관계수

r

-1 ~ 1

범위를 가진다.

 

제곱하면

r^2

0 ~ 1

범위가 된다.

 

그래서

결정계수

R^2
가 된다.


데이터의 모델 적합성 검정

데이터의 모델 적합성을 확인하기 위해서는 회귀분석의 기본 가정사항을 이용하여, 그래프로 표현하고 회귀진단을 수행한다.

 

회귀모델이 실제 데이터 구조에 맞는지 확인하기 위해 잔차 그래프 등을 이용한 회귀진단을 수행한다

 

모델의 적합성 확인(분산분석)과 모델의 설명력 확인(결정계수)을 이용해 유의한 결과가 나왔을 때, 오차의 기본 가정이 위배된다면 모델이 적합하다고 할 수 없기 떄문에 관측값(데이터)에 대해 회귀 모델이 적절했는지를 확인하는 과정이 필요하다.

 

F검정과 결정계수 결과가 좋더라도 회귀분석의 기본 가정이 위반되면 모델이 적절하지 않을 수 있기 때문에 추가적으로 회귀진단을 통해 모델 적합성을 확인해야 한다

왜?

왜 이런 과정이 필요한지를 이해하려면 회귀분석의 기본 가정을 이해해야 한다.

회귀분석 가정

1. 선형성

2. 오차 정규성

3. 등분산성

4. 독립성

 

이 가정이 깨지면

t검정

F검정

결정계수

결과가 신뢰할 수 없게 된다.

 


모델의 적합성과 설명력 확인 사례

단순회귀분석에서 모델이 실제로 유효한지 판단하는 전체 과정을 하나의 사례

회귀분석에서는 모델을 평가할 때 다음 세 단계를 거친다.

1. 회귀식 생성
→ 최소제곱법으로 회귀식 계산

2. 모델 유의성 검정
→ ANOVA 분산분석
→ F통계량 계산

3. 모델 설명력 평가
→ 결정계수 (R^2)

이 사례에서는

수학성적(X)
영어성적(Y)

사이 관계를 회귀분석으로 분석한다.


어느 대학 1학년 신입생 12명의 수학성적(X)과 영어성적(Y)의 평균을 가지고 얻은 회귀식은 다음과 같다.

 대학 신입생 12명의 데이터를 이용하여 수학 성적(X)과 영어 성적(Y) 사이의 관계를 회귀분석으로 분석했고 그 결과 회귀식이 계산되었다

왜?

왜 이런 분석을 하는지를 이해하려면 회귀분석의 목적을 생각해야 한다.

데이터 분석에서는 다음 질문을 한다.

수학 성적이 높은 학생은
영어 성적도 높은가?

수학 성적(X)이
영어 성적(Y)에 영향을 주는가?

이 질문을 수학적으로 분석하기 위해 회귀분석을 수행한다.

 

평균 값

 

회귀식

이 식은 수학 성적을 이용하여 영어 성적을 예측하는 회귀식이다.

 

30.056

→ 절편

 

0.897

→ 기울기

해석

수학 점수가 1점 증가하면

영어 점수는

평균적으로

0.897점 증가

한다.


변동요인 계산

SSR = 541.69

SSE = 186.56

SST = 728.25

 

이 값들은 종속변수 변동을 세 가지로 나눈 결과이다.

총 변동

SST
Total Sum of Squares

 

수식

영어 성적의 전체 변동


회귀 변동

SSR
Regression Sum of Squares

수식

회귀모델이 설명하는 변동


오차 변동

SSE
Sum of Squared Errors

수식

회귀모델이 설명하지 못하는 변동


관계식

SST = SSR + SSE

확인

541.69 + 186.56 = 728.25


분산분석표

 

회귀

SSR = 541.69

자유도

k = 1

 

평균제곱

계산

MSR = 541.69


오차

SSE = 186.56

자유도

n-k-1
n = 12

k = 1

12-1-1=10

평균제곱

MSE = 18.656


F 통계량

수식

 

 

가설 설정

귀무가설

수학 성적은

영어 성적과

관련 없다.


대립가설

수학 성적과 영어 성적

관련 있다.


기각역

유의수준

 

임계값


비교


p값 검정

귀무가설 기각


통계적 결론

수학 성적과

영어 성적은

통계적으로 관련 있다


결정계수

 

의미

영어 성적 변동의

약 74%

수학 성적으로 설명된다.


해석

수학 점수

→ 영어 점수 설명력

74%

 

나머지

26%

다른 요인

독서량
어휘력
수업 집중도

등이다.


정리

 


 

728x90
반응형
LIST

'3. 빅데이터 모델링 > 분석 기법 적용' 카테고리의 다른 글

의사결정나무  (0) 2026.03.20
로지스틱회귀분석  (0) 2026.03.19
비선형회귀와 규제가 있는 회귀분석, 일반화 선형 모델  (1) 2026.03.19
다중회귀분석  (0) 2026.03.13
회귀분석  (0) 2026.03.12