관리 메뉴

hye-_

범주형 자료 분석 본문

3. 빅데이터 모델링/분석 기법 적용

범주형 자료 분석

hyehh 2026. 3. 25. 08:23
728x90
반응형
SMALL

범주형 자료 분석 

범주형 자료 분석은 독립변수 혹은 종속변수가 범주형 변수인 경우 데이터를 분석하여 모델의 유의성을 분석하는 방법이다.

범주형 자료 분석은 데이터 안에 들어있는 변수 중에서 입력(독립변수)이나 결과(종속변수)가 “숫자가 아닌 분류값(카테고리)”일 때, 그 데이터를 가지고 모델이 의미 있는 결과를 내는지 검정하는 분석 방법이다.


범주형 변수는 숫자처럼 크기 비교(대소 관계)가 의미가 없기 때문에 평균, 분산 같은 일반적인 연속형 통계 기법을 그대로 적용하면 해석이 왜곡된다. 그래서 범주 간의 관계(비율, 빈도, 분포 차이)를 중심으로 분석해야 하며, 이때 모델이 우연이 아니라 실제로 의미 있는 차이를 설명하는지 확인하기 위해 유의성 검정을 수행하는 것이다. 즉, "이 관계가 진짜냐 아니면 우연이냐"를 판단하기 위해 반드시 필요한 절차이기 때문이다.

  • 범주형 변수 (Categorical Variable): 값이 숫자가 아닌 “종류”로 구성된 변수 (예: 성별, 혈액형, 합격/불합격)
  • 독립변수 (Independent Variable): 결과에 영향을 주는 입력 변수
  • 종속변수 (Dependent Variable): 결과로 나타나는 변수
  • 유의성 (Significance): 우연이 아니라 통계적으로 의미 있는 결과인지 판단하는 개념

예시
성별(남/여)과 합격 여부(합/불)의 관계를 분석해서 “남자가 더 많이 합격했는가?”를 검정하는 경우 → 범주형 자료 분석


독립변수가 연속형 변수이면서 종속변수가 범주형 변수인 경우에는 연속형 변수를 몇 개의 범주로 구간화하여 범주형 변수로 변경 후 도수분포표나 교차표로 분석할 수 있다.

입력값은 숫자(연속형)인데 결과값은 분류(범주형)인 경우, 숫자를 그대로 쓰지 않고 구간으로 나눠서 범주형으로 바꾼 뒤 빈도표나 교차표로 분석할 수 있다


연속형 변수는 값이 너무 다양해서 범주형 분석(카이제곱 등)을 바로 적용하기 어렵다. 그래서 값을 구간(예: 0~10, 10~20)으로 나누면 “범주” 형태가 되어 범주형 분석 기법을 적용할 수 있게 된다. 즉, 연속형 데이터를 그대로 쓰면 비교 기준이 애매하지만, 구간화하면 그룹 간 차이를 명확하게 비교할 수 있기 때문에 통계적으로 해석이 쉬워진다.

  • 연속형 변수 (Continuous Variable): 값이 끊기지 않고 연속적으로 존재하는 숫자형 변수 (예: 키, 나이, 온도)
  • 구간화 (Binning / Discretization): 연속형 데이터를 일정 범위로 나누어 범주로 변환하는 과정
  • 도수분포표 (Frequency Table): 각 범주별 데이터 개수를 정리한 표
  • 교차표 (Contingency Table): 두 범주형 변수 간의 관계를 빈도로 나타낸 표

예시
나이(연속형)를
→ 10대 / 20대 / 30대
로 나누고,
구매 여부(구매/비구매)와 교차표로 분석


단, 범주형 변수를 연속형 변수로 변경할 수는 없다.

범주형 변수는 숫자처럼 연속적인 값으로 바꿀 수 없다


범주형 변수는 본질적으로 “순서나 크기 의미가 없는 분류”인데, 이를 숫자로 바꾸면 마치 크기나 거리 개념이 있는 것처럼 왜곡된다. 예를 들어 남=1, 여=2로 바꾸면 “여가 남보다 2배다” 같은 잘못된 해석이 생길 수 있다. 즉, 데이터의 의미를 훼손하기 때문에 연속형으로 변환하는 것은 통계적으로 올바르지 않다.

  • 범주형 → 연속형 변환 불가: 범주 데이터는 수치적 크기 의미가 없기 때문에 연속값처럼 취급할 수 없음
  • 수치적 의미 (Numerical Meaning): 값의 크기 차이가 실제 의미를 가지는 특성

예시
혈액형(A=1, B=2, O=3) → 숫자로 바꿔도 의미 없음 (O가 A보다 크다는 의미 X)


이는 의미를 담고 있는 변수는 실수화를 하더라도 수치적 차이를 부여 받지 못하기 때문이다.

범주형 변수는 숫자로 바꿔도 실제로는 숫자 간 차이가 의미를 가지지 못한다


숫자는 원래 크기, 거리, 비율을 나타내는 도구인데, 범주형 변수는 단순한 “이름표(label)” 역할을 한다. 그래서 1과 2의 차이(=1)가 실제 의미를 가지지 않는다. 즉, 숫자처럼 보이지만 계산 가능한 수치가 아니라 단순 코드일 뿐이라서 연속형처럼 해석하면 오류가 발생한다.

  • 실수화 (Numeric Encoding): 범주형 값을 숫자로 바꾸는 것
  • 수치적 차이 (Numerical Difference): 값 사이의 차이가 실제 의미를 가지는 것

예시
직업 (학생=1, 회사원=2, 무직=3)
→ 3-1=2 의미 없음


그래서 이때는 가변환을 통해서 연속적인 의미의 속성을 추가하여 그 효과를 내는 방법을 쓰게 되는 것이다.

범주형 변수를 그냥 숫자로 바꾸는 대신, 더미변수 같은 가공을 통해 연속적인 특성을 가진 것처럼 만들어서 분석한다


범주형 데이터를 그대로 숫자로 바꾸면 의미가 깨지기 때문에, 대신 “가짜 변수(더미 변수)”를 만들어서 각 범주를 독립적으로 표현한다. 이렇게 하면 각 범주가 독립적인 영향력을 가지게 되어 회귀 분석 같은 모델에서도 올바르게 해석할 수 있다. 즉, 숫자처럼 보이게 하되 의미 왜곡 없이 분석할 수 있게 만드는 핵심 기법이다.

  • 가변환 (Dummy Encoding / One-hot Encoding): 범주형 데이터를 0과 1로 분해하여 표현하는 방법
  • 더미변수 (Dummy Variable): 특정 범주에 속하면 1, 아니면 0으로 표현하는 변수
  • 원-핫 인코딩 (One-hot Encoding): 여러 범주를 각각 독립된 변수로 만드는 방식

예시
성별 (남, 여)
→ 남=1, 여=0 (또는 반대로)

직업 (학생, 회사원, 무직)
→ 학생(1,0,0), 회사원(0,1,0), 무직(0,0,1)


도수분포표 

최초 수집 및 조사된 원시 자료(Raw Data)는 그 자료의 특징 및 분포를 파악하기 어렵다.

처음 수집된 데이터는 정리되지 않은 상태이기 때문에 어떤 특징이나 분포를 가지고 있는지 바로 이해하기 어렵다


원시 자료는 정렬도 안 되어 있고 값들이 뒤섞여 있기 때문에 데이터가 어디에 몰려 있는지, 어떤 패턴이 있는지 직관적으로 파악할 수 없다. 즉, 인간의 인지 능력으로는 단순 나열된 숫자나 값들에서 구조를 읽기 어렵기 때문에 분석 전에 반드시 정리 과정이 필요하다. 이런 이유로 원시 데이터는 그대로 쓰기보다 요약이나 변환을 거쳐야 의미 있는 분석이 가능해진다.

  • 원시 자료 (Raw Data): 가공되지 않은 최초 상태의 데이터
  • 분포 (Distribution): 데이터 값이 퍼져 있는 형태나 구조

예시
시험 점수 [52, 81, 63, 45, 92, 71] → 그냥 보면 패턴 파악 어려움


따라서 도수분포표 등을 활용하여 요약정보로 표현하게 된다.

그래서 데이터를 정리하기 위해 도수분포표 같은 방법을 사용하여 요약된 형태로 표현한다


사람이 데이터를 이해하려면 단순 나열이 아니라 구조화된 형태가 필요하다. 도수분포표는 데이터를 구간별로 묶고 개수를 세어주기 때문에 전체적인 흐름과 분포를 한눈에 볼 수 있게 해준다. 즉, 복잡한 데이터를 단순화하여 분석 가능하게 만드는 핵심 도구이기 때문에 반드시 요약 형태로 바꾸는 것이다.

  • 요약정보 (Summary Information): 데이터를 압축하여 핵심만 표현한 정보
  • 도수분포표 (Frequency Table): 값 또는 구간별 데이터 개수를 정리한 표

예시
점수 데이터를 “50~60: 2명, 60~70: 3명” 이런 식으로 표현


 

도수분포표는 데이터 각 값의 출현 도수를 세거나 몇 개의 구간으로 나누어 각 구간에 속하는 데이터의 개수를 세어서 정리한 표이며, 도수분포표를 활용하여 데이터의 특성이나 분포를 파악하게 된다.

도수분포표는 각 값 또는 구간별로 몇 개 있는지 세어서 정리한 표이고, 이를 통해 데이터의 특징과 분포를 알 수 있다


데이터를 그대로 보면 구조가 보이지 않지만, 도수로 정리하면 “어디에 많이 몰려 있는지”, “어디는 적은지”가 명확해진다. 이는 데이터의 중심, 퍼짐 정도, 치우침 등을 파악하는 데 매우 중요한 정보이며, 이후 통계 분석의 기초가 된다. 따라서 분포를 이해하기 위해 도수분포표를 사용하는 것이다.

  • 도수 (Frequency): 특정 값이나 구간에 해당하는 데이터 개수
  • 구간 (Interval): 연속형 데이터를 나눈 범위

예시
키 데이터 → 160~170: 5명, 170~180: 10명


일반적으로 하나의 (일변량) 범주형 변수에 빈도수를 파악하거나, 연속형 변수를 구간화하여 범주형 형태로 표현한 후, 도수분포표로 분석한다.

보통 하나의 변수에 대해 빈도를 세거나, 연속형 데이터를 구간으로 나눠 범주형으로 만든 뒤 도수분포표로 분석한다는 뜻이다.


연속형 데이터는 값이 너무 다양해서 직접 비교하기 어렵기 때문에 구간으로 묶어야 분석이 쉬워진다. 또한 도수분포표는 기본적으로 범주형 형태에서 의미를 가지기 때문에, 연속형 데이터를 범주형으로 변환해야 활용 가능하다. 즉, 분석의 편의성과 해석력을 높이기 위해 구간화 과정이 필수적으로 수행된다.

  • 일변량 (Univariate): 하나의 변수만 사용하는 분석
  • 구간화 (Discretization): 연속형 데이터를 범주형으로 나누는 과정

예시
나이 → 10대, 20대, 30대로 나누고 빈도 계산


도수분포표 작성 절차1) 자료의 범위 산출 : 

최대값과 최소값을 찾아 범위 산출 (최대값 - 최소값).

데이터에서 가장 큰 값과 작은 값을 찾아 그 차이를 구하는 단계이다.


전체 데이터가 어느 정도 범위에 퍼져 있는지를 알아야 구간을 나눌 수 있기 때문이다. 범위를 모르고 구간을 설정하면 데이터가 한쪽에 몰리거나 분석이 왜곡될 수 있다. 따라서 구간 설정의 기준이 되는 중요한 단계이다.

  • 범위 (Range): 최대값과 최소값의 차이
  • 최대값/최소값: 데이터 중 가장 크고 작은 값

예시
[10, 20, 30] → 범위 = 30 - 10 = 20


도수분포표 작성 절차 2) 계급 수 결정 :

자료의 수와 범위를 고려하여 계급의 수 결정(연속형 변수의 구간화)

2의 승수법 :2^k값이 n으로 처음 초과하는 k의 값을 계급의 수로 결정

스터지스의 공식 : 계급의 구간수 = 1 + 3.3.log(n)

데이터를 몇 개의 구간으로 나눌지 결정하는 단계이며, 공식이나 규칙을 사용해 정한다


구간이 너무 적으면 정보가 부족하고, 너무 많으면 데이터가 분산되어 의미가 약해진다. 따라서 적절한 구간 수를 정하는 것이 중요하며, 이를 위해 경험적 공식(2의 승수법, 스터지스 공식)을 사용하여 객관적으로 결정하는 것이다.

  • 계급 수 (Number of Classes): 데이터를 나누는 구간 개수
  • 스터지스 공식 (Sturges’ Rule): 적절한 구간 수를 계산하는 공식

예시
데이터 100개 → 1 + 3.3 log(100) ≈ 8개 구간


도수분포표 작성 절차 3) 계급의 폭 결정 :

 계급의 폭(범위/계급의 수)을 올림으로 소수를 정리한 후 계급 구간의 폭을 조정, 계급 구간의 폭은 2.5, 5, 10등이 바람직함.

각 구간의 크기를 정하는 단계이며, 계산 후 적절하게 조정한다


구간의 폭이 너무 애매하면 해석이 어렵고 시각적으로도 보기 불편하다. 따라서 계산값을 기반으로 하되, 사람이 이해하기 쉬운 값(5, 10 등)으로 조정하는 것이 중요하다. 이는 데이터 해석의 직관성을 높이기 위한 과정이다.

  • 계급의 폭 (Class Width): 각 구간의 크기
  • 올림 (Ceiling): 소수점을 올려 정수로 만드는 과정

예시
범위 50 / 구간 5 → 폭 = 10


도수분포표 작성 절차 4) 상한/하한값 조정 : 

첫 계급의 하한과 마지막 계급의 상한을 조정.

구간의 시작값과 끝값을 적절하게 조정하는 단계이다.


데이터가 구간 밖으로 빠지지 않도록 하기 위해 반드시 전체 범위를 포함하도록 조정해야 한다. 만약 구간 설정이 잘못되면 일부 데이터가 누락되어 분석 결과가 왜곡될 수 있다.

  • 하한 (Lower Limit): 구간의 시작값
  • 상한 (Upper Limit): 구간의 끝값

예시
10~20, 20~30 대신 10~19, 20~29로 조정


도수분포표 작성 절차 5) 도수 계산 : 

각 계급에 속하는 구간도수, 상대도수, 누적도수 등 산출.

각 구간에 속하는 데이터 개수를 계산하고 다양한 형태로 표현하는 단계이다.


단순 개수뿐 아니라 비율과 누적값을 함께 보면 데이터의 구조를 더 깊이 이해할 수 있기 때문이다. 특히 누적도수는 전체 흐름을 파악하는 데 중요하며, 상대도수는 비교 분석에 필수적이다.

  • 상대도수 (Relative Frequency): 전체 대비 비율
  • 누적도수 (Cumulative Frequency): 누적된 개수

예시
10~20: 5명 → 상대도수 = 5/20


도수분포표 용어 1) 변량(Variate) : 

자료의 수량으로 나타낸 값, 예) 문자 발송 건수.

데이터에서 측정된 실제 값 하나를 의미한다.


분석의 기본 단위가 되는 값이며, 이 값들을 모아서 분포를 만들기 때문이다. 즉, 모든 통계 분석은 변량에서 시작된다.

  • 변량 (Variate): 관측된 개별 데이터 값

예시
문자 발송 100건 → 하나의 변량

 


도수분포표 용어 2) 계급(Class) : 

변량을 일정한 간격으로 나눈 구간, 예) 20이상 ~ 30미만.

계급은 데이터를 일정한 범위로 나눈 하나의 구간을 의미하며, 연속적인 데이터를 분석하기 쉽게 묶어주는 단위이다.


연속형 데이터는 값이 너무 다양하고 많아서 하나하나 분석하기 어렵기 때문에, 일정한 범위로 묶어서 구조를 단순화해야 한다. 이렇게 계급으로 나누면 데이터가 어느 구간에 많이 몰려 있는지 쉽게 파악할 수 있고, 전체 분포의 형태를 직관적으로 이해할 수 있기 때문에 통계 분석에서 필수적인 개념이다.

  • 계급 (Class): 데이터를 일정 범위로 나눈 구간 단위
  • 구간 (Interval): 연속된 값의 범위를 나타내는 영역

예시
키 데이터 → 160~170, 170~180 같은 구간


도수분포표 용어 3) 계급의 크기 (Class Interval) : 

계급을 나눈 구간의 크기, 예) 20이상~30미만은 30-20=10, 10은 계급의 크기).

계급의 크기는 각 구간의 길이, 즉 시작값과 끝값의 차이를 의미한다.


계급의 크기가 너무 크면 데이터가 뭉뚱그려져서 세부 정보가 사라지고, 너무 작으면 구간이 너무 많아져서 오히려 분석이 어려워진다. 따라서 적절한 크기를 설정하는 것이 데이터의 분포를 정확히 표현하는 데 매우 중요하며, 시각적으로도 해석이 쉬워지도록 조정해야 한다.

  • 계급의 크기 (Class Interval Width): 각 구간의 길이
  • 구간 길이: 상한과 하한의 차이

예시
20~30 → 크기 = 10


도수분포표 용어 4) 계급값(Class Mark) :

 도수분포표에서 각 계급을 대표하는 값, 각 계급의 중앙값, 예) (20+30)/2=25, 25가 계급값.

계급값은 각 구간을 대표하는 값으로, 구간의 가운데 값을 의미한다.


계급 내부에는 여러 값이 존재하지만, 모든 값을 하나씩 계산하기 어렵기 때문에 대표값을 사용한다. 계급값을 사용하면 평균이나 분산 같은 계산을 간단하게 수행할 수 있으며, 전체 데이터를 근사적으로 표현하는 데 유용하다. 즉, 계산 효율성과 분석 편의성을 위해 사용하는 것이다.

  • 계급값 (Class Mark): 구간의 중앙값
  • 중앙값 (Midpoint): 구간의 가운데 값

예시
20~30 → (20+30)/2 = 25


도수분포표 용어 5) 도수(Frequency):

각 계급에 속하는 자료의 개수, 각 계급에 해당하는 변량의 수량, 예) 20이상~30미만 발송한 사람은 5명.

도수는 특정 구간에 속하는 데이터의 개수를 의미한다.


데이터 분석에서 가장 기본적인 정보는 “몇 개냐”이기 때문에, 각 구간별 데이터 개수를 파악하는 것이 중요하다. 도수를 통해 어떤 구간에 데이터가 많이 몰려 있는지 알 수 있으며, 이는 분포의 중심과 형태를 이해하는 핵심 정보가 된다.

  • 도수 (Frequency): 특정 값이나 구간에 속하는 데이터 개수
  • 개수 (Count): 데이터의 수량

예시
20~30 구간 → 5명


도수분포표 용어 6) 상대도수(Relative Frequency) :

전체 자료 중 해당 범주에 속한 자료의 비율(각 계급의 도수/전체 개수).

상대도수는 전체 데이터 중에서 특정 구간이 차지하는 비율을 의미한다.


단순 도수만 보면 데이터 크기가 다를 때 비교가 어렵기 때문에, 비율로 표현해야 비교가 가능하다. 상대도수는 데이터의 비중을 보여주기 때문에 서로 다른 집단 간 비교나 확률 해석에도 활용되며, 데이터 분포를 더 직관적으로 이해하게 해준다.

  • 상대도수 (Relative Frequency): 전체 대비 비율
  • 비율 (Ratio): 전체 중 일부가 차지하는 비중

예시
전체 20명 중 5명 → 5/20 = 0.25


도수분포표 용어 7) 도수분포표에서의 평균 : 

(계급값 * 도수)의 총합 / 도수의 총합.

도수분포표에서는 각 구간의 대표값과 개수를 이용해 평균을 계산한다


원래 평균은 모든 데이터를 직접 더해서 구하지만, 도수분포표에서는 원래 데이터가 사라졌기 때문에 계급값을 대신 사용한다. 이는 계산을 단순화하기 위한 방법이며, 정확한 값은 아니지만 전체적인 평균 위치를 근사적으로 파악하는 데 충분히 유용하다.

  • 평균 (Mean): 데이터의 중심값
  • 총합 (Sum): 값을 모두 더한 결과

예시
(25×5 + 35×3) / 8


도수분포표로 자료 그 자체의 수치값은 잃어 버리게 되나, 대략적인 분포의 형태, 중심위치, 산포 등을 파악할 수 있다.

도수분포표를 만들면 원래 데이터는 사라지지만, 전체적인 분포 구조는 알 수 있다


데이터를 구간으로 묶는 과정에서 개별 값은 사라지지만, 대신 데이터가 어디에 몰려 있는지, 얼마나 퍼져 있는지 같은 큰 흐름을 파악할 수 있다. 즉, 정밀한 정보는 줄어들지만 전체적인 구조를 이해하는 데는 오히려 더 유리해지는 것이다.

  • 분포 형태 (Distribution Shape): 데이터가 퍼진 모양
  • 산포 (Dispersion): 데이터가 흩어진 정도

예시
정확한 점수는 모르지만 “중간 점수대에 몰림” 확인 가능


그리고 도수분포표에서 구한 평균은 자료의 대략적인 평균을 나타내는 것으로 실제 평균과는 다를 수 있음을 주의하자.

도수분포표로 계산한 평균은 정확한 값이 아니라 근사값이라는 뜻이다.


계급값은 실제 데이터가 아니라 대표값이기 때문에, 이를 이용해 계산한 평균은 실제 평균과 차이가 발생할 수 있다. 특히 구간이 넓을수록 오차가 커질 수 있기 때문에, 이를 인지하고 해석해야 한다.

  • 근사값 (Approximation): 실제 값과 유사하지만 정확하지 않은 값
  • 실제 평균 (True Mean): 원본 데이터를 이용해 계산한 정확한 평균

예시
실제 평균 52 → 도수표 평균 50


또한 도수분포표를 히스토그램으로 시각화하여 각 구간별 빈도수를 직관적으로 비교할 수도 있다.

도수분포표를 그래프로 표현하면 히스토그램이 되고, 이를 통해 데이터를 더 쉽게 비교할 수 있다


표는 숫자 중심이라 직관성이 떨어질 수 있지만, 그래프로 표현하면 높이 차이를 통해 분포를 한눈에 파악할 수 있다. 특히 어느 구간에 데이터가 많은지, 치우침이 있는지 등을 빠르게 이해할 수 있기 때문에 시각화는 매우 중요한 단계이다.

  • 히스토그램 (Histogram): 구간별 도수를 막대그래프로 나타낸 것
  • 시각화 (Visualization): 데이터를 그림이나 그래프로 표현하는 것

예시
막대그래프로 20~30 구간이 가장 높게 표시됨

 


교차표 = 분할표 

범주형 변수를 교차시켜 빈도 수를 표시한 표를 분할표 또는 교차표라 하며 각 범주에 교차되는 부분을 칸(Cell)이라고 한다.

범주형 변수 두 개 이상을 서로 조합하여 각 조합별로 몇 개가 있는지를 정리한 표를 교차표라고 하며, 그 표에서 각각의 값이 들어가는 한 칸을 셀이라고 부른다


범주형 변수는 숫자처럼 직접 계산이 어려운 대신 “조합별 빈도”를 통해 관계를 파악해야 한다. 따라서 두 변수의 모든 경우의 수를 교차시켜 각 경우가 몇 번 발생했는지 정리하면 관계를 직관적으로 이해할 수 있다. 이때 각 조합이 들어가는 최소 단위 공간이 필요하며, 그 단위를 셀이라고 정의하는 것이다. 즉, 분석의 기본 단위가 셀이기 때문에 개념적으로 매우 중요하다.

  • 교차표 (Contingency Table): 두 개 이상의 범주형 변수의 조합별 빈도를 정리한 표
  • 분할표: 데이터를 나누어 교차시킨 표라는 의미
  • 칸 / 셀 (Cell): 교차표에서 하나의 조합에 해당하는 위치

예시
성별 × 구매여부
→ (남자, 구매) = 하나의 Cell


관측값을 몇 개의 범주로 분할하여 그 해당 도수(빈도 수)로 자료를 정리하기 때문에 비율(상대도수) 등으로 연관성 비교가 가능하다.

데이터를 범주로 나눈 후 각 범주별 개수를 세기 때문에, 단순 개수뿐 아니라 비율을 이용해 변수 간 관계를 비교할 수 있다


단순히 개수만 보면 데이터 크기가 다를 때 비교가 어렵기 때문에 비율로 변환해야 공정한 비교가 가능하다. 상대도수를 사용하면 각 범주가 전체에서 차지하는 비중을 알 수 있어 두 변수 간의 연관성을 명확하게 판단할 수 있다. 즉, 단순 빈도보다 비율이 더 중요한 이유는 비교 가능성과 해석력을 높이기 때문이다.

  • 관측값 (Observed Value): 실제로 측정된 데이터 값
  • 도수 (Frequency): 특정 범주에 속한 데이터 개수
  • 상대도수 (Relative Frequency): 전체 대비 비율

예시
남자 100명 중 50명 구매 → 50%
여자 50명 중 25명 구매 → 50%
→ 비율로 비교 가능


각 범주에 대해 데이터의 관측도수(빈도)를 나타낸 교차표의 종류는 범주형 변수의 개수가 1개일 때는 일원교차표, 범주형 변수 개수가 2개이면 이원교차표, 범주형 변수 개수가 3개 이상일 경우 다원교차표로 구분한다.

교차표는 포함된 범주형 변수의 개수에 따라 1개면 일원, 2개면 이원, 3개 이상이면 다원으로 구분된다


변수 개수가 늘어나면 분석 구조가 복잡해지기 때문에 이를 구분하여 이해해야 한다. 하나의 변수만 보면 단순 분포 분석이고, 두 개면 관계 분석, 세 개 이상이면 다차원 관계 분석이 된다. 즉, 변수 개수에 따라 분석 목적과 해석 방식이 달라지기 때문에 구분이 필요하다.

  • 일원교차표 (One-way Table): 변수 1개의 빈도표
  • 이원교차표 (Two-way Table): 변수 2개의 관계를 나타낸 표
  • 다원교차표 (Multi-way Table): 변수 3개 이상 관계를 나타낸 표

예시

  • 일원: 성별 분포
  • 이원: 성별 × 구매
  • 다원: 성별 × 구매 × 연령

일반적으로 행에 중요한 관심포인트를 두고 설계하기 때문에 독립변수를 행에 위치시키고 종속변수는 열에 위치시켜 행을 기준으로 전체(100)가 표현되도록 작성한다.

보통 교차표를 만들 때 독립변수는 행에, 종속변수는 열에 두고, 행 기준으로 비율이 100%가 되도록 만든다


분석에서는 “원인이 결과에 어떤 영향을 주는가”를 보는 것이 중요하기 때문에 독립변수를 기준으로 보는 것이 해석이 쉽다. 행 기준으로 100%를 맞추면 각 독립변수 범주 내에서 결과가 어떻게 분포하는지 직관적으로 비교할 수 있다. 즉, 행 중심 구조는 인과 관계 해석을 쉽게 만들기 위한 설계 방식이다.

  • 독립변수 (Independent Variable): 원인 역할을 하는 변수
  • 종속변수 (Dependent Variable): 결과로 나타나는 변수
  • 행(Row): 가로 방향 데이터 배열
  • 열(Column): 세로 방향 데이터 배열

예시
행: 성별 / 열: 구매
→ 남자 기준 100%에서 구매 비율 확인


범주형 변수에 대해 교차표의 관찰도수를 이용하여 상대적 위험도(Relative Risk)와 승산비(Odds Ratio) 분석에 활용할 수 있으며, 관측도수와 기대도수를 교차표에 작성하여 교차분석을 수행할 수 있다.

교차표에 있는 실제 데이터 개수를 이용해 상대적 위험도와 승산비를 계산할 수 있고, 기대값과 비교하여 통계적 분석도 가능하다


단순 빈도만으로는 관계의 강도를 정확히 판단하기 어렵기 때문에, 상대적 위험도와 승산비 같은 지표를 통해 영향력의 크기를 정량적으로 평가한다. 또한 기대도수와 관측도수를 비교하면 두 변수 간 독립 여부를 판단할 수 있어 카이제곱 검정 같은 통계 분석이 가능해진다. 즉, 교차표는 단순 정리표가 아니라 통계 검정의 핵심 도구이다.

  • 상대적 위험도 (Relative Risk): 한 집단이 다른 집단보다 사건 발생 위험이 얼마나 큰지 나타내는 비율
  • 승산비 (Odds Ratio): 사건 발생 가능성의 비율을 비교하는 지표
  • 관측도수 (Observed Frequency): 실제 데이터에서 관측된 값
  • 기대도수 (Expected Frequency): 이론적으로 예상되는 값
  • 교차분석 (Cross-tab Analysis): 교차표를 이용한 통계 분석

예시
흡연자 vs 비흡연자 → 폐암 발생 비율 비교 (RR, OR 계산)


상대적 위험도 (RR)

상대적 위험도는 관심 집단의 위험률과 비교 집단의 위험률(확률)에 대한 비(Ratio)를 의미한다.

상대적 위험도는 특정 집단에서 사건이 발생할 확률과 다른 집단에서 사건이 발생할 확률을 비교하여 얼마나 차이가 나는지를 비율로 나타낸 값이다.


단순히 한 집단의 위험률만 보면 그 값이 높은지 낮은지 판단하기 어렵기 때문에 반드시 비교 대상이 필요하다. 상대적 위험도는 두 집단을 기준으로 위험을 비교하여 특정 요인이 실제로 위험을 증가시키는지 감소시키는지 판단할 수 있게 해준다. 즉, 절대값이 아니라 상대적 비교를 통해 의미를 해석하기 위한 지표이기 때문에 사용된다.

  • 상대적 위험도 (Relative Risk): 두 집단 간 사건 발생 확률의 비율
  • 위험률 (Risk / Probability): 특정 사건이 발생할 확률
  • 비 (Ratio): 두 값의 크기를 비교한 값

예시
흡연자 암 발생 확률 0.6 / 비흡연자 0.3 → RR = 2


코호트연구(특정 집단을 특정 기간 동안 관찰하는 분석 방법)의 경우 아직 질환이 발생되지 않은 모집단을 위험인자(요인)에 노출된 집단과 위험인자(요인)에 노출되지 않은 집단으로 구분하여 추적 관찰한다(시간적 개념이 포함됨).

코호트 연구는 아직 질병이 없는 사람들을 두 그룹(노출/비노출)으로 나누고, 시간이 지나면서 질병 발생 여부를 관찰하는 연구 방법이다.


질병이 이미 발생한 상태에서는 원인과 결과를 명확히 구분하기 어렵기 때문에, 처음부터 질병이 없는 상태에서 시작하여 시간의 흐름에 따라 변화 과정을 관찰해야 한다. 이렇게 하면 특정 요인이 실제로 질병 발생에 영향을 주었는지 인과관계를 더 정확하게 파악할 수 있다. 즉, 시간 흐름을 포함한 관찰이 원인-결과 관계를 분석하는 핵심이다.

  • 코호트 연구 (Cohort Study): 특정 집단을 시간에 따라 추적 관찰하는 연구
  • 모집단 (Population): 연구 대상 전체 집단
  • 위험인자 (Risk Factor): 질병 발생에 영향을 줄 수 있는 요인

예시
흡연자 vs 비흡연자를 10년 동안 추적 → 암 발생 여부 비교


그러므로 위험인자 노출 모집단과 비노출 모집단을 파악할 수 있고, 이에 따라 상대적 위험도를 이용해 위험인자와 질병 발생 간의 확률의 비로 연관성을 추정할 수 있다.

그래서 노출된 그룹과 노출되지 않은 그룹을 구분할 수 있고, 상대적 위험도를 통해 두 그룹 간 질병 발생 차이를 분석할 수 있다


두 집단이 명확히 나뉘어야 비교가 가능하며, 그 비교를 통해 특정 요인이 실제로 영향을 주는지 판단할 수 있다. 상대적 위험도는 단순 차이가 아니라 “몇 배 차이”인지 보여주기 때문에 영향력의 크기를 직관적으로 이해할 수 있다. 따라서 인과관계 또는 연관성을 추정하는 데 매우 중요한 지표이다.

  • 노출 (Exposure): 특정 위험 요인에 영향을 받는 상태
  • 연관성 (Association): 두 변수 간 관계의 존재 여부

예시
흡연자 RR=2 → 비흡연자보다 2배 위험


상대적 위험도 RR(Relative Risk) = 위험인자에 노출된 집단에서 질병이 발생할 위험률(비교집단) / 위험인자에 노출되지 않은 집단에서 질병이 발생할 위험률(관심집단).

상대적 위험도는 노출된 집단의 질병 발생 확률을 비노출 집단의 질병 발생 확률로 나눈 값이다.


기준이 되는 집단(비노출)을 기준으로 삼아야 노출된 집단의 위험이 얼마나 증가하거나 감소했는지 비교할 수 있다. 이 비율 구조를 통해 위험이 몇 배인지 직관적으로 표현할 수 있으며, 절대값보다 훨씬 해석이 명확해진다. 따라서 두 집단의 비교를 위한 가장 핵심적인 수식이다.

  • RR (Relative Risk): 상대적 위험도 약어
  • 분자 (Numerator): 위쪽 값 (노출 집단)
  • 분모 (Denominator): 아래 값 (비노출 집단)

예시
(흡연자 암 확률 0.6) / (비흡연자 0.3) = 2


RR=1 

요인에 노출되었을 때의 위험과 노출되지 않았을 때의 위험이 같음(영향 무).

RR이 1이면 두 집단의 위험이 동일하다는 뜻이다.


비율이 1이라는 것은 분자와 분모가 같다는 의미이므로, 노출 여부가 결과에 영향을 주지 않았다는 뜻이다. 즉, 특정 요인이 있어도 없어도 결과가 동일하게 발생하므로 해당 요인은 위험 요인이 아니라고 판단할 수 있다.

  • RR=1: 두 집단 위험 동일 상태
  • 영향 무 (No Effect): 영향이 없는 상태

예시
흡연자 20%, 비흡연자 20% → RR=1


RR > 1

요인에 노출되었을 때 질병 발생할 위험이 더 높아짐.

RR이 1보다 크면 노출된 집단이 더 위험하다는 뜻이다.


분자가 분모보다 크다는 의미이므로, 노출된 집단에서 사건 발생 확률이 더 높다는 뜻이다. 따라서 해당 요인은 위험을 증가시키는 요인으로 해석되며, 위험인자로 판단된다. 이때 값이 클수록 영향력이 크다.

  • RR>1: 위험 증가 상태
  • 위험 증가 (Increased Risk): 사건 발생 확률 상승

예시
RR=2 → 2배 위험


RR < 1

요인에 노출되었을 때 질병 발생할 위험이 더 낮아짐.

RR이 1보다 작으면 노출된 집단이 더 안전하다는 뜻이다.


분자가 분모보다 작다는 의미이므로, 노출된 집단에서 사건 발생 확률이 더 낮다. 따라서 해당 요인은 위험을 줄이는 보호 요인으로 해석되며, 예방 효과가 있는 변수로 판단된다.

  • RR<1: 위험 감소 상태
  • 보호요인 (Protective Factor): 위험을 줄이는 요인

예시
RR=0.5 → 위험 절반


상대적 위험도 사례
위험인자 : 흡연 여부(흡연자, 비흡연자)
위험:암 발생 여부(유, 무).

흡연자 중 암에 걸린 확률 : 30/40
비흡연자 중 암에 걸린 확률 : 10/20
두 그룹의 상대적 위험도(RR) : (30/40) /(10/20) = 1.5

흡연자(위험인자)는 비흡연자(위험인자)에 비해 암(위험)에 걸릴 확률이 1.5배 높음.

흡연자와 비흡연자의 암 발생 확률을 비교했을 때, 흡연자가 1.5배 더 위험하다는 것을 보여주는 사례이다.


실제 데이터를 이용해 계산하면 상대적 위험도의 의미를 직관적으로 이해할 수 있다. 단순히 “높다”가 아니라 “몇 배 높은지”를 수치로 표현함으로써 위험 요인의 영향력을 명확하게 해석할 수 있다. 이는 통계 분석에서 매우 중요한 해석 방식이다.

  • 위험인자: 질병 발생을 증가시키는 요인
  • 확률 (Probability): 사건 발생 가능성
  • 배수 (Multiple): 몇 배 차이인지 나타내는 값

예시
흡연자 75%, 비흡연자 50% → RR = 1.5


오즈비

오즈(Odds, 승산)는 어떤 사건이 일어날 확률을 그 사건이 일어나지 않을 확률로 나눈 값으로 특정 사건이 발생할 확률에 대한 그 사건이 발생하지 않을 확률의 비율이다.

오즈는 어떤 사건이 발생할 확률을 그 사건이 발생하지 않을 확률로 나눈 값으로, 성공과 실패를 비교한 비율이다.


확률만 보면 사건의 절대적인 가능성만 알 수 있지만, 오즈는 성공과 실패를 직접 비교하기 때문에 상대적인 강도를 더 명확하게 표현할 수 있다. 특히 통계 모델(로지스틱 회귀 등)에서는 확률보다 오즈가 선형적으로 다루기 쉬워 분석에 더 적합하다. 즉, 사건 발생의 “비교적 강도”를 표현하기 위해 사용하는 개념이다.

  • 오즈 (Odds): 성공 확률 대비 실패 확률의 비율
  • 확률 (Probability): 사건이 발생할 가능성
  • 비율 (Ratio): 두 값의 상대적 크기

예시
확률 0.75 → 오즈 = 0.75 / 0.25 = 3


즉, 성공할 확률이 실패할 확률의 몇 배인지를 나타낸다.

오즈는 성공이 실패보다 몇 배 더 많이 발생하는지를 나타내는 값이다.


단순 확률은 “얼마나 발생하는지”만 보여주지만, 오즈는 “실패 대비 얼마나 더 많은지”를 보여준다. 이는 사건 간 비교를 더 직관적으로 만들어주며, 특히 두 사건 간의 상대적 차이를 분석할 때 유용하다. 즉, 성공과 실패의 상대적인 크기를 강조하기 위한 표현 방식이다.

  • 성공 (Success): 관심 있는 사건 발생
  • 실패 (Failure): 사건이 발생하지 않음

예시
성공 80%, 실패 20% → 오즈 = 4배


예를 들어, 5번 게임을 해서 1번 이기고 4번 졌을 때의 오즈(승산)는 1/4이 된다.

5번 중 1번 성공, 4번 실패하면 성공 대비 실패 비율이 1:4이므로 오즈는 1/4이다.


오즈는 성공/실패 구조이기 때문에 단순히 성공 횟수를 실패 횟수로 나누면 된다. 즉, 성공 확률이 아니라 실패와의 비교 비율이기 때문에 이렇게 계산하는 것이다. 이는 오즈 정의 그대로 적용된 계산 방식이다.

  • 승산 (Odds): 성공 대비 실패 비율
  • 비율 계산: 성공 횟수 ÷ 실패 횟수

예시
성공 2, 실패 8 → 오즈 = 2/8 = 0.25


오즈비(Odds Ratio, 승산비)는 한 범주의 오즈1(Odds1)을 다른 범주의 오즈2(Odds2)로 나눠준 값이며, 오즈의 각 범주별 비율로 정의된다.

오즈비는 두 집단의 오즈를 서로 나눈 값으로, 두 집단 간 사건 발생 차이를 비교하는 지표이다.


단순 오즈만 보면 한 집단의 특성만 알 수 있기 때문에 비교가 어렵다. 오즈비를 사용하면 두 집단 간의 차이를 “몇 배”로 표현할 수 있어 영향력의 크기를 직관적으로 이해할 수 있다. 특히 사례-대조군 연구에서는 확률 대신 오즈비를 사용해야 하므로 매우 중요한 개념이다.

  • 오즈비 (Odds Ratio): 두 집단 오즈의 비율
  • Odds1, Odds2: 각 집단의 오즈 값

예시
A집단 오즈 4, B집단 오즈 2 → OR = 2


예를 들어, 환자-대조군 연구는 이미 질환이 발생한 환자군과 질환이 발생하지 않은 대조군을 모집한 후 위험인자 노출 여부(특정 시점에서의 결과)를 조사하여 위험인자와 질환 발생 간의 연관성을 추정한다.

환자-대조군 연구는 질병이 있는 사람과 없는 사람을 먼저 나누고, 과거 노출 여부를 조사하는 연구 방법이다.


이 연구는 이미 결과(질병 발생)가 나온 상태에서 시작하기 때문에 시간 흐름을 추적하는 것이 아니라 과거를 거슬러 올라가 원인을 찾는다. 따라서 확률 계산이 아니라 오즈 기반 분석이 필요하다. 즉, 결과 → 원인 방향 분석이기 때문에 오즈비를 사용한다.

  • 환자-대조군 연구 (Case-Control Study): 결과 기준으로 집단을 나누는 연구
  • 대조군 (Control Group): 질병이 없는 비교 집단

예시
암 환자 vs 정상인 → 과거 흡연 여부 조사


이러한 경우에는 위험인자에 노출된 전체 모집단과 노출되지 않은 전체 모집단을 파악할 수 없으므로(특정 시점에서의 집단 수만 파악할 수 있기 때문에) 오즈비를 사용할 수밖에 없는 것이다.

전체 모집단 정보를 알 수 없기 때문에 상대적 위험도 대신 오즈비를 사용해야 한다


상대적 위험도는 전체 모집단 기준 확률이 필요하지만, 환자-대조군 연구에서는 전체 모집단을 알 수 없다. 즉, 확률 계산이 불가능하므로 대신 오즈를 이용한 비율 비교를 사용해야 한다. 이는 데이터 구조상 선택이 아니라 필수적인 방법이다.

  • 모집단 (Population): 전체 대상 집단
  • 상대적 위험도 (Relative Risk): 확률 기반 비교 지표

예시
환자 100명, 정상 100명 → 전체 비율 모름 → OR 사용


오즈비 사례 위험인자 : 흡연 여부(흡연자, 비흡연자)
위험: 암 발생 여부(유, 무)

흡연자 중 암에 걸린 확률 : 30/40
흡연자 중 암에 걸리지 않을 확률 10/40
비흡연자 중 암에 걸린 확률 : 10/20
비흡연자 중 암에 걸리지 않을 확률 : 10/20

흡연자 오즈 Odds1 = (30/40) / (10/40) = 3
비흡연자 오즈 : Odds2 = (10/20)/(10/20) =1
오즈비(Odds Ratio) = 3/1 = 3

흡연자(위험인자)는 비흡연자(위험인자)에 비해 3배 정도 더 암(위험)에 걸리는 경향을 보임.

흡연자와 비흡연자의 오즈를 계산하고 이를 비교했을 때, 흡연자가 암에 걸릴 가능성이 3배 높다는 것을 보여주는 사례이다.


확률이 아닌 오즈를 이용하면 두 집단의 차이를 더 명확하게 비교할 수 있다. 특히 오즈비는 “몇 배 차이”를 직관적으로 보여주기 때문에 영향력을 이해하기 쉽다. 이 사례는 오즈 → 오즈비 계산 흐름을 이해하기 위한 대표적인 예이다.

  • Odds1, Odds2: 각 집단의 오즈
  • OR (Odds Ratio): 오즈비

예시
오즈 6 vs 2 → OR = 3


두 집단 간 성공 확률의 차이(A진단 - B진단)가 아닌 비율로 다루는 이유는 단위에 상관없이 나타내기 위함이다.

확률 차이가 아니라 비율을 사용하는 이유는 단위나 크기에 영향을 받지 않기 위해서이다.


확률 차이는 데이터 크기에 따라 값이 달라지기 때문에 비교가 왜곡될 수 있다. 반면 비율은 상대적인 비교이기 때문에 데이터 크기와 무관하게 동일한 의미를 유지한다. 따라서 분석의 일관성과 일반성을 확보하기 위해 비율을 사용하는 것이다.

  • 비율 (Ratio): 두 값의 상대적 비교
  • 단위 (Scale): 데이터 크기 기준

예시
0.1 vs 0.05 → 차이 0.05
0.5 vs 0.25 → 차이 0.25
→ 비율은 둘 다 2배


만약, 두 집단 중 A진단의 확률이 각각 P_1 = 0.04, P_2 =0.01 안 경우와 B집단의 확률이 각각 P_1=0.4, P_2 = 0.1인 경우가 있다고 가정하자.

두 집단에서 확률 값이 다르게 주어진 상황을 가정한 것이다.


확률 차이와 비율 차이를 비교하기 위한 예시를 만들기 위해 두 가지 경우를 설정한 것이다. 이를 통해 왜 비율이 더 중요한지 설명하려는 목적이다.

  • P₁, P₂: 각각의 확률 값
  • 확률 값: 사건 발생 가능성 수치

예시
A: 0.04 vs 0.01
B: 0.4 vs 0.1


A집단의 확률 차이는 0.03이고 B집단의 확률 차이는 0.3이니, 수치적으로 봤을 때 A집단(차이 0.03)의 차이가 작다고 볼 수 있다.

확률 차이만 보면 A집단은 작은 차이, B집단은 큰 차이로 보인다


절대적인 차이값은 데이터 크기에 영향을 받기 때문에 실제 의미를 왜곡할 수 있다. 즉, 단순 차이만 보면 B집단이 더 큰 차이를 가지는 것처럼 보이지만, 이는 상대적인 비교가 아닌 절대값 비교이기 때문에 정확한 해석이 아니다.

  • 확률 차이: 두 확률의 단순 뺄셈
  • 절대값 비교: 크기만 비교하는 방식

예시
0.3 > 0.03 → B가 더 커 보임


하지만, 비율로 구했을 때 두 집단의 화률 비는 1/4로 동일하다.

비율로 보면 두 집단 모두 동일한 관계를 가진다


비율은 상대적인 관계를 나타내기 때문에 데이터 크기와 무관하게 동일한 구조를 유지한다. 따라서 두 집단 모두 같은 비율을 가지므로 실제로는 동일한 수준의 차이라고 해석할 수 있다.

  • 비율 비교: 상대적 크기 비교
  • 동일 비율: 같은 관계 구조

예시
0.04/0.01 = 4
0.4/0.1 = 4


따라서, 단 위에 상관없이 차이를 보기 위해 비율을 사용한다.

그래서 데이터 크기와 상관없이 비교하기 위해 비율을 사용한다


분석에서 중요한 것은 절대적인 크기가 아니라 상대적인 관계이기 때문이다. 비율을 사용하면 서로 다른 규모의 데이터도 동일한 기준으로 비교할 수 있어 해석이 일관되게 유지된다. 따라서 통계에서는 비율 기반 비교가 핵심이다.

  • 단위 무관 (Scale-free): 데이터 크기와 관계없이 비교 가능
  • 비율 기반 분석: 상대적 비교 중심 분석

예시
작은 데이터 vs 큰 데이터 → 둘 다 2배면 동일 의미


적합도 검정 

적합도 검정은 하나의 범주형 변수에 대해 관측값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 방법이며, 실제 표본이 한 범주형 변수의 각 그룹(집단)별 비율이 특정 비율과 동일한지 검정한다.

적합도 검정은 하나의 범주형 변수에서 실제 데이터가 어떤 이론적으로 기대되는 분포와 같은지 확인하는 통계적 방법이다.


데이터가 특정 이론(예: 균등분포, 특정 비율)을 따른다고 가정했을 때, 실제 관측값이 그 가정과 얼마나 일치하는지 확인해야 한다. 만약 이 검정을 하지 않으면 우리가 세운 가정이 맞는지 틀린지 판단할 수 없다. 즉, 이론과 실제 데이터가 일치하는지 검증하기 위해 반드시 필요한 절차이며, 모델의 타당성을 확인하는 핵심 단계이다.

  • 적합도 검정 (Goodness of Fit Test): 데이터가 특정 분포를 따르는지 검정하는 방법
  • 관측값 (Observed Value): 실제 측정된 데이터
  • 이론적 분포 (Theoretical Distribution): 가정된 확률 분포

예시
주사위가 공정하다면 각 면이 1/6 → 실제 결과가 1/6인지 검정


관측도수와 기대도수가 차이가 적으면 카이제곱통계량의 값이 작아지고, 가정된 분포에 적합해지며, 관측도수와 기대도수 차이가 크면 카이제곱통계량 값이 크게 되어 적합도가 떨어진다.

실제 데이터와 기대값의 차이가 작으면 카이제곱 값이 작고 잘 맞는 것이고, 차이가 크면 카이제곱 값이 커지고 잘 맞지 않는다는 뜻이다.


카이제곱 통계량은 관측값과 기대값의 차이를 제곱하여 합한 값이기 때문에, 차이가 클수록 값이 급격히 증가한다. 따라서 값이 작으면 두 값이 비슷하다는 의미이고, 값이 크면 차이가 크다는 의미이다. 이 구조를 통해 데이터가 가정된 분포를 따르는지 판단할 수 있으며, 결국 적합도 판단의 기준이 된다.

  • 관측도수 (Observed Frequency): 실제 데이터에서 얻은 빈도
  • 기대도수 (Expected Frequency): 이론적으로 기대되는 빈도
  • 카이제곱통계량 (Chi-square Statistic): 관측값과 기대값 차이를 측정하는 통계량

예시
기대 10, 실제 11 → 차이 작음 → 적합
기대 10, 실제 30 → 차이 큼 → 부적합


k개의 범주를 포함하는 실험에서, 교차표를 사용하여 관측도수와 기대도수 사이의

적합도 검정 절차 1) 교차표 작성구분. 2) 귀무가설. 3) 검정통계량. 4)가설 검정, 유의수준 기각역. 5) 유의성 검정(p값 사용).

여러 범주가 있는 경우 교차표를 이용하여 적합도 검정을 수행하며, 그 과정은 교차표 작성부터 가설 검정까지 단계적으로 진행된다는 뜻이다.


통계 검정은 단순 계산이 아니라 체계적인 절차를 따라야 신뢰할 수 있는 결과를 얻을 수 있다. 교차표를 통해 데이터를 정리하고, 귀무가설을 설정한 뒤, 검정통계량을 계산하고, 유의수준과 p값을 통해 판단하는 과정은 통계적 의사결정의 표준 절차이다. 이 과정을 생략하면 분석 결과의 타당성을 보장할 수 없기 때문에 반드시 순서대로 수행해야 한다.

  • k개 범주 (k Categories): 분석 대상이 되는 범주의 개수
  • 교차표 (Contingency Table): 범주별 빈도를 정리한 표
  • 귀무가설 (Null Hypothesis, H0): 차이가 없다고 가정하는 가설
  • 검정통계량 (Test Statistic): 검정을 위한 계산 값
  • 유의수준 (Significance Level, α): 기각 기준 확률
  • 기각역 (Rejection Region): 귀무가설을 기각하는 영역
  • p값 (p-value): 관측 결과가 나올 확률

예시
주사위 검정 절차

  1. 도수표 작성
  2. H0: 공정하다
  3. 카이제곱 계산
  4. 임계값 비교
  5. p값으로 판단

 

어느 회사에서 3교대 근무를 한다. 각 교대조마다 매일 불량수를 조사해 본 결과 다음과 같은 결과를 얻었다. 불량수가 발생하는 것은 교대조에 따라 차이가 있다고 말할 수 있는지 검정하라(유의수준 α = 0.05).

3개의 교대조(1조, 2조, 3조)가 있고, 각 조에서 발생한 불량 수를 비교하여 차이가 있는지를 통계적으로 판단하는 문제


이 문제는 “교대조에 따라 불량이 다르게 발생하는지”를 보는 것이므로, 결국 각 그룹의 비율이 같은지 다른지를 확인해야 한다. 따라서 이는 하나의 범주형 변수(교대조)에 대한 분포가 동일한지 보는 적합도 검정 문제이다. 즉, “세 그룹이 동일한 비율인지”를 검정하는 것이다.

  • 유의수준 (Significance Level, α): 기각 기준 확률
  • 검정 (Test): 가설이 맞는지 판단하는 과정

예시
1조, 2조, 3조 불량률이 동일한지 확인


관측도수 : 23, 18, 37 (합계 78)

각 교대조에서 실제로 관측된 불량 개수이다.


통계 검정에서는 반드시 “실제 데이터”가 필요하며, 이 값이 기준이 된다. 이후 이 값을 기대값과 비교하여 차이를 분석한다. 즉, 관측도수는 검정의 출발점이다.

  • 관측도수 (Observed Frequency): 실제 측정된 데이터 개수

예시
1조 23개, 2조 18개, 3조 37개


기대도수 : 26, 26, 26 (N/k = 78/3 = 26)

세 그룹이 동일하다면 각 그룹은 26개씩 나와야 한다는 기대값이다.


귀무가설이 “차이가 없다”이므로, 모든 그룹이 동일한 비율을 가져야 한다. 따라서 전체를 균등하게 나누어 기대값을 계산한다. 이것이 적합도 검정의 핵심이다.

  • 기대도수 (Expected Frequency): 이론적으로 기대되는 값
  • N/k: 전체 개수 ÷ 그룹 수

예시
78개를 3개 그룹으로 나눔 → 26, 26, 26


귀무가설(H0) : 교대조에 의해서 불량수가 발생하는 것은 차이가 없다.

세 교대조는 동일한 불량 발생 비율을 가진다는 가설이다.


통계 검정은 기본적으로 “차이가 없다”를 기준으로 시작한다. 이후 데이터를 통해 이 가설이 틀렸는지를 판단한다. 즉, 귀무가설은 비교의 기준점이다.

  • 귀무가설 (Null Hypothesis): 차이가 없다고 가정하는 가설

예시
1조 = 2조 = 3조


검정통계량 χ² = ((23-26)²/26) + ((18-26)²/26) + ((37-26)²/26) = 7.462

관측값과 기대값의 차이를 계산하여 하나의 값(카이제곱 값)으로 만든 것이다.


각 그룹의 차이를 단순히 더하면 의미가 없기 때문에, 차이를 제곱하여 크기를 반영하고 기대값으로 나누어 표준화한다. 이렇게 하면 전체 데이터의 “차이 정도”를 하나의 값으로 표현할 수 있다.

  • χ² (Chi-square): 카이제곱 통계량
  • (O - E)² / E: 관측값과 기대값 차이 계산식

예시 계산

  • 1조: (23-26)² / 26 = 9/26
  • 2조: (18-26)² / 26 = 64/26
  • 3조: (37-26)² / 26 = 121/26
    → 합 = 7.462

기각역 χ²(3-1, 0.05) = 5.991

자유도 2에서 유의수준 0.05 기준의 임계값이다.


검정통계량이 이 값보다 크면 “차이가 크다”고 판단하고 귀무가설을 기각한다. 즉, 판단 기준이 되는 경계값이다.

  • 자유도 (df): k-1 → 3-1=2
  • 기각역 (Critical Value): 가설을 기각하는 기준값

예시
df=2 → 임계값 5.991


검정통계량 χ² = 7.462 ≥ 5.991 → 귀무가설 기각

계산된 값이 기준보다 크므로 가설을 기각한다는 뜻이다.


차이가 충분히 크기 때문에 우연이라고 보기 어렵다. 즉, 실제로 차이가 존재한다고 판단한다.

  • 기각 (Reject): 가설을 버림

예시
7.462 > 5.991 → 기각


유의확률 P값 = 0.024 < 0.05 → 귀무가설 기각

p값 기준으로도 귀무가설이 기각된다는 뜻이다.


p값은 “이 결과가 우연일 확률”인데, 이 값이 유의수준보다 작으면 우연이 아니라는 의미이다. 따라서 가설을 기각한다.

  • p값 (p-value): 우연히 나올 확률

예시
0.024 < 0.05 → 기각


결론 

교대조에 따라 불량수 발생은 차이가 있다


독립성 검정 

독립성 검정(Test of Independence)

두 개의 범주형 변수 사이에 서로 영향을 주는 관계가 있는지 없는지를 통계적으로 확인하는 방법이다.


데이터 분석에서는 두 변수 간에 관계가 있는지 확인하는 것이 중요하다. 만약 관계가 있다면 한 변수의 변화가 다른 변수에 영향을 준다는 의미이고, 없다면 서로 독립적으로 움직인다는 의미이다. 이를 통해 변수 간 인과관계 또는 연관성을 판단할 수 있기 때문에 독립성 검정이 필요하다.

  • 독립성 (Independence): 두 변수 간 서로 영향이 없는 상태
  • 검정 (Test): 가설이 맞는지 판단하는 과정

예시
성별과 흡연 여부가 관련 있는지 확인


독립성 검정은 두 개의 범주형 변수에 대해 관측값들이 다수의 인자(집단)들에 의해 분할되어 있는 경우 그 인자(집단)들의 관찰값에 영향을 주고 있는지 아닌지를 검정하는 방법이다(연속형 변수들 사이의 관계 : 상관관계 분석, 범주형 변수와의 관계 : 독립성 검정).

두 개의 범주형 변수에서 데이터가 여러 집단으로 나뉘어 있을 때, 이 집단들이 서로 영향을 주는지 확인하는 방법이다.


연속형 변수는 상관계수를 통해 관계를 분석하지만, 범주형 변수는 수치 비교가 어려워 빈도 기반으로 관계를 분석해야 한다. 따라서 교차표를 통해 두 변수의 관계를 파악하고, 통계적으로 유의한 차이가 있는지 확인하기 위해 독립성 검정을 수행한다.

  • 범주형 변수 (Categorical Variable): 값이 그룹으로 나뉘는 변수
  • 상관관계 (Correlation): 두 변수 간 선형 관계

예시
정당(A/B)과 찬성 여부(찬성/반대)의 관계


교차분석의 종류

적합도 검정

관측값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 방법

데이터가 특정 분포(이론)를 따르는지 확인하는 방법이다.


이론적으로 기대되는 분포와 실제 데이터가 일치하는지 확인해야 모델이나 가정이 맞는지 판단할 수 있다.

  • 이론적 분포: 가정된 확률 구조

예시
주사위가 공정한지 확인


독립성 검정 

실험 결과를 측정하여 관측값들이 집단들에 의해 분할되어 있는 경우 그 집단들의 관찰값에 영향을 주고 있는지 아닌지를 검정하는 방법

두 변수 간 관계(영향 여부)를 검정하는 것이다.


한 변수의 값이 다른 변수에 영향을 주는지 확인해야 실제 관계를 파악할 수 있다.

  • 영향 (Effect): 한 변수의 변화가 다른 변수에 미치는 변화

예시
성별 → 흡연 여부 영향


동질성 검정 

각 집단들에 대해 정해진 표본의 크기만큼 자료를 추출한 후, 각 집단 간의 비율이 동일한가를 검정하는 방법

여러 집단 간 비율이 같은지 비교하는 방법이다.


집단 간 차이가 있는지 확인하기 위해 동일 조건에서 비교해야 하기 때문이다.

  • 동질성 검정 (Homogeneity Test): 집단 간 동일성 검정

예시
남녀 흡연율 동일한지


차이

적합도: 변수 1개
독립성: 변수 2개 관계
동질성: 집단 간 비율 비교


독립성 검정 절차


교차표 작성 

(행이 r개, 열이 c개인 r×c 교차표)

행과 열로 이루어진 표에서 데이터를 정리한다.


두 변수의 조합을 표현하기 위해 표 형태가 필요하다.

  • r×c 표: 행 r개, 열 c개 구조

예시
성별(2) × 흡연(2) → 2×2


기대도수(eij) : i행과 j열 도수의 기대값 = (행합계×열합계)/총합계

각 셀에서 기대되는 값은 행과 열 비율을 곱해서 계산한다.


두 변수가 독립이라면 각 셀 값은 행과 열 비율의 곱으로 결정되기 때문이다. 즉, 독립 가정 하에서 예상되는 값을 계산하는 공식이다.

  • 기대도수 (Expected Frequency): 독립 가정에서의 예상값

예시
행합 20, 열합 30, 전체 100 → 6


귀무가설 _독립성 검정 

귀무가설 H0 : 두 변수는 독립관계이다(연관이 없다)

두 변수는 서로 영향을 주지 않는다는 가설이다.


기본적으로 “차이 없음”을 기준으로 시작해야 통계적으로 검정이 가능하다.

  • 독립: 서로 영향 없음

예시

성별 ↔ 흡연 무관

 

대립가설 H1 : 두 변수는 독립이 아니다(연관이 있다)

두 변수는 서로 관계가 있다는 가설이다.


검정의 목적은 이 가설을 증명하는 것이다.

  • 연관성: 관계 존재

예시
성별 → 흡연 영향 있음


검정통계량 

χ² = ΣΣ (Oij - eij)² / eij

관측값과 기대값의 차이를 모두 더한 통계량이다.


전체 셀에서 차이를 종합적으로 평가해야 관계 여부를 판단할 수 있기 때문이다.

  • Oij: 관측값
  • eij: 기대값

예시
각 셀 차이 계산 후 합

 

자유도 v = (r-1)(c-1)

독립적으로 변할 수 있는 값의 개수이다.


행과 열의 합이 고정되어 있기 때문에 일부 값은 자동으로 결정된다. 따라서 전체 셀 중 자유롭게 변할 수 있는 개수는 줄어들며, 그 결과 (r-1)(c-1)이 된다.

  • 자유도 (Degree of Freedom): 독립 정보 개수

예시
2×2 → df=1


가설 검정 _ 유의수준(알파) 기각역 

검정통계량 χ² ≥ 기각역 χ²이면 귀무가설 기각

값이 크면 가설을 버린다.


차이가 크면 우연이 아니라 실제 관계라고 판단하기 때문이다.

  • 기각역: 가설을 버리는 기준

예시
χ²=10 > 5 → 기각


유의성 검정 (p값 사용)

p값 < α이면 귀무가설 기각

p값이 작으면 가설을 기각한다.


우연히 나올 확률이 매우 낮기 때문이다.

  • p값: 우연 확률

예시
0.01 < 0.05 → 기각


독립성 검정 =
“두 범주형 변수 관계 있는지 확인하는 카이제곱 검정”

 


독립성 검정 풀이 

예시 

문제 상황

성별 vs 흡연 여부

  흡연 비흡연 합 계
남자 40 60 100
여자 30 70 100
합계 70 130 200

Step 1: 관측도수 (O)

이미 주어진 값


Step 2: 기대도수 (E) 계산

공식:

E = (행합 × 열합) / 전체합

계산

남자-흡연

(100 × 70) / 200 = 35

남자-비흡연

(100 × 130) / 200 = 65

여자-흡연

(100 × 70) / 200 = 35

여자-비흡연

(100 × 130) / 200 = 65

기대도수 표

 

  흡연 비흡연
남자 35 65
여자 35 65

Step 3: χ² 계산

공식:

χ² = Σ (O - E)² / E

계산

(40-35)²/35 = 25/35
(60-65)²/65 = 25/65
(30-35)²/35 = 25/35
(70-65)²/65 = 25/65

합:

χ² ≈ 0.714 + 0.385 + 0.714 + 0.385 = 2.198

Step 4: 자유도

df = (r-1)(c-1) = (2-1)(2-1) = 1

Step 5: 임계값 비교

df=1, α=0.05 → 3.841


비교:

2.198 < 3.841

결론:
기각 못함 → 독립이다


비교 

구분 적합도 독립성 동질성
변수 개수 1개 2개 2개
목적 분포 맞냐 관계 있냐 비율 같냐
데이터 한 집단 한 표 여러 집단
자유도 k-1 (r-1)(c-1) (r-1)(c-1)

 

 적합도:

  • “비율이 맞냐?”
  • (예: 1/3,1/3,1/3 맞냐)

 독립성:

  • “둘이 관련 있냐?”
  • (예: 성별 ↔ 흡연)

독립성 vs 동질성

계산은 똑같다
차이는 “데이터 구조”

  • 독립성 → 한 집단에서 두 변수
  • 동질성 → 여러 집단 비교

적합도 = “분포 맞냐”
독립성 = “관계 있냐”
동질성 = “비율 같냐”


독립성 검정 사례

  • 변수 1: 학력
    • 고졸, 대졸, 대학원
  • 변수 2: 회사 만족도
    • 만족, 보통, 불만

그리고 묻는 건:

학력과 만족도가 서로 관련이 있냐, 없냐?

 

즉 이건 두 범주형 변수의 관계를 보는 문제니까
카이제곱 독립성 검정 문제.


2. 관측도수표

학력 만족 보통 불만 합계
고졸 40 32 10 82
대졸 92 50 28 170
대학원 16 20 12 48
합계 148 102 50 300

 

이 표의 숫자는 관측도수.
즉, 실제로 조사해서 나온 사람 수.

예를 들어

  • 고졸이면서 만족: 40명
  • 대졸이면서 보통: 50명
  • 대학원이면서 불만: 12명

3. 귀무가설, 대립가설

귀무가설 (H_0)

학력과 만족도는 서로 독립이다.
즉, 관련이 없다.

대립가설 (H_1)

학력과 만족도는 서로 독립이 아니다.
즉, 관련이 있다.


4. 왜 기대도수를 구하냐

독립성 검정의 핵심

만약 정말로 학력과 만족도가 관련이 없다면,
각 칸의 사람 수는 어느 정도 나와야 하냐?

그 “관련이 없다고 가정했을 때 나와야 하는 값”이 바로
기대도수.

즉,

  • 관측도수 = 실제로 나온 값
  • 기대도수 = 독립이라고 가정했을 때 예상되는 값

이 둘이 많이 다르면
“어? 독립이라고 보기 어렵네?”
이렇게 본다.


5. 기대도수 공식

독립성 검정에서 기대도수 공식은:

 

이걸 말로 읽으면:

어떤 칸의 기대도수 =
그 칸이 속한 행의 합계 × 열의 합계 ÷ 전체 합계


6. 기대도수 실제 계산

6-1. 고졸-만족 칸 기대도수 (e_{11})

  • 고졸 행합계 = 82
  • 만족 열합계 = 148
  • 전체 = 300

즉,
학력과 만족도가 정말 독립이라면
고졸-만족 칸은 대략 40.45명 정도 나와야 한다

실제는 40명이니까
이 칸은 기대값과 거의 비슷


6-2. 고졸-보통 칸 기대도수 (e_{12})

  • 고졸 행합계 = 82
  • 보통 열합계 = 102
  • 전체 = 300

실제는 32명, 기대는 27.88명.


6-3. 고졸-불만 칸 기대도수 (e_{13})

  • 고졸 행합계 = 82
  • 불만 열합계 = 50
  • 전체 = 300

실제는 10명, 기대는 13.67명.


6-4. 대졸 행 기대도수

대졸-만족

실제 92명

대졸-보통

실제 50명

대졸-불만

실제 28명


6-5. 대학원 행 기대도수

대학원-만족

실제 16명

대학원-보통

실제 20명

대학원-불만

실제 12명


7. 기대도수 표를 다시 정리하면

 

학력 만족 보통 불만 합계
고졸 40 (40.45) 32 (27.88) 10 (13.67) 82
대졸 92 (83.87) 50 (57.80) 28 (28.33) 170
대학원 16 (23.68) 20 (16.32) 12 (8.00) 48
합계 148 102 50 300

괄호 안이 기대도수


8. 카이제곱 통계량

각 칸마다

  • 실제값
  • 기대값

차이가 조금씩 있다

그런데 칸이 9개니까
이걸 하나하나 따로 보기보다
전체 차이를 하나의 숫자로 요약해야 한다.

그게 바로 카이제곱 검정통계량.

공식은:

말로 읽으면:

모든 칸에 대해
((관측값 - 기대값)^2 ÷ 기대값)
를 다 더한 값


9. 왜 제곱하고 왜 기대값으로 나누냐

왜 제곱하냐

관측값이 기대값보다 큰 칸도 있고 작은 칸도 있는데,
그냥 더하면 플러스랑 마이너스가 상쇄돼버린다.

그래서 차이의 크기만 보려고 제곱하는 거야.

왜 기대값으로 나누냐

단순 차이만 보면 큰 집단이 무조건 더 커 보일 수 있어.
그래서 기대값으로 나눠서
상대적 차이처럼 표준화하는 거다.


10. 이 문제의 검정통계량

이 뜻은

전체 9개 칸에서 실제값과 기대값의 차이를 종합했더니
그 차이의 크기가 8.764 정도다


11. 자유도는 왜 4냐

공식:

df = (r-1)(c-1)

여기서

  • 행 개수 (r = 3) → 고졸, 대졸, 대학원
  • 열 개수 (c = 3) → 만족, 보통, 불만

그래서

df = (3-1)(3-1) = 2 * 2 = 4

왜 이렇게 되냐

행합계와 열합계가 이미 고정되어 있어서
모든 칸이 마음대로 움직일 수 없기 때문이다.
마지막 행, 마지막 열 쪽 값들은 앞에서 정해진 값들에 의해 자동으로 결정된다.

그래서 완전히 자유로운 정보 개수가 줄어들고
그 결과가 ((r-1)(c-1))이 되는 거다.


12. 기각역과 임계값

유의수준 (alpha = 0.05), 자유도 4일 때
카이제곱 분포표에서 임계값은:

이게 무슨 뜻이냐면

자유도 4인 카이제곱 분포에서
오른쪽 꼬리 면적이 0.05가 되는 경계값이 9.488이다


13. 왜 오른쪽 꼬리만 보냐

카이제곱 검정은
관측값과 기대값의 차이가 클수록 값이 커져.

즉,

  • 작으면 → 차이 별로 없음
  • 크면 → 차이 큼 → 독립 가정이 이상해짐

그래서 큰 값이 나올수록 귀무가설에 불리.
그래서 오른쪽 꼬리만 보는 거다.


14. 임계값 비교로 결론 내리기

  • 검정통계량 = 8.764
  • 임계값 = 9.488

비교하면

8.764 < 9.488

즉, 검정통계량이 기각역까지 가지 못했다.

그래서

결론

귀무가설을 기각하지 못한다.
즉, 학력과 만족도는 독립이라고 본다.

시험 책에는 보통
“귀무가설 채택”이라고 쓰기도 하는데,
더 정확한 표현은 기각하지 못함.


15. p값으로도 같은 결론

p = 0.067

유의수준

0.067 > 0.05

즉 p값이 더 크다

그러면

결론

귀무가설 기각 못함
→ 학력과 만족도는 통계적으로 유의한 관련이 있다고 보기 어렵다
→ 독립이라고 본다


16. 왜 p값이 0.067이면 기각 못하냐

p값은

귀무가설이 맞다고 했을 때
지금처럼 크거나 더 극단적인 검정통계량이 나올 확률

 

지금 p값이 0.067이라는 건
이 정도 차이는 우연히도 6.7% 정도 나올 수 있다

근데 우리는 보통
“우연일 확률이 5%보다 작으면 이상하다고 보자”
이 기준을 사용.

그런데 6.7%는 5%보다 크니까
아직은 “우연일 수도 있네” 수준이야.
그래서 기각 못하는 거다.


17. 최종 해석

  • 대학원은 불만이 기대보다 좀 많고
  • 대졸은 만족이 기대보다 좀 많고
  • 고졸은 보통이 기대보다 좀 많아 보일 수 있다

그런데 그 차이가
통계적으로 충분히 크다고 보기에는 부족하다

그래서 최종적으로는

학력과 회사 만족도 사이에 유의한 연관성이 있다고 말할 수 없다.


18. 분포도 

  • 오른쪽 꼬리 시작점 = 임계값 9.488
  • 검정통계량 = 8.764

검정통계량이 임계값 왼쪽에 있다

즉,

  • 기각역 안에 못 들어감
  • 그래서 기각 못함

참고: 피셔의 정확 검정(Fisher’s Exact Test)

언제 쓰냐

범주형 변수 독립성 검정에서
카이제곱 검정을 쓰려면 기대도수가 너무 작으면 안 된다.

보통 많이 쓰는 기준이:

  • 기대도수가 5보다 작은 셀이 너무 많으면 안 됨
  • 표본이 너무 작으면 안 됨
  • 특히 2×2 교차표에서 소표본일 때 Fisher exact test를 씀

즉,

표본이 작거나 기대도수가 너무 작으면 카이제곱 대신 피셔의 정확 검정 사용


왜 Fisher를 쓰냐

카이제곱 검정은 사실
“표본이 충분히 크면 근사적으로 맞는 방법”

그런데 표본이 너무 작거나 기대도수가 너무 작으면
그 근사가 부정확해진다.

그래서 그럴 때는
근사가 아니라 정확한 확률 계산을 하는
Fisher’s Exact Test를 쓰는 거야.


예시 

추측/사실 사이다 콜라 합계
사이다 4(3) 1(2) 5
콜라 2(3) 3(2) 5
합계 6 4 10

괄호 안이 기대빈도 2 또는 3 정도
이런 경우는 기대도수가 작아서
카이제곱보다 Fisher exact test가 더 적합하다

 

1단계

문제 보고 변수 2개인지 확인
→ 학력, 만족도
독립성 검정

2단계

교차표에서 행합, 열합, 총합 구하기

3단계

기대도수 구하기

4단계

카이제곱 통계량 구하기

5단계

자유도 구하기

6단계

임계값 또는 p값과 비교

7단계

결론 

이 문제는
“학력과 만족도는 서로 독립이다”
또는
“유의한 연관성이 없다”


결론

유의수준 0.05에서 학력과 회사 만족도 사이에 통계적으로 유의한 연관성이 있다고 볼 수 없으므로, 두 변수는 서로 독립이라고 판단한다.


동질성 검정

동질성 검정(Test of Homogeneity)

여러 집단 간에 특정 범주형 변수의 비율이 동일한지를 검정하는 방법이다.


집단이 여러 개 있을 때 “이 집단들 성질이 같은가?”를 확인해야 한다. 예를 들어 남자/여자, 지역 A/B/C 같은 서로 다른 집단에서 어떤 비율이 같은지 비교해야 할 때, 단순 비교로는 부족하고 통계적으로 유의한 차이가 있는지 확인해야 하기 때문이다.

  • 동질성 (Homogeneity): 서로 성질이나 분포가 같은 상태
  • 검정 (Test): 가설의 타당성을 확인하는 통계적 절차

예시
남자/여자 집단에서 흡연 비율이 같은지 비교


동질성 검정은 각 범주에 해당하는 도수를 미리 정하여 측정하고 그 비율과 같은지를 검정한다.

각 집단에서 일정한 표본 수를 정해놓고 데이터를 수집한 뒤, 그 결과의 비율이 서로 같은지 확인하는 것이다.


동질성 검정은 애초에 “각 집단에서 같은 기준으로 데이터를 뽑는다”는 전제가 있다. 즉 표본 크기를 맞춰서 비교해야 공정한 비교가 가능하기 때문이다. 이렇게 해야 집단 간 차이가 실제 차이인지, 표본 수 차이 때문인지 구분할 수 있다.

  • 도수 (Frequency): 특정 범주에 속하는 데이터 개수
  • 비율 (Proportion): 전체 중 특정 범주가 차지하는 비중

예시
각 지역에서 100명씩 뽑아서 찬성 비율 비교


동질성 검정 절차


교차표 작성

독립성 검정과 동일

데이터를 행과 열로 나눈 표(교차표)로 정리한다


동질성 검정과 독립성 검정은 계산 방식이 완전히 동일하기 때문에 같은 형태의 교차표를 사용한다. 즉, 두 범주형 변수의 조합을 표현하기 위해 교차표가 필수이다.

  • 교차표 (Contingency Table): 두 변수의 조합을 나타낸 표

예시
지역(A,B,C) × 찬성/반대


귀무가설_동질성 검정 

귀무가설
H₀ : (P₁₁, P₁₂, …, P₁c) = (P₂₁, P₂₂, …, P₂c) = … = (Pᵣ₁, Pᵣ₂, …, Pᵣc)

모든 집단에서 각 범주의 비율이 동일하다는 가설이다.


검정은 항상 “차이가 없다”는 상태에서 시작해야 한다. 즉, 모든 집단의 분포가 같다고 가정한 뒤 실제 데이터가 이 가정을 깨는지 확인하는 구조이다.

  • Pij: i번째 집단에서 j번째 범주의 비율
  • 귀무가설 (Null Hypothesis): 기본 가정 (차이 없음)

예시
A지역, B지역, C지역 모두
찬성/반대 비율이 동일

 

(행 집단의 각 비율과 각 비율은 같다)

각 행(집단)마다 비율이 동일하다는 뜻이다.


동질성 검정의 핵심은 “집단 간 분포가 같은가”이기 때문에 각 집단의 비율을 비교하는 것이 핵심이다.

  • 행 집단: 비교 대상 집단 (예: 지역, 성별 등)

예시
남자 60% 흡연, 여자도 60% 흡연 → 동일


대립가설
H₁ : H₀가 아니다

적어도 하나의 집단에서 비율이 다르다는 의미이다.


검정의 목적은 “완전히 동일한지”가 아니라 “차이가 존재하는지”를 확인하는 것이기 때문이다.

  • 대립가설 (Alternative Hypothesis): 차이가 있다는 주장

예시
남자 60%, 여자 40% → 다름


계산 부분

검정통계량 

χ² = ΣΣ (Oij - eij)² / eij

관측값과 기대값의 차이를 모두 더해서 하나의 수치로 만든 것이다.


각 칸마다 차이를 따로 보면 판단이 어렵기 때문에 전체 차이를 하나로 요약해야 한다. 이 값이 클수록 “집단 간 차이가 크다”는 의미가 된다.

  • Oij: 실제 관측값
  • eij: 기대값

예시
각 칸 차이를 계산해서 합산

 

자유도 v = (r-1)(c-1)

독립적으로 움직일 수 있는 정보의 개수이다.


행합과 열합이 이미 정해져 있기 때문에 일부 값은 자동으로 결정된다. 따라서 전체 칸 중 자유롭게 바뀔 수 있는 개수는 줄어들고, 그 결과가 (r-1)(c-1)이 된다.

  • 자유도 (Degree of Freedom): 독립적으로 변화 가능한 값의 개수

예시
3×3 표 → (3-1)(3-1)=4


가설 검정_유의수준(알파) 기각역 

검정통계량 χ² ≥ 기각역 χ²이면, 귀무가설 기각

차이가 크면 가설을 버린다는 뜻이다.


관측값과 기대값 차이가 크다는 것은 “우연히 발생하기 어렵다”는 의미이기 때문에, 독립/동일하다는 가정이 틀렸다고 판단한다.

  • 기각역: 가설을 버리는 영역

예시
χ² = 10, 기준 = 5 → 기각

 

 

검정통계량 χ² < 기각역 χ²이면, 귀무가설 채택

차이가 작으면 가설을 유지한다.


차이가 작다는 것은 우연히도 충분히 발생 가능한 수준이기 때문에, 기존 가정을 유지한다.

  • 채택: 가설을 유지 (정확히는 기각 못함)

예시
χ² = 2, 기준 = 5 → 유지


유의성 검정 (p값 사용)

p값 < 유의수준이면 귀무가설 기각

우연 확률이 작으면 기각한다.


p값은 “이 결과가 우연히 나올 확률”인데, 이 값이 너무 작으면 우연이라고 보기 어렵기 때문이다.

  • p값: 관측 결과의 극단성 확률

예시
0.01 < 0.05 → 기각

 

p값 > 유의수준이면 귀무가설 채택

우연 가능성이 크면 유지한다.


결과가 충분히 자연스럽게 발생 가능한 범위라면 굳이 가설을 버릴 이유가 없기 때문이다.

  • 유의수준: 기준 확률 (보통 0.05)

예시
0.07 > 0.05 → 유지


독립성 검정과 동질성 검정은 비교하는 관점만 다르고, 검정하는 과정은 동일하므로 동질성 검정의 사례는 따로 설명하지 않는다.

계산 방법은 완전히 같고, 해석 관점만 다르다


수식, 기대도수, 자유도, χ² 계산 방식이 동일하기 때문에 따로 계산을 설명할 필요가 없다. 단지 “무엇을 비교하는지”만 다를 뿐이다.

  • 관점 (Perspective): 분석의 목적이나 해석 방향

예시

  • 독립성: 성별 ↔ 흡연 관계
  • 동질성: 남자 vs 여자 비율 비교

정리

동질성 검정 = “여러 집단의 비율이 같은지 비교”

독립성 검정 = “두 변수 간 관계가 있는지 확인”


근데 계산은 둘 다
카이제곱 완전히 동일


로지스틱회귀분석 

로지스틱회귀분석은 영국의 통계학자인 D.R.Cox가 1958년에 제안한 확률 모델로서 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법이다.

로지스틱회귀는 여러 개의 입력 변수(독립변수)를 선형으로 결합한 뒤, 이를 확률 형태로 변환하여 어떤 사건이 발생할 가능성을 예측하는 통계 모델이다.


현실의 많은 문제는 “발생/미발생”, “합격/불합격”, “구매/비구매”처럼 결과가 확률로 표현되는 경우가 많다. 단순히 값 자체를 예측하는 것이 아니라, 특정 사건이 일어날 가능성을 수치(확률)로 표현해야 의사결정에 활용할 수 있기 때문에, 선형 결합을 확률로 바꾸는 구조의 로지스틱회귀가 필요하다. 특히 선형 모델의 해석력은 유지하면서도 출력값을 0~1 사이 확률로 제한해야 하는 문제를 해결하기 위해 이 모델이 사용된다.

  • 로지스틱회귀(Logistic Regression): 확률을 예측하는 회귀 기반 분류 모델
  • 독립변수(Independent Variable): 결과에 영향을 주는 입력 변수
  • 선형 결합(Linear Combination): 변수들을 가중치와 함께 더한 형태
  • 확률 모델(Probabilistic Model): 결과를 확률로 표현하는 모델

예시
시험 점수, 공부 시간 → 합격 확률 예측


로지스틱회귀의 목적은 일반적인 회귀분석의 목표와 동일하게 종속변수와 독립변수 간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이며, 이는 독립변수의 선형 결합으로 종속변수를 설명한다는 관점에서는 선형회귀분석과 유사하다.

로지스틱회귀도 기본적으로는 독립변수와 종속변수 사이의 관계를 함수 형태로 만들어서 미래 값을 예측하려는 목적을 가지며, 입력 변수들을 선형적으로 결합한다는 점에서는 선형회귀와 비슷하다.


모든 회귀 분석의 핵심 목적은 “입력 → 출력 관계를 수식으로 만드는 것”이다. 로지스틱회귀도 같은 목표를 가지기 때문에 기본 구조는 선형회귀와 동일하게 시작한다. 즉, 변수들을 더하고 가중치를 곱하는 선형 구조를 사용하면 해석이 쉽고 계산이 효율적이다. 다만 최종 출력만 다르게 처리하여 확률로 바꾸는 것이 핵심 차이이다. 따라서 내부 구조는 선형이지만 출력 해석은 확률이라는 점에서 두 모델이 연결된다.

  • 종속변수(Dependent Variable): 예측하려는 대상 변수
  • 함수(Function): 입력과 출력의 관계를 수식으로 표현한 것
  • 선형회귀(Linear Regression): 연속값을 예측하는 회귀 모델

예시
키, 몸무게 → 체중 예측 (선형회귀와 구조 유사)


하지만 로지스틱회귀는 선형회귀분석과는 다르게 종속변수가 범주형 데이터를 대상으로 하며 입력데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 회귀라는 이름과 다르게 분류 기법으로 볼 수 있다.

로지스틱회귀는 결과값이 숫자가 아니라 “카테고리(범주)”이기 때문에, 실제로는 값을 예측하는 회귀가 아니라 클래스를 나누는 분류 문제에 사용된다.


선형회귀는 결과값이 연속형이기 때문에 어떤 숫자든 나올 수 있지만, 로지스틱회귀는 결과를 확률로 만든 뒤 특정 기준(보통 0.5)을 기준으로 클래스(예: 0 또는 1)로 나눈다. 즉, 내부 계산은 회귀처럼 이루어지지만 최종 결과는 “어느 그룹에 속하는가”를 판단하는 구조이기 때문에 분류 문제로 사용된다. 이 때문에 이름은 회귀지만 실제 활용은 분류로 이해하는 것이 맞다.

  • 범주형 데이터(Categorical Data): 값이 그룹 형태로 나뉘는 데이터
  • 분류(Classification): 데이터를 특정 그룹으로 나누는 작업

예시
이메일 → 스팸 / 정상 분류


흔히 로지스틱회귀는 종속변수가 이항형 문제(즉, 유효한 범주의 개수가 두 개인 경우)를 지칭할 때 사용된다.

로지스틱회귀는 보통 결과가 두 가지 경우(예: 0/1, 예/아니오)로 나뉘는 문제에서 사용된다.


로지스틱 함수는 출력값이 0~1 사이의 확률이기 때문에, 이 값을 기준으로 두 개의 클래스로 나누는 것이 가장 자연스럽다. 예를 들어 확률이 0.7이면 “발생”, 0.3이면 “미발생”으로 판단하는 방식이다. 따라서 두 가지 선택지만 있는 문제에서 가장 직관적으로 사용할 수 있으며, 이 구조가 로지스틱회귀의 기본 형태이다.

  • 이항형(Binary): 두 개의 값만 가지는 형태
  • 범주(Category): 데이터가 속하는 그룹

예시
합격 / 불합격


이외에, 두 개 이상의 범주를 가지는 문제가 대상인 경우엔 다항로지스틱회귀라 정의한다.

결과가 두 개가 아니라 세 개 이상일 경우에는 로지스틱회귀를 확장한 “다항 로지스틱 회귀”를 사용한다.


기본 로지스틱회귀는 확률을 하나만 계산해서 두 클래스 중 하나를 선택하는 구조이지만, 클래스가 여러 개가 되면 각 클래스에 대한 확률을 따로 계산해야 한다. 이를 위해 소프트맥스(Softmax) 같은 방법을 사용하여 여러 확률을 동시에 계산하고 가장 큰 값을 선택하는 방식으로 확장한다. 따라서 클래스가 3개 이상이면 다항 로지스틱으로 확장해야 한다.

  • 다항 로지스틱 회귀(Multinomial Logistic Regression): 다중 클래스 분류용 로지스틱 모델
  • 다중 범주(Multiclass): 세 개 이상 클래스

예시
고객 등급 → VIP / 일반 / 이탈


 

728x90
반응형
LIST

'3. 빅데이터 모델링 > 분석 기법 적용' 카테고리의 다른 글

시계열분석  (0) 2026.03.27
다변량분석  (1) 2026.03.27
군집분석  (0) 2026.03.24
연관분석  (0) 2026.03.23
서포트벡터머신  (0) 2026.03.22