작성자: admin 작성일시: 2016-06-07 13:09:38 조회수: 1150 다운로드: 83
카테고리: 머신 러닝 태그목록:

선형 회귀 모형 비교

두 개의 서로 다른 선형 회귀 모형의 성능을 비교할 때는 보통 다음과 같은 선택 기준을 사용한다.

  • 조정 결정 계수 (Adjusted determination coefficient)
  • AIC (Akaike Information Criterion)
  • BIC (Bayesian Information Criterion)

조정 결정 계수

선형 회귀 모형에서 독립 변수가 추가되면 결정 계수의 값은 항상 증가한다. 이는 다음과 같이 확인할 수 있다.

종속 변수 $y$를 회귀 분석하기 위한 기존의 독립 변수가 $X$이고 여기에 추가적인 독립 변수 $z$가 더해졌을 때, 다음과 같은 관계가 성립한다.

$$ R^2_{Xz} = R^2_{X} + (1-R^2_{X})r^{\ast 2}_{yz} $$

여기에서

  • $R^2_{X}$: 기존의 독립 변수 $X$를 사용한 경우의 결정 계수
  • $R^2_{Xz}$: 기존의 독립 변수 $X$와 추가적인 독립 변수 $z$를 모두 사용한 경우의 결정 계수
  • $r^{\ast 2}_{yz}$: 추가적인 독립 변수 $z$와 종속 변수 $y$간의 상관 관계 계수

이고 이 항목들은 모두 양수이므로

$$ R^2_{Xz} \geq R^2_{X} $$

이러한 독립 변수 추가 효과를 상쇄시키기 위한 다양한 기준들이 제시되었다. 그 중 하나가 다음과 같이 독립 변수의 갯수 $K$에 따라 결정 계수의 값을 조정하는 조정 결정 계수이다

$$ R_{adj}^2 = 1 - \frac{n-1}{n-K}(1-R^2) = \dfrac{(n-1)R^2 +1-K}{n-K} $$

정보량 규준

조정 결정 계수와 함께 많이 쓰이는 모형 비교 기준은 최대 우도에 독립 변수의 갯수에 대한 손실(penalty)분을 반영하는 방법이다. 이를 정보량 규준(information criterion)이라고 하며 손실 가중치의 계산 법에 따라 AIC (Akaike Information Criterion)와 BIC (Bayesian Information Criterion) 두 가지를 사용한다.

$$ \text{AIC} = -2\log L + 2K $$$$ \text{BIC} = -2\log L + K\log n $$

질문/덧글

결정계수의 의미 moon*** 2016년 10월 23일 6:05 오후

결정계수는 가중치의 벡터를 의미하나요?

그리고 정보량 규준에서 K는 추가된 독립변수의 수를 의미하나요?

답변: 결정계수의 의미 관리자 2016년 10월 24일 7:29 오전

1. 결정계수는 가중치 벡터와 관계 없습니다.
2. K는 전체 모수의 수입니다.