다운로드
작성자: admin 작성일시: 2018-10-20 17:33:19 조회수: 939 다운로드: 125
카테고리: 기초 수학 태그목록:

가우시안 정규 분포와 통계량 분포의 용도

가우시안 정규 분포의 용도

가우시안 정규 분포는 선형회귀모형에서 잡음(disturbance)을 모형화하는데 사용된다.

선형회귀모형은 입력변수 $x_1, \ldots, x_N$이 종속변수 $y$에 선형적으로 영향을 미치는 모형이다.

$$ \hat{y} = w_1 x_1 + \ldots + w_N x_N \approx y $$

이 모형은 다음과 같이 표현할 수 있다.

$$ y = w_1 x_1 + \ldots + w_N x_N + \epsilon $$

$\epsilon$은 잡음(disturbance)이라고 하며 우리가 값을 측정할 수 없는 입력변수를 뜻한다.

잡음은 선형회귀모형을 만들 때 하나하나의 영향력이 작거나 일일히 측정하기 힘들어서 무시하는 수많은 변수들의 영향을 하나로 합친 것이다. 즉 원래 $y$ 값은 $x_1, \ldots, x_N, \ldots$의 거의 무한한 갯수의 입력변수의 영향을 받는다.

$$ y = w_1 x_1 + \ldots + w_N x_N + w_{N+1} x_{N+1} + w_{N+2} x_{N+2} + \ldots $$

하지만 이 중에서 입력변수 $x_1, \ldots, x_N$만이 영향력이 크거나 측정이 쉽다면 다른 변수의 영향은 하나의 확률변수라고 합쳐서 표현할 수 있다.

$$ \epsilon = w_{N+1} x_{N+1} + w_{N+2} x_{N+2} + \ldots $$

중심 극한 정리에 의해 임의의 확률변수의 합은 가우시안 정규 분포와 비슷한 형태가 된다. 또한 $\epsilon$의 기댓값이 0이 아니라면 다음처럼 상수항 $w_0 = \text{E}[\epsilon]$을 추가하는 대신 $\epsilon$의 기댓값이 0이라고 할 수 있기 때문에

$$ y = w_0 + w_1 x_1 + \ldots + w_N x_N + \epsilon $$

잡음 $\epsilon$이 기댓값이 0인 가우시안 정규분포라고 가정하는 것은 합리적이다.

$$ \epsilon \sim \mathcal{N}(0, \sigma^2) $$

그림 8.3.1 : 선형회귀모형

통계량 분포의 용도

스튜던트 t 분포, 카이 제곱 분포, F 분포는 모두 가우시안 정규 분포의 통계량 분포(statistics distribution)의 일종이다.

그림 8.3.2 : 가우시안 정규 분포와 통계량 분포

선형회귀분석에서 이 통계량 분포들은 각각 다음 값에 대한 확률모형으로 사용된다.

  • 스튜던트 t 분포: 추정된 계수 $w$에 대한 확률 분포
  • 카이 제곱 분포: 오차 제곱합(residual sum of squre)에 대한 확률 분포
  • F 분포: 비교 대상이 되는 선형모형의 오차 제곱합에 대한 비율의 확률 분포

보다 자세한 내용은 선형회귀분석에 다룬다.

질문/덧글

가우시안 정규 분포의 용도에서 rlaw*** 2018년 12월 11일 8:10 오후

아주 작은 오타가 보여 남깁니다.

Bold로 되어 있는 "잡음 ϵ 이 기댓값이 0인 가우시안 정규분포라고 가정하는 것은 합리적이다." 밑의 그림에 w3*x3인것 같습니다.

수고하십시오.

답변: 가우시안 정규 분포의 용도에서 관리자 2018년 12월 12일 8:25 오후

수정하였습니다. 지적 감사합니다.