다운로드
작성자: admin 작성일시: 2016-04-15 17:30:55 조회수: 3696 다운로드: 295
카테고리: 기초 수학 태그목록:

분산과 표준 편차

확률 분포의 분산

확률 밀도 함수 $f(x)$의 수식을 알고 있다면 다음처럼 이론적인 분산을 구할 수 있다.

분산을 구하는 연산자는 영어 Variance를 따서 $\text{Var}[\cdot]$로 표기하고 이 연산자로 계산된 분산값은 $\sigma^2$으로 표기한다.

$$ \sigma^2 = \text{Var}[X] = \text{E}[(X - \mu)^2] $$

이산 확률 변수의 경우에는 확률 질량 함수 $P(x)$를 사용하여 분산을 구한다.

$$ \sigma^2 = \text{Var}[X] = \text{E}[(X - \mu)^2] = \sum_{x_i \in \Omega} (x_i - \mu)^2 P(x_i)$$

이산 확률 변수의 경우에는 확률 밀도 함수 $f(x)$를 사용하여 분산을 구한다.

$$ \sigma^2 = \text{Var}[X] = \text{E}[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)dx$$

즉, 분산은 평균으로부터 데이터까지의 거리 제곱을 확률 $P(x)$ 또는 확률 밀도 $f(x)$를 가중치로 하여 평균한 것으로 볼 수 있다.

분산의 성질

분산은 다음과 같은 성질을 만족한다.

  • 0 또는 양수 $$ \text{Var}[X] \geq 0 $$

  • 랜덤 변수가 아닌 상수 값 $c$에 대해 $$ \text{Var}[c] = 0 $$ $$ \text{Var}[cX] = c^2 \text{Var}[X] $$

또한 기댓값의 성질을 이용하여 다음 성질을 증명할 수 있다.

$$ \text{Var}[X] = \text{E}[X^2] - (\text{E}[X])^2 = \text{E}[X^2] - \mu^2 $$

또는

$$ \text{E}[X^2] = \mu^2 + \text{Var}[X] $$

(증명)

$$ \begin{eqnarray} \text{Var}[X] &=& \text{E}[(X - \mu)^2] \\ &=& \text{E}[X^2 - 2\mu X + \mu^2] \\ &=& \text{E}[X^2] - 2\mu\text{E}[X] + \mu^2 \\ &=& \text{E}[X^2] - 2\mu^2 + \mu^2 \\ &=& \text{E}[X^2] - \mu^2\\ \end{eqnarray} $$

두 확률 변수의 합의 분산

두 확률 변수 $X$, $Y$의 합의 분산은 각 확률 변수의 분산의 합과 다음과 같은 관계가 있다. 마지막 항은 양수도 될 수 있고 음수도 될 수 있다.

$$ \text{Var}\left[ X + Y \right] = \text{Var}\left[ X \right] + \text{Var}\left[ Y \right]+ 2\text{E}\left[ (X-\mu_X)(Y-\mu_Y) \right] $$

증명은 다음과 같다. 우선 확률 변수 $X+Y$의 기댓값은 기댓값의 성질로부터 각 확률 변수의 기댓값의 합과 같다.

$$ \text{E}[X + Y] = \mu_X + \mu_Y $$

분산의 정의에서

$$ \begin{eqnarray} \text{Var}\left[ X + Y \right] &=& \text{E}\left[ (X + Y - (\mu_X + \mu_Y))^2 \right] \\ &=& \text{E}\left[ ((X -\mu_X) + (Y - \mu_Y))^2 \right] \\ &=& \text{E}\left[ (X -\mu_X)^2 + (Y - \mu_Y)^2 + 2(X-\mu_X)(Y-\mu_Y) \right] \\ &=& \text{E}\left[ (X -\mu_X)^2 \right] + \text{E}\left[ (Y - \mu_Y)^2 \right] + 2\text{E}\left[ (X-\mu_X)(Y-\mu_Y) \right] \end{eqnarray} $$

그런데 두 확률 변수 $X$, $Y$가 서로 독립이면 다음 식이 성립한다. 확률 변수가 독립이라는 것은 서로 영향을 미치지 않는 것을 의미하며 확률 변수의 독립의 수학적 정의와 왜 다음 식이 성립하는가는 추후 설명하기로 한다.

$$ \text{E}\left[ (X-\mu_X)(Y-\mu_Y) \right] = 0 $$

위 식을 이용하면 독립인 두 확률 변수의 합의 분산은 분산의 합과 같다는 것을 보일 수 있다.

$$ \text{Var}\left[ X + Y \right] = \text{Var}\left[ X \right] + \text{Var}\left[ Y \right] $$

샘플 평균의 분산

확률 변수 $X$의 샘플 평균 $\bar{X}$도 일종의 확률 변수이고 그 기댓값 $\text{E}[\bar{X}]$은 원래 확률 변수 $X$의 기댓값 $\text{E}[{X}]$과 일치한다는 것을 증명한 적이 있다.

$$ \text{E}[\bar{X}] = \text{E}[{X}]$$

샘플 평균$\bar{X}$의 분산 $\text{Var}[\bar{X}]$은 원래 확률 변수 $X$의 분산 $\text{Var}[{X}]$과 다음 관계를 가진다.

$$ \text{Var}[\bar{X}] = \dfrac{1}{N} \text{Var}[{X}] $$

따라서 샘플 평균을 취하는 샘플의 수가 커지면 샘플 평균의 값은 변동이 적어진다. 샘플의 수가 무한대로 다가가면 샘플 평균의 값은 항상 일정한 값이 나온다.

증명은 다음과 같다.

$$ \begin{eqnarray} \text{Var}[\bar{X}] &=& \text{E} \left[ \left( \bar{X} - \text{E} \left[ \bar{X} \right] \right)^2 \right] \\ &=& \text{E} \left[ \left( \bar{X} - \mu \right)^2 \right] \\ &=& \text{E} \left[ \left( \dfrac{1}{N} \sum_{i=1}^N X_i - \mu \right)^2 \right] \\ &=& \text{E} \left[ \left( \dfrac{1}{N} \sum_{i=1}^N X_i - \dfrac{1}{N}N\mu \right)^2 \right] \\ &=& \text{E} \left[ \left( \dfrac{1}{N} \left( \sum_{i=1}^N X_i - N\mu \right) \right)^2 \right] \\ &=& \text{E} \left[ \left( \dfrac{1}{N} \sum_{i=1}^N (X_i - \mu) \right)^2 \right] \\ &=& \text{E} \left[ \dfrac{1}{N^2} \sum_{i=1}^N \sum_{j=1}^N (X_i - \mu) (X_j - \mu) \right] \\ &=& \dfrac{1}{N^2} \sum_{i=1}^N \sum_{j=1}^N \text{E} \left[ (X_i - \mu) (X_j - \mu) \right] \\ \end{eqnarray} $$

$i$번째 샘플의 값은 $j$번째($i\neq j$) 샘플의 값에 영향을 미치지 않으므로 $X_i$와 $X_j$ ($ i \neq j $)는 독립이다. 따라서

$$ \text{E}\left[ (X_i-\mu)(X_j-\mu) \right] = 0 \;\; (i \neq j) $$

라는 사실을 이용하면 $i=j$인 항, 즉 제곱항만 남는다.

$$ \begin{eqnarray} \text{Var}[\bar{X}] &=& \dfrac{1}{N^2} \sum_{i=1}^N \text{E} \left[ (X_i - \mu)^2 \right] \\ &=& \dfrac{1}{N^2} \sum_{i=1}^N \text{E} \left[ (X - \mu)^2 \right] \\ &=& \dfrac{1}{N^2} N \text{E} \left[ (X - \mu)^2 \right] \\ &=& \dfrac{1}{N} \text{E} \left[ (X - \mu)^2 \right] \\ &=& \dfrac{1}{N} \text{Var}[X] \\ \end{eqnarray} $$

위 식이 의미하는 바는 다음과 같다.

  • 데이터를 생성하는 확률 변수의 기댓값을 구하려면 확률 밀도 함수의 수식을 알아야 한다.
  • 그런데 우리는 데이터를 생성하는 확률 변수의 확률 밀도 함수의 수식을 정확히 알지 못한다.
  • 하지만 샘플 평균이라는 새로운 확률 변수의 기댓값은 원래 확률 변수의 기댓값과 같으므로 이 값을 알면 된다.
  • 만약 샘플의 갯수가 크면 샘플 평균의 분산이 아주 작아지므로 샘플 평균의 샘플 값과 샘플 평균의 기댓값은 거의 같은 값이다.
  • 따라서 샘플 평균의 기댓값을 구하면 원래 확률 변수의 기댓값의 근사값을 구할 수 있다.

샘플 분산의 기댓값

앞에서 샘플 평균의 기댓값을 구하면 이론적인 평균 즉, 기댓값과 같아진다는 것을 증명하였다.

그런데 샘플 분산 $S^2$의 기대값을 구하면 이론적인 분산 $\sigma^2$과 같아지는 것이 아니라 이론적인 분산값의 $\dfrac{N - 1}{N}$이 된다. 즉 작아진다.

$$ \text{E}[S^2] = \dfrac{N-1}{N}\sigma^2 $$

증명은 다음과 같다.

$$ \begin{eqnarray} \text{E}[S^2] &=& \text{E} \left[ \dfrac{1}{N}\sum_{i=1}^N (X_i - \bar{X})^2 \right] = \text{E} \left[ \dfrac{1}{N}\sum_{i=1}^N \left\{ (X_i -\mu) - (\bar{X} - \mu) \right \}^2 \right] \\ &=& \text{E} \left[ \dfrac{1}{N}\sum_{i=1}^N \left\{ (X_i -\mu)^2 - 2 (X_i -\mu)(\bar{X} - \mu) + (\bar{X} - \mu)^2 \right \} \right] \\ &=& \text{E} \left[ \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu)^2 \right] - 2 \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu)(\bar{X} - \mu) } \right] + \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (\bar{X} - \mu)^2 } \right] \end{eqnarray} $$

이 때 첫번째 항은

$$ \begin{eqnarray} \text{E} \left[ \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu)^2 \right] &=& \text{E} \left[ \dfrac{1}{N} \sum_{i=1}^N (X -\mu)^2 \right] \\ &=& \text{E} \left[ \dfrac{1}{N} N (X -\mu)^2 \right] \\ &=& \text{E} \left[ (X -\mu)^2 \right] \\ &=& \text{Var}[X] \\ &=& \sigma^2 \end{eqnarray} $$

두번째 항은

$$ \begin{eqnarray} \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu)(\bar{X} - \mu) } \right] &=& \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu) \left( \dfrac{1}{N} \sum_{j=1}^N X_j - \mu \right) } \right] \\ &=& \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu) \left( \dfrac{1}{N} \sum_{j=1}^N ( X_j - \mu ) \right) } \right] \\ &=& \text{E} \left[ { \dfrac{1}{N^2} \sum_{i=1}^N \sum_{j=1}^N (X_i -\mu) ( X_j - \mu )} \right] \\ \end{eqnarray} $$

$X_i$와 $X_j$ ($ i \neq j $)는 독립일때,

$$ \text{E}\left[ (X_i-\mu)(X_j-\mu) \right] = 0 \;\; (i \neq j) $$

라는 성질을 이용하면

$$ \begin{eqnarray} \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu)(\bar{X} - \mu) } \right] &=& \text{E} \left[ { \dfrac{1}{N^2} \sum_{i=1}^N (X_i -\mu)^2} \right] \\ &=& \dfrac{1}{N} \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (X_i -\mu)^2} \right] \\ &=& \dfrac{1}{N} \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (X -\mu)^2} \right] \\ &=& \dfrac{1}{N} \text{E} \left[ { \dfrac{1}{N} N (X -\mu)^2} \right] \\ &=& \dfrac{1}{N} \text{E} \left[ { (X -\mu)^2} \right] \\ &=& \dfrac{1}{N} \text{Var}[X] \\ &=& \dfrac{\sigma^2}{N} \end{eqnarray} $$

세번째 항은 다음과 같아진다.

$$ \begin{eqnarray} \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (\bar{X} - \mu)^2 } \right] &=& \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N \left( \dfrac{1}{N} \sum_{j=1}^N X_j - \mu \right)^2 } \right] \\ &=& \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N \left( \dfrac{1}{N} \sum_{j=1}^N (X_j - \mu) \right)^2 } \right] \\ &=& \text{E} \left[ \dfrac{1}{N^3} \sum_{i=1}^N \sum_{j=1}^N \sum_{k=1}^N (X_j - \mu)(X_k - \mu) \right] \\ \end{eqnarray} $$

$X_j$와 $X_k$ ($ j \neq k $)는 독립일때,

$$ \text{E}\left[ (X_j-\mu)(X_k-\mu) \right] = 0 \;\; (j \neq k) $$

라는 성질을 이용하면

$$ \begin{eqnarray} \text{E} \left[ { \dfrac{1}{N} \sum_{i=1}^N (\bar{X} - \mu)^2 } \right] &=& \text{E} \left[ \dfrac{1}{N^3} \sum_{i=1}^N \sum_{j=1}^N (X_j - \mu)^2 \right] \\ &=& \text{E} \left[ \dfrac{1}{N^3} N \sum_{j=1}^N (X_j - \mu)^2 \right] \\ &=& \text{E} \left[ \dfrac{1}{N^2} \sum_{j=1}^N (X_j - \mu)^2 \right] \\ &=& \dfrac{1}{N} \text{E} \left[ \dfrac{1}{N} \sum_{j=1}^N (X_j - \mu)^2 \right] \\ &=& \dfrac{1}{N} \text{Var}[X] \\ &=& \dfrac{\sigma^2}{N} \end{eqnarray} $$

따라서 세 항의 합은 다음과 같아진다.

$$ \text{E}[S^2] = \sigma^2 - \dfrac{2\sigma^2}{N} + \dfrac{\sigma^2}{N} = \dfrac{N-1}{N}\sigma^2 $$

그러므로 샘플 분산의 기대값이 정확하게 $\sigma^2$이 되려면 거리 제곱의 평균을 구할 때 분모가 $N$이 아니라 $N-1$이 되어야 한다.

$$ \sigma^2 = \dfrac{N}{N-1} \text{E}[S^2] = \dfrac{N}{N-1} \text{E} \left[ \dfrac{1}{N} \sum (X_i-\bar{X})^2 \right] = \text{E} \left[ \dfrac{1}{N-1} \sum (X_i-\bar{X})^2 \right] = \text{E} \left[ S^2_{\text{unbiased}} \right] $$

질문/덧글

샘플 평균의 분산 유도과정에서 moon*** 2016년 10월 13일 9:45 오후

X_1, X_2 가 독립이면

E[X_1*X_2]=E[X_1]*E[X_2] 가 되는 것인가요?

답변: 샘플 평균의 분산 유도과정에서 관리자 2016년 10월 14일 10:06 오전

네, 맞습니다.

오타가 난것 같습니다. koho*** 2018년 3월 13일 10:36 오전

확률 밀도 함수는 연속형 확률 변수의 경우에서 사용하는 것인데 이산 확률 변수의 경우에 사용한다고 쓰여있습니다.