7.2 기댓값과 확률변수의 변환#

표본평균, 표본분산 등은 현실세계의 데이터 분포의 모양을 서술하는 특성값이다. 이제부터는 이론적인 확률분포함수의 모양을 서술하는 특성값을 살펴본다. 우선 기댓값부터 공부한다. 기댓값은 표본평균처럼 분포의 위치를 알려주는 특성값이지만 확률분포의 가중합이나 가중적분으로 정의한다.

확률변수의 기댓값#

확률변수의 확률밀도함수를 알면 확률변수의 이론적 평균값을 구할 수 있다. 이러한 이론적 평균을 확률변수의 **기댓값(expectation)**이라고 한다. 단순히 평균(mean)이라고 말하기도 한다.

확률변수 \(X\)의 기댓값을 구하는 연산자(operator)는 영어 Expectation의 첫 글자를 사용하여 \(\text{E}[X]\)로 표기한다. 기댓값은 그리스 문자 \(\mu_X\)로 표기한다. 확률변수를 혼동할 염려가 없으면 확률변수 이름은 생략하고 그냥 \(\mu\)라고 써도 된다.

이산확률변수의 기댓값은 표본공간의 원소 \(x_i\)의 가중평균이다. 이때 가중치는 \(x_i\)가 나올 수 있는 확률 즉 확률질량함수 \(p(x_i)\)이다.

\[ \begin{align} \mu_X = \text{E}[X] = \sum_{x_i \in \Omega} x_ip(x_i) \tag{7.2.1} \end{align} \]

예제#

공정한 주사위에서 나올 수 있는 숫자를 대표하는 확률변수 \(X\)는 나올 수 있는 값이 1, 2, 3, 4, 5, 6 이므로,

\[\begin{split} \begin{align} \begin{aligned} \mu_X &= 1 \cdot p(1) + 2 \cdot p(2) + 3 \cdot p(3) + 4 \cdot p(4) + 5 \cdot p(5) + 6 \cdot p(6) \\ &= 1 \cdot \dfrac{1}{6} + 2 \cdot \dfrac{1}{6} + 3 \cdot \dfrac{1}{6} + 4 \cdot \dfrac{1}{6} + 5 \cdot \dfrac{1}{6} + 6 \cdot \dfrac{1}{6} \\ &= \dfrac{7}{2} \end{aligned} \tag{7.2.2} \end{align} \end{split}\]

기댓값은 \(\dfrac{7}{2}\)이다.

예제#

공정하지 않은 주사위, 예들 들어 짝수가 나올 확률이 홀수가 나올 확률의 2배인 주사위에서 기댓값을 구하면 다음과 같다.

\[\begin{split} \begin{align} \begin{aligned} \mu_X &= 1 \cdot p(1) + 2 \cdot p(2) + 3 \cdot p(3) + 4 \cdot p(4) + 5 \cdot p(5) + 6 \cdot p(6) \\ &= 1 \cdot \dfrac{1}{9} + 2 \cdot \dfrac{2}{9} + 3 \cdot \dfrac{1}{9} + 4 \cdot \dfrac{2}{9} + 5 \cdot \dfrac{1}{9} + 6 \cdot \dfrac{2}{9} \\ &= \dfrac{11}{3} \end{aligned} \tag{7.2.3} \end{align} \end{split}\]

기댓값은 \(\dfrac{11}{3}\)이다.

연습 문제 7.2.1#

공정한 동전이 있고 이 동전의 앞면이 나오면 1, 뒷면이 나오면 0인 확률변수 \(X\)가 있다. 이 확률변수의 기댓값 \(\text{E}[X]\)을 구하라.

참고로 데이터 공간에서 기댓값에 대응하는 값인 표본평균을 구하는 공식은 다음과 같았다.

\[ \begin{align} \bar x = \dfrac{1}{N} \sum_{i=1}^N x_i \tag{7.2.4} \end{align} \]

기댓값 공식과 표본평균 공식에서 \(x_i\)의 의미가 다르다는 점에 유의하라. 기댓값 공식에서 \(x_i\)는 표본공간의 모든 원소를 뜻하지만 표본평균 공식에서 \(x_i\)는 선택된(sampled, realized) 표본만을 뜻한다.

연습 문제 7.2.2#

기댓값을 구하는 공식에서는 확률을 가중치로 곱한다. 그런데 왜 표본평균을 구하는 공식에서는 확률 가중치가 없는가?

연속확률변수의 기댓값은 확률밀도함수 \(p(x)\)를 가중치로 하여 모든 가능한 표본 \(x\)를 적분한 값이다.

\[ \begin{align} \mu_X = \text{E}[X] = \int_{-\infty}^{\infty} x p(x) dx \tag{7.2.5} \end{align} \]

그림 7.2.1 : 기댓값 계산

기댓값은 여러 가능한 \(x\)값을 확률(또는 확률밀도)값에 따라 가중합을 한 것이므로 가장 확률(또는 확률밀도)이 높은 \(x\)값 근처의 값이 된다. 즉, 확률(또는 확률밀도)가 모여 있는 곳의 위치를 나타낸다.

예제#

회전하는 원반을 이용하여 복권 번호를 결정하는 문제에서 확률밀도함수 \(p(x)\)와 여기에서 \(x\)가 곱해진 함수 \(xp(x)\)의 모양은 다음과 같다. 기댓값은 이 함수 \(xp(x)\)를 적분하여 구한 삼각형처럼 생긴 함수의 면적이다.

\[ \begin{align} E[X] = xp(x)\text{의 면적} = \dfrac{1}{2} \cdot 360 \cdot 1 = 180 \tag{7.2.6} \end{align} \]
x = np.linspace(-100, 500, 1000)
p = np.zeros_like(x)
p[(0 < x) & (x <= 360)] = 1 / 360
xp = x * p

plt.subplot(121)
plt.plot(x, p)
plt.xticks([0, 180, 360])
plt.title("$p(x)$")
plt.xlabel("$x$ (도)")

plt.subplot(122)
plt.plot(x, xp)
plt.xticks([0, 180, 360])
plt.title("$xp(x)$")
plt.xlabel("$x$ (도)")

plt.show()
../_images/89dbe689361dc4a2d0a35905ef8651936b8b6874eed81ff5b6b730105e552d32.png

만약 0도에서 180도 사이에 화살이 2배 더 잘 박히도록 원반이 조작되었다면 확률밀도함수 \(p(x)\)와 여기에서 \(x\)가 곱해진 함수 \(xp(x)\) 모양은 다음과 같다. 기댓값은 이 함수 \(xp(x)\)를 적분하여 구한 함수의 면적이다.

x = np.linspace(-100, 500, 1000)
p = np.zeros_like(x)
p[(0 < x) & (x <= 180)] = 2 / (3 * 360)
p[(180 < x) & (x <= 360)] = 1 / (3 * 360)
xp = x * p

plt.subplot(121)
plt.plot(x, p)
plt.xticks([0, 180, 360])
plt.title("$p(x)$")
plt.xlabel("$x$ (도)")

plt.subplot(122)
plt.plot(x, xp)
plt.xticks([0, 180, 360])
plt.title("$xp(x)$")
plt.xlabel("$x$ (도)")\

plt.show()
../_images/91fd0be6afc09d234e177e65cea26ec0877e8aec859765988f81ed206719ba7a.png

연습 문제 7.2.3#

확률변수 \(Y\)는 0도에서 180도 사이에 화살이 2배 더 잘 박히도록 조작된 원반을 이용하여 복권 번호를 결정하는 문제에서 나오는 각도다. 확률변수 \(Y\)의 기댓값 \(\text{E}[Y]\)를 구하라.

확률변수의 변환#

우리가 얻은 데이터의 값을 어떤 함수 \(f\)에 넣어서 변화시킨다고 가정하자. 그러면 새로운 데이터 집합이 생긴다.

\[ \begin{align} \{ x_1, x_2, \ldots, x_N \} \rightarrow \{ f(x_1), f(x_2), \ldots, f(x_N) \} \tag{7.2.7} \end{align} \]

이 새로운 데이터를 \(\{y_i\}\)라고 부르자. \(\{y_i\}\)는 기존의 데이터와 다른 새로운 데이터이므로 다른 확률변수라고 볼 수 있다. 예를 들어 데이터 \(\{x_i\}\)를 만드는 확률변수가 \(X\)라면 데이터 \(\{y_i\}\)를 만드는 데이터는 \(Y\)라는 새로운 확률변수가 된다.

이렇게 **기존의 확률변수를 사용하여 새로운 확률변수를 만드는 것을 확률변수의 변환(transform)**이라고 한다. 함수 \(f\)를 사용해 확률변수를 변환할 때는 다음처럼 표기한다.

\[ \begin{align} Y = f(X) \tag{7.2.8} \end{align} \]

확률 변수의 변환은 여러 확률변수가 있을 때도 성립한다. 예를 들어 두 확률변수 \(X\)\(Y\)가 있다고 가정하였을 때, 새로운 확률변수 \(Z = X + Y\)는 확률변수 \(X\)에서 나온 값과 확률변수 \(Y\)에서 나온 값을 더한 값이 나오도록 하는 확률변수를 뜻한다.

그림 7.2.2 : 확률변수의 변환

연습 문제 7.2.4#

확률변수 \(X\)는 주사위를 던져 나오는 수를 나타내는 확률변수다. 그리고 \(Y\)는 주사위를 던져나오는 수에 2배를 한 수를 나타내는 확률변수다. \(X\), \(Y\)의 확률질량함수의 그래프를 각각 그려라.

확률변수 \(X\)에서 표본을 \(N\)번 뽑아서 그 값을 더하는 경우에는 다음처럼 원래 확률변수의 복사본 \(X_1, X_2, \ldots, X_N\)을 만든 다음 이 복사본 확률변수의 표본값을 더한 형태로 변환식을 써야 한다.

\[ \begin{align} Y = X_1 + X_2 + \cdots X_N \tag{7.2.9} \end{align} \]

이렇게 복사본을 만들어 첨자를 붙이는 이유는 \(X_1\)\(X_2\)가 같은 확률분포를 가지는 확률변수이지만 표본값이 다르기 때문이다. 만약 다음과 같이 쓰면,

\[ \begin{align} Y = X + X + \cdots X \tag{7.2.10} \end{align} \]

이 식은 다음처럼 전혀 다른 확률변수를 가리킨다.

\[ \begin{align} Y = N \cdot X \tag{7.2.11} \end{align} \]

연습 문제 7.2.5#

확률변수 \(X_1\)\(X_2\)는 각각 주사위를 던져 나오는 수를 나타내는 확률변수다. 그리고 \(Y\)는 두 주사위를 동시에 던져 나오는 수의 합을 나타내는 확률변수다. 확률변수 \(X_1\), \(X_2\), \(Y\)의 확률질량함수의 그래프를 각각 그려라.

기댓값의 성질#

기댓값은 다음과 같은 성질을 가진다는 것을 수학적으로 증명할 수 있다. 변환된 확률변수의 기댓값을 계산할 때는 기댓값의 성질을 이용한다.

  • 확률변수가 아닌 상수 \(c\)에 대해

\[ \begin{align} \text{E}[c] = c \tag{7.2.12} \end{align} \]
  • 선형성

\[ \begin{align} \text{E}[cX] = c \text{E}[X] \tag{7.2.13} \end{align} \]
\[ \begin{align} \text{E}[X + Y] = \text{E}[X] + \text{E}[Y] \tag{7.2.14} \end{align} \]
\[ \begin{align} \text{E}[c_1X + c_2Y] = c_1\text{E}[X] + c_2\text{E}[Y] \tag{7.2.15} \end{align} \]

통계량#

확률변수 \(X\)로부터 데이터 집합 \(\{ x_1, x_2, \ldots, x_N \}\)을 얻었다고 하자. 이 **데이터 집합의 모든 값을 정해진 어떤 공식에 넣어서 하나의 숫자를 구한 것을 통계량(statistics)**이라고 한다. 예를 들어 표본의 합, 표본평균, 표본중앙값, 표본분산 등은 모두 통계량이다. 통계량도 확률변수의 변환에 포함된다.

그림 7.2.3 : 통계량

표본평균 확률변수#

확률변수로부터 \(N\)개의 표본을 만들어 이 표본집합의 표본평균을 구하면 이렇게 구한 표본평균 값도 확률변수가 된다. 표본평균 확률변수는 원래의 확률변수 이름에 윗줄(bar)을 추가하여 \(\bar{X}\)와 같이 표기한다. 예를 들어 확률변수 \(X\)에서 나온 표본으로 만들어진 표본평균 확률변수는 \(\bar{X}\)로 표기한다.

\[ \begin{align} \bar{X} = \dfrac{1}{N}\sum_{i=1}^{N} X_i \tag{7.2.16} \end{align} \]

위 식에서 \(X_i\)\(i\)번째로 실현된 표본값을 생성하는 확률변수를 의미한다. 이 확률변수 \(X_i\)는 원래의 확률변수 \(X\)의 복사본이다.

그림 7.2.4 : 표본평균 확률변수

연습 문제 7.2.6#

표본평균 \(\bar{x}\)의 값은 확률적인 데이터이고 이를 생성하는 확률변수 \(\bar{X}\)는 위와 같이 정의할 수 있었다. 그렇다면 (편향)표본분산 \(s^2\)의 값은 확률적인 데이터인가? 만약 그렇다면 이를 생성하는 확률변수 \(S^2\)은 어떻게 정의해야 하는가?

기댓값과 표본평균의 관계#

표본평균도 확률변수이므로 기댓값이 존재한다. 표본평균의 기댓값은 원래의 확률변수의 기댓값과 같다는 것을 다음처럼 증명할 수 있다.

\[ \begin{align} \text{E}[ \bar{X} ] = \text{E}[X] \tag{7.2.17} \end{align} \]

(증명)

\[\begin{split} \begin{align} \begin{aligned} \text{E}[\bar{X}] &= \text{E}\left[\dfrac{1}{N}\sum_{i=1}^{N}X_i \right] \\ &= \dfrac{1}{N}\sum_{i=1}^{N}\text{E}[X_i] \\ &= \dfrac{1}{N}\sum_{i=1}^{N}\text{E}[X] \\ &= \dfrac{1}{N} N \text{E}[X] \\ &= \text{E}[X] \\ \end{aligned} \tag{7.2.18} \end{align} \end{split}\]

이 식이 뜻하는 바는 다음과 같다.

표본평균은 확률변수의 기댓값 근처의 값이 된다.

예를 들어 공정한 주사위의 기댓값은 3.5이다. 이 주사위를 던져 나온 값의 평균 즉 표본평균은 3.62346 또는 3.40987처럼 항상 3.5 근처의 값이 나오게 된다.

중앙값#

확률변수의 중앙값(median)은 중앙값보다 큰 값이 나올 확률과 작은 값이 나올 확률이 0.5로 같은 값을 뜻한다. 따라서 다음과 같이 누적확률분포 \(F(x)\)에서 중앙값을 계산할 수 있다.

\[ \begin{align} 0.5 = F(\text{중앙값}) \tag{7.2.19} \end{align} \]
\[ \begin{align} \text{중앙값} = F^{-1}(0.5) \tag{7.2.20} \end{align} \]

그림 7.2.5 : 중앙값

최빈값#

**이산확률분포에서는 가장 확률 값이 큰 수를 최빈값(most frequent value)**이라고 한다. 하지만 연속확률분포인 경우에는 어느 값에 대해서나 특정한 값이 나올 확률은 0(zero)이므로 연속확률분포의 최빈값(mode)은 확률밀도함수 \(p(x)\)의 값이 가장 큰 확률변수의 값으로 정의한다. 즉 확률밀도함수의 최댓값의 위치다.

\[ \begin{align} \text{최빈값} = \arg \max_x p(x) \tag{7.2.21} \end{align} \]