다운로드
작성자: admin 작성일시: 2016-05-29 18:18:05 조회수: 8501 다운로드: 467
카테고리: 기초 수학 태그목록:

9.4 검정과 유의확률

검정(testing)은 데이터 뒤에 숨어있는 확률변수의 분포와 모수에 대한 가설의 진위를 정량적으로 증명하는 작업이다. 예를 들어 다음과 같은 문제는 검정 방법론을 사용하여 접근할 수 있다.

  • 문제 1

어떤 동전을 15번 던졌더니 12번이 앞면이 나왔다. 이 동전은 조작되지 않은 공정한 동전이라고 할 수 있는가?

  • 문제 2

어떤 트레이더의 일주일 수익률은 다음과 같다.

-2.5%, -5%, 4.3%, -3.7% -5.6%

이 트레이더는 앞으로 계속 돈을 잃을 것인가?

가설과 검정

확률분포에 대한 어떤 주장을 가설(hypothesis)이라고 하며 $H$로 표기한다. 이 가설을 증명하는 행위를 통계적 가설 검정(statistical hypothesis testing) 줄여서 검정(testing)이라고 한다. 특히 확률분포의 모수 값이 특정한 값을 가진다는 가설을 검정하는 것을 모수 검정(parameter testing)이라고 한다.

귀무가설

검정 작업을 하기 위해서는

  • 데이터가 어떤 확률변수의 표본이라고 가정한다.
  • 데이터를 만드는 확률변수가 따르는 확률분포의 모수 $\theta$의 값이 어떤 특정한 실수 값 $\theta_0$으로 고정되어 있다고 가정한다.

확률분포의 모수에 대한 가설을 귀무가설(null hypothesis)이라고 하며 $H_0$로 표기한다. 귀무가설은 확률분포를 특정한 상태로 고정시켜야 하므로 반드시 등식(equality)으로 표현되어야 한다. 특정한 실수 값 $\theta_0$는 우리가 증명하고자 하는 가설에 대한 기준값이 되는 상수를 사용한다.

$$ H_0: \theta = \theta_0 $$

예제

동전이 공정하다는 귀무가설은 다음과 같이 표현할 수 있다. 동전의 면은 두가지 뿐이므로 베르누리 확률변수로 대표한다. 공정한 동전이라면 앞면이 나올 확률과 뒷면이 나올 확률이 같으므로 모수 $\mu$의 값이 0.5이다.

$$ H_0: \mu = 0.5 $$

예제

트레이더 혹은 주식의 수익률에 대한 귀무가설은 다음과 같이 표현할 수 있다. 주식의 수익률은 정규 분포로 대표할 수 있다. 주식이 장기적으로 수익이 나는 경우는 정규 분포의 기대값 모수 $\mu$가 양수인 경우이다. 반대로 주식이 장기적으로 손실을 보는 경우는 정규 분포의 기대값 모수 $\mu$가 음수인 경우이다. 이 두가지를 나누는 기준값은 0이 된다. 따라서 귀무가설은 다음과 같다.

$$ H_0: \mu = 0 $$

대립가설

귀무가설과 같이 고려해야 하는 가설이 대립가설(alternative hypothesis)이다. 대립가설은 기호로 $H_a$로 표기한다. 귀무가설이 거짓이라는 것이 증명되면 대립가설은 사실이라고 본다. 반대로 귀무가설이 거짓이 아니라면 대립가설은 거짓이라고 본다.

일반적으로 생물학적 약품, 화학적 약품 등의 제품을 연구 개발할 때 연구 중인 새 제품이 기존의 제품 성능보다 더 큰 성능을 보여주거나 불량률 등이 너 낮아진 것을 보이는 것이 목표인 경우가 많기 때문에 대립가설을 연구가설(research hypothesis)이라고도 한다. 따라서 대부분의 경우 진실임을 증명하고자 하는 가설을 대립가설로 놓는 경우가 많다.

예를 들어 모수 $\theta$가 어떤 특정한 값 $\theta_0$가 아니라는 것을 증명하고 싶다면 귀무가설과 대립가설은 다음과 같다.

$$ H_0: \theta = \theta_0 ,\;\;\; H_a: \theta \neq \theta_0 $$

그런데 모수 $\theta$가 어떤 특정한 값 $\theta_0$보다 크거나 혹은 작다는 것을 증명하고 싶다면 어떻게 할까? 이 때도 귀무가설은 등식이어야 한다. 대립가설이 등식이 아니면 이후에 이야기할 검정통계량 분포를 구하는 것이 불가능하기 때문이다.

(1) 만약 $\theta$ 가 $\theta_0$보다 크다는 것을 증명하고 싶다면 귀무가설과 대립가설은 다음과 같다.

$$ H_0: \theta = \theta_0, \;\;\; H_a: \theta > \theta_0 $$

(2) 만약 $\theta$ 가 $\theta_0$보다 작다는 것을 증명하고 싶다면 귀무가설과 대립가설은 다음과 같다.

$$ H_0: \theta = \theta_0 ,\;\;\; H_a: \theta < \theta_0 $$

여기에서 주의할 점은 귀무가설과 대립가설이 반드시 서로 여집합(complement)의 관계에 있을 필요는 없다는 점이다.

예제

동전이 공정하지 않다고 증명하고 싶은 경우에는 귀무가설과 대립가설을 다음처럼 놓을 수 있다.

$$ H_0: \mu = 0.5 , \;\; H_a: \mu \neq 0.5 $$

이 주장을 증명하려면 귀무가설이 틀렸다는 증거가 있어야 한다.

예제

동전의 앞면이 뒷면보다 더 많이 나온다는 주장을 증명하고 싶은 경우에는 귀무가설과 대립가설을 다음처럼 놓을 수 있다.

$$ H_0: \mu = 0.5 , \;\; H_a: \mu > 0.5 $$

이 주장을 증명하려면 단순히 귀무가설이 틀렸다는 증거가 아니라 대립가설이 맞으면서 귀무가설이 틀렸다는 증가가 필요하다.

검정통계량

귀무가설이 맞거나 틀렸다는 것을 증명하려면 어떤 증거가 있어야 한다. 예를 들어보자.

  • "어떤 병에 걸렸다"라는 가설을 증명하려면 환자의 혈액을 채취하여 혈액 내의 특정한 성분의 수치를 측정해야 한다고 가정하자. 이 때 해당 수치가 바로 검정통계량이 된다.

  • "어떤 학생이 우등 상장을 받을 수 있는 우등생이다"라는 가설을 증명하려면 시험 성적을 측정하면 된다. 이 시험 성적을 검정통계량이라고 부를 수 있다.

이 증거에 해당하는 숫자가 검정통계량이다. 보통 기호 $t$로 나타낸다. 검정통계량(test statistics)은 표본 데이터 집합을 입력으로 계산되는 함수의 값이다.

$$ t = f(x_1, x_2, \ldots, x_N) $$

검정통계량은 확률변수 $X$의 표본에서 계산된 함수의 값이므로 어떤 값이 나올지 정확하게 예측할 수 없다. 따라서 검정통계량 $t$도 검정통계량 확률변수 $T$라는 새로운 확률변수의 표본으로 볼 수 있다.

예를 들어 '어떤 병에 걸렸다'는 가설을 혈액 성분 수치로부터 판단하려면 병에 걸린 환자의 성분 수치가 어떤 분포를 따르는지 알 수 있어야 한다. 현실에서는 실제로 병에 걸린 다수의 환자의 혈액 성분 수치를 사용하여 검정통계량 분포를 구한다. 또한 "어떤 학생이 우등생이다"라는 가설을 시험 성적으로부터 판단하라면 우등생인 모든 학생의 시험 성적에 대한 분포를 구해야 한다.

입력 데이터가 되는 확률변수 $X$의 확률분포함수 $p_X(x)$와 검정통계량 수식 $f(x)$가 이미 결정되어 있기 때문에 검정통계량 확률변수 $T$의 확률분포함수 $p_T(t)$도 수식으로 유도할 수 있다.

$$ \left\{ \begin{matrix} p_X(x) \\ f(x_1, x_2, \ldots, x_N) \end{matrix} \right\} \;\; \rightarrow \;\; p_T(t) $$

다만 이 유도 과정이 수학적으로 아주 어려운 작업이다. 현실적으로는 통계학자들이 몇몇 특정한 수식 $f(x)$를 사용하여 구한 검정통계량만 검정통계량 분포를 수식으로 구해 놓았다. 따라서 유용한 검정통계량 분포를 통계학자가 증명하게 되면 그 통계학자의 이름을 따서 해당 검정통계량의 이름을 만든다.

일반적으로 많이 사용되는 검정통계량에는 다음과 같은 것들이 있다.

예제: 베르누이 분포 확률변수

모수 $\mu$를 가지는 베르누이 분포 확률변수에 대해서는 전체 시도 횟수 $N$ 번 중 성공한 횟수 $n$ 자체를 검정통계량으로 쓸 수 있다. 이 검정통계량은 자유도 $N$과 모수 $\mu$를 가지는 이항 분포를 따른다.

$$ x \sim \text{Bern} \;\; \rightarrow \;\; t = \sum x \sim \text{Bin} $$

예제: 분산 $\sigma^2$ 값을 알고 있는 정규 분포 확률변수

분산 모수 $\sigma^2$의 값을 알고 있는 정규 분포 확률변수에 대해서는 다음과 같이 샘플 평균을 정규화(nomarlize)한 값을 검정통계량으로 쓴다. 이 검정통계량은 표준 정규 분포를 따른다. 이 검정통계량은 특별히 $z$라고 부른다.

$$ x \sim \mathcal{N}(\mu, \sigma^2) \;\; \rightarrow \;\; z = \dfrac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{N}}} \sim \mathcal{N}(z;0,1) $$

여기에서 $\bar{x}$은 샘플 평균

$$ \bar{x} = \dfrac{1}{N}\sum_{i=1}^{N} x_i $$

예제: 분산 $\sigma^2$ 값을 모르는 정규 분포 확률변수

이번에는 분산 모수 $\sigma^2$의 값을 모르는 정규 분포 확률변수를 고려하자.

평균 모수 $\mu$ 에 대한 검정을 할 때는 다음과 같이 샘플 평균을 샘플 분산으로 정규화(nomarlize)한 값을 검정통계량으로 쓴다. 이 검정통계량은 자유도가 $N-1$인 표준 student-t 분포를 따른다. $N$은 데이터의 수이다.

$$ x \sim \mathcal{N}(\mu, \sigma^2) \;\; \rightarrow \;\; t = \dfrac{m-\mu}{\frac{s}{\sqrt{N}}} \sim t(t;0,1,N-1) $$

여기에서 $m$은 샘플 평균

$$ m = \dfrac{1}{N}\sum_{i=1}^{N} x_i $$

$s^2$은 샘플 분산이다. $$ s^2 = \dfrac{1}{N-1}\sum_{i=1}^{N} (x_i-m)^2 $$

분산 모수 $\sigma^2$에 대한 검정을 할 때는 다음과 같이 샘플 분산을 정규화(normalize)한 값을 검정통계량으로 쓴다. 이 검정통계량은 자유도가 $N-1$인 카이 제곱 분포를 따른다. $N$은 데이터의 수이다.

$$ x \sim \mathcal{N}(\mu, \sigma^2) \;\; \rightarrow \;\; t = (N-1)\dfrac{s^2}{\sigma^2} \sim \chi^2 (t;N-1) $$

유의확률

이제 우리는 두가지 사실을 알고 있다.

  • 검정통계량이 따르는 검정통계량 확률분포를 알고 있다
  • 실제 데이터에 구한 검정통계량의 값, 즉 표본 1개를 가지고 있다.

만약 우리가 최초에 가정한 귀무가설이 사실이라면 실제 데이터에서 구한 검정통계량의 값은 검정통계량 확률분포를 따르고 있으므로 가장 기댓값이나 모드값 근처의 값이 나왔을 것이다. 반대로 우리가 가정한 귀무가설이 사실이 아니라면 실제 데이터에서 구한 검정통계량의 값은 검정통계량에서 나오가 어려운 값, 즉 아웃라이어(outlier)가 나왔을 것이다

In [1]:
xx1 = np.linspace(-4, 4, 100)

black = {"facecolor": "black"}
plt.figure(figsize=(8, 4))

plt.subplot(121)
plt.title("가능성이 높은 검정통계량이 나온 경우")
plt.plot(xx1, sp.stats.norm.pdf(xx1))
plt.plot(0.5, 0, "ro")
plt.annotate('실제 검정통계량', xy=(0.5, 0.01), xytext=(0.5, 0.1), arrowprops=black)

plt.subplot(122)
plt.title("가능성이 낮은 검정통계량이 나온 경우")
plt.plot(xx1, sp.stats.norm.pdf(xx1))
plt.plot(2, 0, "ro")
plt.annotate('실제 검정통계량', xy=(2, 0.01), xytext=(2, 0.1), arrowprops=black)

plt.suptitle("검정통계량 분포와 실제 검정통계량의 값", y=1.05)
plt.tight_layout()
plt.show()

그러면 어떤 표본 데이터가 해당 확률분포에서 나오기 쉬운 값인지 나오기 어려운 값인지를 어떻게 숫자로 정량화할 수 있을까? 이 방법이 바로 유의확률이다.

유의확률은 확률분포와 확률분포의 표본값 1개가 주어졌을 때 그 확률분포에서 해당 표본값 혹은 더 희귀한(rare) 값이 나올 수 있는 확률로 정의한다.

유의 확률의 값은 확률밀도함수에서 표본값을 기준으로 만들어진 양측 꼬리(tail)부분에 해당하는 영역의 면적이다.

확률분포가 대칭인 경우에는 누적확률분포함수 $F(x)$를 사용하여 다음처럼 계산할 수 있다.

$$ \text{p-value} = \begin{cases} 2F(t_0) & \text{ if } t_0 < \text{mode} \\ 2(1 - F(t_0)) & \text{ if } t_0 > \text{mode} \\ \end{cases} $$

이 식에서 $t_0$는 현재 검정통계량의 값이다.

만약 이산확률분포라면 등호가 성립하는 부분을 제외해야 하므로 다음처럼 구한다.

$$ \text{p-value} = \begin{cases} 2F(t_0) & \text{ if } t_0 < \text{mode} \\ 2(1 - F(t_0 - 1)) & \text{ if } t_0 > \text{mode} \\ \end{cases} $$

확률분포가 비대칭이라면 검정통계량 $t_0$와 확률밀도(질량)가 같은 두 검정통계량 $t_1, t_2\, (t_1 < t_2)$를 구하고 다음 식에 대입한다.

$$ \text{p-value} = F(t_1) + (1 - F(t_2)) $$
In [2]:
xx1 = np.linspace(-4, 4, 100)

black = {"facecolor": "black"}
plt.figure(figsize=(8, 4))

plt.subplot(121)
plt.title("유의확률이 큰 경우")
plt.plot(xx1, sp.stats.norm.pdf(xx1))
plt.plot(0.5, 0, "ro")
plt.annotate('실제 검정통계량', xy=(0.5, 0.01), xytext=(0.5, 0.1), arrowprops=black)
xx2 = np.linspace(-4, -0.5, 100)
xx3 = np.linspace(0.5, 4, 100)
plt.fill_between(xx2, sp.stats.norm.pdf(xx2), facecolor='blue', alpha=0.35)
plt.fill_between(xx3, sp.stats.norm.pdf(xx3), facecolor='blue', alpha=0.35)
plt.annotate('유의확률', xy=(-1.5, 0.05), xytext=(-3.5, 0.1), arrowprops=black)

plt.subplot(122)
plt.title("유의확률이 작은 경우")
plt.plot(xx1, sp.stats.norm.pdf(xx1))
plt.plot(2, 0, "ro")
plt.annotate('실제 검정통계량', xy=(2, 0.01), xytext=(2, 0.1), arrowprops=black)
xx2 = np.linspace(-4, -2, 100)
xx3 = np.linspace(2, 4, 100)
plt.fill_between(xx2, sp.stats.norm.pdf(xx2), facecolor='blue', alpha=0.35)
plt.fill_between(xx3, sp.stats.norm.pdf(xx3), facecolor='blue', alpha=0.35)
plt.annotate('유의확률', xy=(-2.2, 0.02), xytext=(-4.2, 0.07), arrowprops=black)

plt.suptitle("검정통계량 분포와 실제 검정통계량의 값", y=1.05)
plt.tight_layout()
plt.show()

검정의 관점에서 유의확률은

귀무가설이 맞음에도 불구하고 현재 검정통계량 값과 같은 혹은 대립가설을 더 옹호하는 검정통계량 값이 나올 확률

이라고 본다. 따라서 다음처럼 쓰기도 한다.

$$ P(t \text{ for } H_a | H_0) $$

이 식에서 $H_0$는 귀무가설이 진실일 사건을 뜻한다.

예제

'혈압이 정상이다(고혈압이 아니다)'라는 귀무가설을 증명하기 위한 검정에서 혈압 검사 결과를 사용하여 계산한 유의확률이 0.02%라는 의미는 실제로 혈압이 정상인 사람 중 혈압 검사 수치가 해당 환자의 혈압보다 우연히 더 높게 나온 사람은 0.02%뿐이었다는 뜻이다.

단측 유의확률

만약 증명하고자 하는 대립가설이 부등식인 경우에는 그 대립가설을 옹호하는 검정통계량 값이 나올 확률을 구할 때 특정한 한 방향의 확률만을 구해야 한다. 이를 단측 유의확률(one-side p-value 또는 one-tail p-value)이라고 한다.

만약 모수 $\theta$가 양수라는 것을 증명하고 싶다면 귀무가설과 대립가설은 다음과 같다.

$$ H_0: \theta = \theta_0, \;\;\; H_a: \theta > \theta_0 $$

만약 모수 $\theta$가 양수일 때 검정통계량도 큰 값이 나오기 쉬운 경우라면 우측(right-tail) 유의확률을 사용한다. 우측 유의확률은 귀무가설이 맞음에도 불구하고 검정통계량이 현재 검정통계량과 같거나 더 큰 값이 나올 수 있는 확률이다.

$$ P( t \geq t_0 | H_0 ) $$

누적분포함수를 사용하면 다음 식으로 구할 수 있다.

$$ 1 - F(t_0) $$

만약 이산확률분포라면 등호가 성립하는 부분을 제외해야 하므로 다음처럼 구한다.

$$ 1 - F(t_0 - 1) $$

반대로 $\theta$가 음수이라는 것을 검정하고 싶다면 귀무가설과 대립가설은 다음과 같다.

$$ H_0: \theta = \theta_0, \;\;\; H_a: \theta < \theta_0 $$

만약 모수 $\theta$가 음수일 때 검정통계량도 작은 값이 나오기 쉬운 경우라면 좌측(left-tail) 유의확률을 사용한다. 좌측 유의확률은 귀무가설이 맞음에도 불구하고 실제로 나온 검정통계량과 같거나 더 작은 값이 나올 수 있는 확률이다.

$$ P( t \leq t_0 | H_0 ) $$

누적분포함수를 사용하면 다음 식으로 구할 수 있다.

$$ F(t_0) $$

유의수준과 기각역

유의확률의 값이 아주 작다는 것은 귀무가설이 맞다는 가정하에 현재의 검정통계량 값이 나올 가능성이 매우 적다는 의미이다. 따라서 유의확률의 값이 아주 작으면 귀무가설을 기각하고 대립가설을 채택할 수 있다.

유의확률이 아주 작으면 귀무가설을 기각하고 대립가설을 채택한다.

계산된 유의확률 값에 대해 귀무가설을 기각하는지 채택하는지를 결정할 수 있는 기준 값을 유의수준(level of significance)라고 한다. 일반적으로 사용되는 유의수준은 1%, 5%, 10% 등이다.

검정통계량이 나오면 확률밀도함수를 사용하여 유의확률을 계산할 수 있는 것처럼 반대로 특정한 유의확률 값에 대해 해당하는 검정통계량을 계산할 수도 있다. 유의수준에 대해 계산된 검정통계량을 기각역(critical value)라고 한다. 기각역 값을 알고 있다면 유의확률을 유의수준과 비교하는 것이 아니라 검정통계량을 직접 기각역과 비교하여 기각 여부를 판단할 수도 있다.

검정 방법론

검정의 기본적인 논리를 다시 정리하면 다음과 같다.

  1. 데이터가 어떤 고정된 확률분포를 가지는 확률변수라고 가정한다. 예를 들어 동전은 베르누이 분포를 따르는 확률변수의 표본이며 트레이더의 수익률은 정규 분포를 따르는 확률변수의 표본이라고 가정한다.

  2. 이 확률분포의 모수값이 특정한 값을 가진다고 가정한다. 이 때 모수가 가지는 특정한 값은 우리가 검증하고자 하는 사실과 관련이 있어야 한다. 이러한 가정을 귀무가설(null hypothesis)이라고 한다. 예를 들어 동전이 공정한 동전이라고 주장하는 것은 베르누이 확률분포의 모수 $\theta$의 값이 0.5 이라고 가정하는 것과 같다. 트레이더가 돈을 잃지 않는 다는 것은 정규 분포의 기댓값 모수 $\mu$ 가 0과 같거나, 그보다 크다고 가정하는 것이다.

  3. 만약 데이터가 주어진 귀무가설에 따른 표본이고 이 표본 데이터를 특정한 수식에 따라 계산한 숫자는 특정한 확률분포를 따르게 된다. 이 숫자를 검정통계량(test statistics)라고 하며 검정통계량의 확률분포를 검정 통계 분포(test statistics distribution)라고 한다. 검정 통계 분포의 종류 및 모수의 값은 처음에 정한 가설 및 수식에 의해 결정된다.

  4. 주어진 귀무가설이 맞으면서도 표본 데이터에 의해서 실제로 계산된 검정통계량의 값과 같은 혹은 그보다 더 극단적인(extreme) 또는 더 희귀한(rare) 값이 나올 수 있는 확률을 계산한다. 이를 유의확률(p-value)이라고 한다.

  5. 만약 유의확률이 미리 정한 특정한 기준값보다 작은 경우를 생각하자. 이 기준값을 유의수준(significance level)이라고 하는 데 보통 1% 혹은 5% 정도의 작은 값을 지정한다. 유의확률이 유의수준으로 정한 값(예 1%)보다도 작다는 말은 해당 검정 통계 분포에서 이 검정 통계치(혹은 더 극단적인 경우)가 나올 수 있는 확률이 아주 작다는 의미이므로 가장 근본이 되는 가설 즉, 귀무가설이 틀렸다는 의미이다. 따라서 이 경우에는 귀무가설을 기각(reject)한다.

  6. 만약 유의확률이 유의수준보다 크다면 해당 검정 통계 분포에서 이 검정 통계치가 나오는 것이 불가능하지만은 않다는 의미이므로 귀무가설을 기각할 수 없다. 따라서 이 경우에는 귀무가설을 채택(accept)한다.

문제 1의 검정

이제 서두에서 제기한 문제를 다시 풀어보자. 동전의 앞면이 나오는 것을 숫자 1, 뒷면이 나오는 것을 숫자 0으로 나타낸다면 이 문제는 베르누이 확률변수의 모수 검정 문제로 생각할 수 있다. 판단하고자하는 귀무가설은 베르누이 확률분포 모수 $\mu = 0.5$이다.

이 문제에 대한 검정통계량은 앞면이 나온 횟수가 된다.

$$ t = \sum_{i=1}^N x_i $$

그리고 이 값은 $N=15$인 이항 분포를 따른다.

In [3]:
N = 15
mu = 0.5
rv = sp.stats.binom(N, mu)

xx = np.arange(N + 1)

plt.subplot(211)
plt.stem(xx, rv.pmf(xx))
plt.ylabel("pmf")
plt.title("검정통계량 분포(이항 분포)의 pmf")
black = {"facecolor": "black"}
plt.annotate('검정통계량 t=12', xy=(12, 0.02), xytext=(12, 0.1), arrowprops=black)

plt.subplot(212)
plt.stem(xx, rv.cdf(xx))
plt.ylabel("cdf")
plt.title("검정통계량 분포(이항 분포)의 cdf")

plt.tight_layout()
plt.show()

만약 동전이 공정하지 않다는 것을 보이고 싶다면 양측 유의확률을 계산해야 한다. 검정통계량 t=12$에 대한 유의확률은 약 3.5%이다.

$$ \text{Bin}(n \geq 12 \text{ or } n \leq 3 ; N=15, \mu=0.5) = 2(1 - F(11;N=15, \mu=0.5)) = 0.03515625 $$
In [4]:
2 * (1 - rv.cdf(11))
Out:
0.03515625

이 값은 5%보다는 작고 1%보다는 크기 때문에 유의수준이 5%라면 귀무가설을 기각할 수 있으며 공정한 동전이 아니라고 말할 수 있다. 만약 유의수준이 1%라면 귀무가설을 기각할 수 없다. 즉, 공정한 동전이 아니라고 말할 수 없다.

만약 동전이 앞면이 더 많이 나온다는 것을 보이고 싶다면 우측 유의확률을 계산해야 한다. 이 값은 약 1.8% 이다.

$$ \text{Bin}(n \geq 12;N=15, \mu=0.5) = 1 - F(11;N=15, \mu=0.5) = 0.017578125 $$
In [5]:
1 - rv.cdf(12-1)
Out:
0.017578125

문제 2의 검정

수익률이 정규 분포를 따른다고 가정하면 이 트레이더의 검정통계량은 다음과 같이 계산한다.

$$ t = \dfrac{m}{\frac{s}{\sqrt{N}}} = -1.4025 $$
In [6]:
rv = sp.stats.norm()

xx = np.linspace(-4, 4, 100)

plt.subplot(211)
plt.plot(xx, rv.pdf(xx))
plt.ylabel("pdf")
plt.title("검정통계량 분포(이항 분포)의 pmf")
black = {"facecolor": "black"}
plt.annotate('검정통계량 t=-1.4025', xy=(-1.4, 0.15), xytext=(-1.4, 0.25), arrowprops=black)
xx2 = np.linspace(-4, -1.4025, 100)
plt.fill_between(xx2, rv.pdf(xx2), facecolor='blue', alpha=0.35)

plt.subplot(212)
plt.plot(xx, rv.cdf(xx))
plt.fill_between(xx2, rv.cdf(xx2), facecolor='blue', alpha=0.35)
plt.ylabel("cdf")
plt.title("검정통계량 분포(이항 분포)의 cdf")

plt.tight_layout()
plt.show()

만약 이 트레이더가 장기적으로 손실을 낸다는 것을 보이고 싶다면 좌측 유의확률을 구해야다. 이 값은 약 11.67%이다.

$$ t(t\leq -1.4025;dof=4,\mu=0) = F(-1.4025;dof=4,\mu=0) = 0.1167 $$
In [7]:
x = np.array([-0.025, -0.05, 0.043, -0.037, -0.056])
t = x.mean()/x.std(ddof=1)*np.sqrt(len(x))
t, sp.stats.t(df=4).cdf(t)
Out:
(-1.4025921414082105, 0.11669216509589829)

만약 유의수준이 10%라면 유의확률이 이보다 크기 때문에 귀무가설을 기각할 수 없다. 즉, 정규 분포의 기댓값이 0 보다 작다고 말할수 없다. 이는 해당 트레이더가 장기적으로 손실을 보는 트레이더라고 말할 수 있는 증거가 부족하다는 의미이다.

질문/덧글

분산의 공식에 대해 질문이 있습니다. guts*** 2016년 5월 30일 10:58 오후

검정통계량과 분산 $\sigma^2$ 을 모를때의 정규 분포 확률 변수를 설명해주시는 부분에서 샘플 분산의 공식이
$$ s^2 = \dfrac{1}{N}\sum_{i=1}^{N} (x_i-m)^n $$
이라고 되어있는데, $(x_i - m)^2$ 들의 합이 아니라 $(x_i - m)^n$이 되는 이유를 모르겠습니다.

답변: 분산의 공식에 대해... 관리자 2016년 5월 31일 10:00 오전

오타입니다. $(x_i - m)^2$ 이 맞습니다. 수정하였습니다. 지적해 주셔서 감사합니다.

사용자에 의해 삭제되었습니다. lsjh*** 2016년 7월 28일 1:03 오전

사용자에 의해 삭제되었습니다.

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 moon*** 2016년 9월 27일 10:41 오후

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 에서

평균 모수를 검정할 때 샘플 평균을 샘플 분산으로 정규화 하신 부분에서 test statistics 값이

t = m / (s/N^1/2) 로 되어있는데 student-t분포를 따르려면 t = (m-평균모수(mu)) / (s/N^1/2) 가 되어야 하지 않나요?

그리고 샘플 분산값 또한 N이 아닌 N-1 인 이유는 무엇인가요?

cf. student-t분포 강의자료 하단의 식을 바탕으로 드리는 질문입니다.

답변: 4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 관리자 2016년 9월 28일 2:16 오후

말씀하신 내용이 맞습니다. 오타를 수정하였습니다. 지적 감사드립니다.

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 moon*** 2016년 10월 16일 11:13 오후

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수

에서 σ^2 모수를 검정할 때 검정 통계량 수식인

(N-1) * s^2/σ0^2 에서 σ0 은 귀무 가설에서 설정한 분산 모수의 값인가요?

그리고 해당 검정통계량이 카이제곱 분포를 따르고 χ2(t;0,1,N−1) 모수가 0, 1, N-1 로 되어있는데

분포의 기댓값과 분산도 카이제곱 분포의 모수로 넣을 수 있나요?

카이제곱분포 페이지 (https://www.datascienceschool.net/view-notebook/683cfb97b17041f3a9a0e6cbee5f1fef/ ) 에서 확률밀도 함수의 모수에

자유도만 있어서 질문 드립니다.

답변: 4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 관리자 2016년 10월 20일 2:43 오후

네 $\sigma_0^2$는 $\sigma^2$의 오타입니다.
또 카이제곱 분포는 말씀하신대로 확률밀도함수에 기대값과 분산 모수를 보통 사용하지 않습니다.
수정하였습니다. 지적 감사합니다.

문제 2 트레이더의 수익률 moon*** 2016년 10월 16일 11:19 오후

문제 2 트레이더의 수익률 에서

1. t분포의 자유도 값을 4로 준 이유는 무엇인가요?

2. 문제 2번에서 사용한 귀무가설은 '정규분포의 기댓값이 0보다 크다.' 인가요?

3. 만약에 2번과 같은 데이터에서 귀무가설을 '정규분포의 기댓값이 0보다 작다' 라고 가정하고 진행한다면 검정통계량은 똑같이 나올 것이고

그렇다면 유의 확률도 F(t=−1.4025;4)=0.1167 로 나오는 것으로 이해되는데 유의수준이 위 문제와 똑같이 10%라면

'정규분포의 기댓값이 0보다 작다' 라는 가정도 기각할 수 없는 것인가요?

답변: 문제 2 트레이더의 수익률 관리자 2016년 10월 20일 2:48 오후

1. 샘플 수가 $N$개이면 검정통계량은 $N-1$자유도의 스튜던트 t 분포를 따릅니다.
2.3. "정규분포의 기댓값이 0보다 작다", 즉, 지속적으로 손실을 주는 트레이더라는 뜻입니다.

"가설"에서 rlaw*** 2019년 1월 1일 5:59 오후

안녕하십니까,

"모수 검정" = 확률 분포의 모수 값이 특정한 값을 가진다는 주장을 "증명하는 행위를" 모수검정이라고 한다.

가 맞아보입니다. (아니다면 죄송합니다!)

수고하십시오.

답변: "가설"에서 관리자 2019년 1월 2일 1:26 오후

수정하였습니다. 지적 감사드립니다.