작성자: admin 작성일시: 2016-05-29 18:18:05 조회수: 2967 다운로드: 178
카테고리: 기초 수학 태그목록:

검정과 유의 확률

검정(testing)은 데이터 뒤에 숨어있는 확률 변수의 분포와 모수에 대한 가설의 진위를 정량적(quantitatively)으로 증명하는 작업을 말한다. 예를 들어 다음과 같은 문제는 검정 방법론을 사용하여 접근할 수 있다.

  • 문제1
어떤 동전을 15번 던졌더니 12번이 앞면이 나왔다. 이 동전은 휘어지지 않은 공정한 동전(fair coin)인가?
  • 문제2
어떤 트레이더의 일주일 수익률은 다음과 같다.:
-2.5%, -5%, 4.3%, -3.7% -5.6%
이 트레이더는 계속해서 돈을 잃을 사람인가?

검정 방법론

가설 증명, 즉 검정의 기본적인 논리는 다음과 같다.

  1. 데이터가 어떤 고정된(fixed) 확률 분포를 가지는 확률 변수라고 가정한다. 예를 들어 동전은 베르누이 분포를 따르는 확률 변수의 표본이며 트레이더의 수익률은 정규 분포를 따르는 확률 변수의 표본이라고 가정한다.

  2. 이 확률 분포의 모수값이 특정한 값을 가진다고 가정한다. 이 때 모수가 가지는 특정한 값은 우리가 검증하고자 하는 사실과 관련이 있어야 한다. 이러한 가정을 귀무 가설(null hypothesis)이라고 한다. 예를 들어 동전이 공정한 동전이라고 주정하는 것은 베르누이 확률 분포의 모수 $\theta$의 값이 0.5 이라고 가정하는 것과 같다. 트레이더가 돈을 잃지 않는 다는 것은 정규 분포의 기댓값 모수 $\mu$ 가 0과 같다고 가정하는 것이다.

  3. 만약 데이터가 주어진 귀무 가설에 따른 표본이고 이 표본 데이터를 특정한 수식에 따라 계산한 숫자는 특정한 확률 분포를 따르게 된다. 이 숫자를 검정 통계량(test statistics)라고 하며 검정 통계량의 확률 분포를 검정 통계 분포(test statistics distribution)라고 한다. 검정 통계 분포의 종류 및 모수의 값은 처음에 정한 가설 및 수식에 의해 결정된다.

  4. 주어진 귀무 가설이 맞으면서도 표본 데이터에 의해서 실제로 계산된 검정통계량의 값과 같은 혹은 그보다 더 극단적인(extreme) 또는 더 희귀한(rare) 값이 나올 수 있는 확률을 계산한다. 이를 유의 확률(p-value)이라고 한다.

  5. 만약 유의 확률이 미리 정한 특정한 기준값보다 작은 경우를 생각하자. 이 기준값을 유의 수준(significance level)이라고 하는 데 보통 1% 혹은 5% 정도의 작은 값을 지정한다. 유의 확률이 유의 수준으로 정한 값(예 1%)보다도 작다는 말은 해당 검정 통계 분포에서 이 검정 통계치(혹은 더 극단적인 경우)가 나올 수 있는 확률이 아주 작다는 의미이므로 가장 근본이 되는 가설 즉, 귀무 가설이 틀렸다는 의미이다. 따라서 이 경우에는 귀무 가설을 기각(reject)한다.

  6. 만약 유의 확률이 유의 수준보다 크다면 해당 검정 통계 분포에서 이 검정 통계치가 나오는 것이 불가능하지만은 않다는 의미이므로 귀무 가설을 기각할 수 없다. 따라서 이 경우에는 귀무 가설을 채택(accept)한다.

가설

확률 분포에 대한 어떤 주장을 가설(hypothesis)이라고 하며 $H$로 표기한다. 이 가설을 증명하는 행위를 통계적 가설 검정(statistical hypothesis testing) 줄여서 검정(testing)이라고 한다. 특히 확률 분포의 모수 값이 특정한 값을 가진다는 주장을 모수 검정(parameter testing)이라고 한다.

모수 검정에서 가장 널리 사용되는 가설 중 하나는 모수의 값이 특정한 실수 값(주로 0) 이라는 가설이다.

$$ H: \theta = \theta_0 $$

이 가설은 회귀 분석(regression)에서 흔하게 사용되는데 회귀 계수의 값이 0이면 종속 변수(target)가 독립 변수(feature)의 영향을 받지 않는 다는 의미가 된다.

귀무 가설과 대립 가설

검정 작업을 하기 위해서는 일단 데이터가 따르는 분포가 어떤 특정한 모수 값으로 고정되어 있다고 가정해야 한다. 이러한 가설을 귀무 가설(null hypothesis)이라고 하며 $H_0$ 로 표기한다. 귀무 가설은 확률 분포를 특정한 상태로 고정시켜야 하므로 반드시 등식(equality)으로 표현되어야 한다.

귀무 가설과 같이 고려하는 가설이 대립 가설(alternative hypothesis)이며 $H_a$ 로 표기한다. 보통 대립 가설은 모수의 값이 특정한 값보다 크거나 작은 것을 나타낸다. 대립 가설이 사실일 가능성이 높아지면 귀무 가설은 기각하게 된다.

일반적으로 생물학적 약품, 화학적 약품 등의 제품을 연구 개발할 때 연구 중인 새 제품이 기존의 제품 성능보다 더 큰 성능을 보여주거나 불량률 등이 너 낮아진 것을 보이는 것이 목표인 경우가 많기 때문에 대립 가설을 연구 가설(research hypothesis)이라고도 한다. 따라서 대부분의 경우 사실임을 증명하고자 하는 가설이 대립 가설이 된다.

다음은 귀무 가설과 대립 가설의 예이다.

  1. 만약 $\theta$ 가 0 이 아니라는 것을 증명하고 싶다면 귀무 가설과 대립 가설은 다음과 같다.
$$ H_0: \theta = 0 ,\;\;\; H_a: \theta \neq 0 $$
  1. 만약 $\theta$ 가 0보다 크다는 것을 증명하고 싶다면 귀무 가설과 대립 가설은 다음과 같다.
$$ H_0: \theta = 0, \;\;\; H_a: \theta > 0 $$
  1. 만약 $\theta$ 가 0보다 작다는 것을 증명하고 싶다면 귀무 가설과 대립 가설은 다음과 같다.
$$ H_0: \theta = 0 ,\;\;\; H_a: \theta < 0 $$

여기에서 주의할 점은 귀무 가설과 대립 가설이 반드시 서로 여집합(complement)의 관계에 있을 필요는 없다는 점이다.

첫번째와 같은 형태의 대립 가설을 가지는 경우를 양측 검정(two-tailed testing), 두번째나 세번째와 같은 형태의 대립 가설을 가지는 경우를 단측 검정(one-tailed testing)이라고 하며 이에 따라 추후 유의 확률을 구하는 방법이 달라지게 된다.

검정 통계량

검정을 하려면 즉, 귀무 가설이 맞거나 틀린 것을 증명하려면 어떤 증거가 있어야 한다. 이 증거에 해당하는 숫자를 검정 통계량(test statistics)라고 한다.

검정 통계량의 예를 들면 다음과 같다.

  • "어떤 병에 걸렸다"라는 가설을 증명하려면 환자의 혈액을 채취하여 혈액 내의 특정한 성분의 수치를 측정해야 한다고 가정하자. 이 때 해당 수치가 바로 검정 통계량이 된다.

  • "어떤 학생이 우등 상장을 받을 수 있는 우등생이다"라는 가설을 증명하려면 시험 성적을 측정하면 된다. 이 시험 성적을 검정 통계량이라고 부를 수 있다.

데이터 분석에서 검정 통계량 $t$ 는 표본 데이터로부터 계산되는 함수이다.

$$ t = f(x_1, x_2, \ldots, x_N) $$

검정 통계량은 확률 변수의 표본 데이터에서 계산된 함수의 값이므로 어떤 값이 나올지 정확하게 예측할 수 없다. 즉 확률적이다. 따라서 검정 통계량 $t$ 도 검정 통계량 확률 변수 $T$ 라는 새로운 확률 변수의 표본으로 볼 수 있다.

데이터가 따르는 확률 분포가 이미 귀무가설에 의해 결정되어 있고 여기에서는 나온 표본 데이터를 계산하는 함수도 결정되어 있으므로 검정 통계량 확률 변수$T$가 따르는 분포도 이 두가지에 의해 결정되게 된다.

예를 들어 베르누이 확률 분포를 따르는 확률 변수의 표본 값 $N$개를 합하면 이항 분포를 따른다.

또 다른 예로 정규 분포를 따르는 확률 변수의 $N$개의 표본 값 $x_1, \ldots, x_N$에서 다음 수식으로 계산한 값은 스튜던트 t 분포를 따른다.

$$ t = \dfrac{m}{\frac{s}{\sqrt{N}}} $$

여기에서

$$ m = \dfrac{1}{N}\sum_{i=1}^{N} x_i $$$$ s^2 = \dfrac{1}{N}\sum_{i=1}^{N} (x_i-m)^2 $$

데이터에 대한 아무런 함수나 검정 통계량이 될 수 있는 것이 아닌다. 어떤 함수가 검정 통계량이 되려면 귀무 가설이 사실일 경우 표본에서 계산된 검정 통계량이 따르는 검정 통계량 확률 변수 $T$의 확률 분포를 정량적으로 알 수 있어야만 한다.

예를 들어 "어떤 병에 걸렸다"는 가설을 혈액 성분 수치로부터 판단하려면 병에 걸린 환자의 성분 수치가 어떤 분포를 따르는지 알 수 있어야 한다. 현실에서는 실제로 병에 걸린 다수의 환자의 혈액 성분 수치를 사용하여 검정 통계량 분포를 구한다. 또한 "어떤 학생이 우등생이다"라는 가설을 시험 성적으로부터 판단하라면 우등생인 모든 학생의 시험 성적에 대한 분포를 구해야 한다.

데이터 분석에서는 어떤 귀무 가설을 만족하는 표본을 입력 변수로 놓고 특정한 함수로 계산한 검정 통계량이 특정한 분포를 따른다는 것을 수학적인 증명을 통해 보이는 것이 일반적이다. 통계학자들의 중요한 연구 중의 하나는 특정한 귀무 가설과 검정 통계량 함수가 주어지면 검정 통계량이 어떤 분포를 따르는 지를 증명해 내는 것이다.

검정 통계량의 예

일반적으로 많이 사용되는 검정 통계량에는 다음과 같은 것들이 있다.

1. 베르누이 분포 확률 변수

모수 $\theta$를 가지는 베르누이 분포 확률 변수에 대해서는 전체 시도 횟수 $N$ 번 중 성공한 횟수 $n$ 자체를 검정 통계량으로 쓸 수 있다. 이 검정 통계량은 자유도 $N$과 모수 $\theta$를 가지는 이항 분포를 따른다.

$$ x \sim \text{Bern} \;\; \rightarrow \;\; t = \sum x \sim \text{Bin} $$

2. 카테고리 분포 확률 변수

모수 벡터 $\alpha$를 가지는 카테고리 분포 확률 변수에 대해서는 전체 시도 횟수 $N$ 번 중 성공한 횟수 벡터 $x$ 자체를 검정 통계량으로 쓸 수 있다. 이 검정 통계량은 자유도 $N$과 모수 벡터 $\alpha$를 가지는 다항 분포를 따른다.

$$ x \sim \text{Cat} \;\; \rightarrow \;\; t = \sum x \sim \text{Mul} $$

3. 분산 $\sigma^2$ 값을 알고 있는 정규 분포 확률 변수

분산 모수 $\sigma^2$의 값을 알고 있는 정규 분포 확률 변수에 대해서는 다음과 같이 샘플 평균을 정규화(nomarlize)한 값을 검정 통계량으로 쓴다. 이 검정 통계량은 표준 정규 분포를 따른다. 이 검정 통계량은 특별히 $z$라고 부른다.

$$ x \sim \mathcal{N}(\mu, \sigma^2) \;\; \rightarrow \;\; z = \dfrac{m-\mu}{\frac{\sigma}{\sqrt{N}}} \sim \mathcal{N}(z;0,1) $$

여기에서 $m$은 샘플 평균

$$ m = \dfrac{1}{N}\sum_{i=1}^{N} x_i $$

4. 분산 $\sigma^2$ 값을 모르는 정규 분포 확률 변수

이번에는 분산 모수 $\sigma^2$의 값을 모르는 정규 분포 확률 변수를 고려하자.

평균 모수 $\mu$ 에 대한 검정을 할 때는 다음과 같이 샘플 평균을 샘플 분산으로 정규화(nomarlize)한 값을 검정 통계량으로 쓴다. 이 검정 통계량은 자유도가 $N-1$인 표준 student-t 분포를 따른다. $N$은 데이터의 수이다.

$$ x \sim \mathcal{N}(\mu, \sigma^2) \;\; \rightarrow \;\; t = \dfrac{m-\mu}{\frac{s}{\sqrt{N}}} \sim t(t;0,1,N-1) $$

여기에서 $m$은 샘플 평균

$$ m = \dfrac{1}{N}\sum_{i=1}^{N} x_i $$

$s^2$은 샘플 분산이다. $$ s^2 = \dfrac{1}{N-1}\sum_{i=1}^{N} (x_i-m)^2 $$

분산 모수 $\sigma^2$에 대한 검정을 할 때는 다음과 같이 샘플 분산을 정규화(normalize)한 값을 검정 통계량으로 쓴다. 이 검정 통계량은 자유도가 $N-1$인 카이 제곱 분포를 따른다. $N$은 데이터의 수이다.

$$ x \sim \mathcal{N}(\mu, \sigma^2) \;\; \rightarrow \;\; t = (N-1)\dfrac{s^2}{\sigma^2} \sim \chi^2 (t;N-1) $$

유의 확률

검정 통계량이 따르는 검정 통계량 분포를 알고 있다면 실제 데이터에서 계산한 검정 통계량 숫자가 분포에서 어느 부분쯤에 위치해 있는지를 알 수 있다. 이 위치를 나타내는 값이 바로 유의 확률(p-value) 이다.

연속 확률 변수에서 특정한 하나의 값이 나올 확률은 보통 0 이므로 검정통계량과 같은 값이 나올 확률을 구해도 0이므로 이 값은 유의 확률로 쓸 수 없다.

따라서 검정 통계량의 유의 확률은 검정 통계량과 같거나 더 극단적인(extreme) 또는 희귀한(rare) 값이 나올 수 있는 확률로 구한다. 이 확률은 검정 통계 확률 분포 밀도 함수에서 꼬리(tail)부분에 해당하는 영역의 면적으로 계산한다.

유의 확률은 "귀무 가설이 맞음에도 불구하고 대립 가설을 옹호하는 현재의 검정 통계량과 같은(혹은 대립 가설을 더 옹호하는) 표본 데이터가 나올 확률"을 나타낸다고 해석할 수 있다. 즉 유의 확률의 값이 아주 작다는 것은 귀무 가설이 맞다는 가정하에 현재의 검정 통계량 값이 나올 가능성이 매우 적다는 의미이다. 따라서 유의 확률의 값이 아주 작으면 귀무 가설을 기각하고 대립 가설을 채택할 수 있다.

예를 들자면 "혈압이 정상이다(고혈압이 아니다)"라는 귀무 가설을 증명하기 위한 검정에서 혈압 검사 결과를 사용하여 계산한 유의확률이 0.02%라는 의미는 실제로 혈압이 정상인 사람 중 혈압 검사 수치가 해당 환자의 혈압보다 우연히 더 높게 나온 사람은 0.02% 뿐이었다는 뜻이다.

유의 확률이 아주 작으면 귀무 가설을 기각하고 대립 가설을 채택한다.

양측 유의 확률

만약 $\theta$ 가 0 이라는 것을 증명하고 싶거나 혹은 반대로 0이 아니라는 것을 증명하고 싶다면 귀무 가설과 대립 가설을 다음과 같이 사용한다.

$$ H_0: \theta = 0 ,\;\;\; H_a: \theta \neq 0 $$

이 때는 양측(two-tail) 유의 확률을 사용한다. 양측 유의 확률은 귀무 가설이 맞음에도 불구하고 실제로 나온 검정통계량과 같거나 더 희귀한 값이 나올 수 있는 확률이다. 이 때 희귀한 정도는 검정통계량의 확률 밀도 $p(t)$를 기준으로 한다.

$$ P( t_2 < T \text{ or } T < t_1 | H_0 ) = F(t_1) + (1 - F(t_2))$$

이 식에서 $t_1$, $t_2$는 검정통계량의 확률 밀도 $p(t)$와 같은 값을 가지는 두 개의 검정통계량이다. 둘 중 하나는 $t$와 같다.

이 때 유의 확률이 아주 작으면 귀무 가설을 기각하고 대립 가설을 채택한다, 즉 $\theta$는 0 이 아니다. 반대로 귀무 가설이 아주 작지 않으면 귀무 가설을 기각할 수 없으므로 채택할 수 밖에 없다. 즉 $\theta$는 0 이다.

우측 유의 확률

만약 $\theta$ 가 양수라는 것을 증명하고 싶다면 귀무 가설과 대립 가설은 다음과 같다.

$$ H_0: \theta = 0, \;\;\; H_a: \theta > 0 $$

이 때는 우측(right-tail)유의 확률을 사용한다. 우측(right-tail) 유의 확률은 귀무 가설이 맞음에도 불구하고 실제로 나온 검정통계량과 같거나 더 큰 값이 나올 수 있는 확률이다. 즉 $\theta$가 0이라는 귀무 가설이 틀리고 $\theta$가 양수라는 대립 가설이 맞을 확률을 나타낸다.

$$ P( T > t | H_0 ) = 1 - F(t) $$

이 식에서 $F(t)$ 는 검정 통계량 분포의 누적 확률 분포 함수이다.

예를 들어 어떤 주식의 수익률이 양이라는 것을 보이고 싶다면 수익률이 0이라는 귀무 가설 하에서 실제 데이터로부터 계산된 검정 통계량인 샘플 평균이 0 보다 같거나 큰 값이 나올 확률 즉, 우측 유의 확률이 아주 작다는 것을 보이면 된다.

좌측 유의 확률

반대로 $\theta$ 가 음수이거나 그렇지 않다는 것을 검정하고 싶다면 귀무 가설과 대립 가설은 다음과 같다.

$$ H_0: \theta = 0, \;\;\; H_a: \theta < 0 $$

이 때는 좌측(left-tail) 유의 확률을 사용한다. 좌측 유의 확률은 귀무 가설이 맞음에도 불구하고 실제로 나온 검정통계량과 같거나 더 작은 값이 나올 수 있는 확률이다. 즉 $\theta$가 0이라는 귀무 가설이 틀리고 $\theta$가 음수라는 대립 가설이 맞을 확률을 나타낸다.

$$ P( T < t | H_0 ) = F(t)$$

예를 들어 어떤 주식의 수익률이 음이라는 것을 보이고 싶다면 수익률이 0이라는 귀무 가설 하에서 실제 데이터로부터 계산된 검정 통계량인 샘플 평균이 0 보다 같거나 작은 값이 나올 확률 즉, 좌측 유의 확률이 아주 작다는 것을 보이면 된다.

In:
xx1 = np.linspace(-4, 4, 100)
xx2 = np.linspace(-4, -2, 100)
xx3 = np.linspace(2, 4, 100)

plt.subplot(3, 1, 1)
plt.fill_between(xx1, sp.stats.norm.pdf(xx1), facecolor='green', alpha=0.1)
plt.fill_between(xx2, sp.stats.norm.pdf(xx2), facecolor='blue', alpha=0.35)
plt.fill_between(xx3, sp.stats.norm.pdf(xx3), facecolor='blue', alpha=0.35)
plt.text(-3, 0.1, "p-value=%5.3f" % (2*sp.stats.norm.cdf(-2)), horizontalalignment='center')
plt.title(r"Test statistics = 2. Two-tailed test. $H_a: \mu \neq 0$")

plt.subplot(3, 1, 2)
plt.fill_between(xx1, sp.stats.norm.pdf(xx1), facecolor='green', alpha=0.1)
plt.fill_between(xx3, sp.stats.norm.pdf(xx3), facecolor='blue', alpha=0.35)
plt.text(3, 0.1, "p-value=%5.3f" % (sp.stats.norm.cdf(-2)), horizontalalignment='center')
plt.title(r"Test statistics = 2. One-tailed test. $H_a: \mu > 0$")

plt.subplot(3, 1, 3)
plt.fill_between(xx1, sp.stats.norm.pdf(xx1), facecolor='green', alpha=0.1)
plt.fill_between(xx2, sp.stats.norm.pdf(xx2), facecolor='blue', alpha=0.35)
plt.text(-3, 0.1, "p-value=%5.3f" % (sp.stats.norm.cdf(-2)), horizontalalignment='center')
plt.title(r"Test statistics = -2. One-tailed test. $H_a: \mu < 0$")

plt.tight_layout()
plt.show()

유의 수준과 기각역

계산된 유의 확률 값에 대해 귀무 가설을 기각하는지 채택하는지를 결정할 수 있는 기준 값을 유의 수준(level of significance)라고 한다. 일반적으로 사용되는 유의 수준은 1%, 5%, 10% 등이다.

검정 통계량이 나오면 확률 밀도 함수(또는 누적 확률 함수)를 사용하여 유의 확률을 계산할 수 있는 것처럼 반대로 특정한 유의 확률 값에 대해 해당하는 검정 통계량을 계산할 수도 있다. 유의 수준에 대해 계산된 검정 통계량을 기각역(critical value)라고 한다.

기각역 값을 알고 있다면 유의 확률을 유의 수준과 비교하는 것이 아니라 검정 통계량을 직접 기각역과 비교하여 기각 여부를 판단할 수도 있다.

검정의 예

이제 서두에서 제기한 문제를 다시 풀어보자.

  • 문제1
어떤 동전을 15번 던졌더니 12번이 앞면이 나왔다. 이 동전은 휘어지지 않은 공정한 동전(fair coin)인가?

동전의 앞면이 나오는 것을 숫자 1, 뒷면이 나오는 것을 숫자 0으로 나타낸다면 이 문제는 베르누이 확률 변수의 모수 검정 문제로 생각할 수 있다. 판단하고자하는 귀무 가설은 베르누이 확률 분포 모수 $\theta = 0.5$이다.

이 문제에 대한 검정 통계량은 15번 던져 앞면이 나온 횟수가 12이고 이 값은 자유도가 15인 이항 분포를 따른다.

만약 동전이 앞면이 더 많이 나온다는 것을 보이고 싶다면 우측 유의 확률을 계산해야 한다. 이 값은 약 1.76% 이다.

$$ \text{Bin}(n \geq 12;N=15, \theta=0.5) = 1 - F(11;N=15, \theta=0.5) = 0.017578125 $$
In:
1 - sp.stats.binom(15, 0.5).cdf(12-1)
Out:
0.017578125

이 값은 5% 보다는 작고 1% 보다는 크기 때문에 유의 수준이 5% 라면 기각할 수 있으며(즉 공정한 동전이 아니라고 말할 수 있다.) 유의 수준이 1% 라면 기각할 수 없다.(즉, 공정한 동전이 아니라고 말할 수 없다.)

  • 문제2
어떤 트레이더의 일주일 수익률은 다음과 같다.:
-2.5%, -5%, 4.3%, -3.7% -5.6%
이 트레이더는 계속해서 돈을 잃을 사람인가?

수익률이 정규 분포를 따른 다고 가정하면 이 트레이더의 검정통계량은 다음과 같이 계산된다.

$$ t = \dfrac{m}{\frac{s}{\sqrt{N}}} = -1.4025 $$

만약 이 트레이더가 장기적으로 손실을 낸다는 것을 보이고 싶다면 좌축 유의 확률을 구한다. 이 값은 약 11.67%이다.

$$ t(t\leq -1.4025;dof=4,\mu=0) = F(-1.4025;dof=4,\mu=0) = 0.1167 $$
In:
x = np.array([-0.025, -0.05, 0.043, -0.037, -0.056])
t = x.mean()/x.std(ddof=1)*np.sqrt(len(x))
t, sp.stats.t(df=4).cdf(t)
Out:
(-1.4025921414082105, 0.11669216509589829)

만약 유의 수준이 10%라면 유의 확률이 이보다 크기 때문에 귀무 가설을 기각할 수 없다. 즉, 정규 분포의 기댓값이 0 보다 작다고 말할수 없다. 이는 해당 트레이더가 장기적으로 손실을 보는 트레이더라고 말할 수 있는 증거가 부족하다는 의미이다.

질문/덧글

분산의 공식에 대해 질문이 있습니다. guts*** 2016년 5월 30일 10:58 오후

검정통계량과 분산 $\sigma^2$ 을 모를때의 정규 분포 확률 변수를 설명해주시는 부분에서 샘플 분산의 공식이
$$ s^2 = \dfrac{1}{N}\sum_{i=1}^{N} (x_i-m)^n $$
이라고 되어있는데, $(x_i - m)^2$ 들의 합이 아니라 $(x_i - m)^n$이 되는 이유를 모르겠습니다.

답변: 분산의 공식에 대해... 관리자 2016년 5월 31일 10:00 오전

오타입니다. $(x_i - m)^2$ 이 맞습니다. 수정하였습니다. 지적해 주셔서 감사합니다.

사용자에 의해 삭제되었습니다. lsjh*** 2016년 7월 28일 1:03 오전

사용자에 의해 삭제되었습니다.

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 moon*** 2016년 9월 27일 10:41 오후

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 에서

평균 모수를 검정할 때 샘플 평균을 샘플 분산으로 정규화 하신 부분에서 test statistics 값이

t = m / (s/N^1/2) 로 되어있는데 student-t분포를 따르려면 t = (m-평균모수(mu)) / (s/N^1/2) 가 되어야 하지 않나요?

그리고 샘플 분산값 또한 N이 아닌 N-1 인 이유는 무엇인가요?

cf. student-t분포 강의자료 하단의 식을 바탕으로 드리는 질문입니다.

답변: 4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 관리자 2016년 9월 28일 2:16 오후

말씀하신 내용이 맞습니다. 오타를 수정하였습니다. 지적 감사드립니다.

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 moon*** 2016년 10월 16일 11:13 오후

4. 분산 σ^2 값을 모르는 정규 분포 확률 변수

에서 σ^2 모수를 검정할 때 검정 통계량 수식인

(N-1) * s^2/σ0^2 에서 σ0 은 귀무 가설에서 설정한 분산 모수의 값인가요?

그리고 해당 검정통계량이 카이제곱 분포를 따르고 χ2(t;0,1,N−1) 모수가 0, 1, N-1 로 되어있는데

분포의 기댓값과 분산도 카이제곱 분포의 모수로 넣을 수 있나요?

카이제곱분포 페이지 (https://www.datascienceschool.net/view-notebook/683cfb97b17041f3a9a0e6cbee5f1fef/ ) 에서 확률밀도 함수의 모수에

자유도만 있어서 질문 드립니다.

답변: 4. 분산 σ^2 값을 모르는 정규 분포 확률 변수 관리자 2016년 10월 20일 2:43 오후

네 $\sigma_0^2$는 $\sigma^2$의 오타입니다.
또 카이제곱 분포는 말씀하신대로 확률밀도함수에 기대값과 분산 모수를 보통 사용하지 않습니다.
수정하였습니다. 지적 감사합니다.

문제 2 트레이더의 수익률 moon*** 2016년 10월 16일 11:19 오후

문제 2 트레이더의 수익률 에서

1. t분포의 자유도 값을 4로 준 이유는 무엇인가요?

2. 문제 2번에서 사용한 귀무가설은 '정규분포의 기댓값이 0보다 크다.' 인가요?

3. 만약에 2번과 같은 데이터에서 귀무가설을 '정규분포의 기댓값이 0보다 작다' 라고 가정하고 진행한다면 검정통계량은 똑같이 나올 것이고

그렇다면 유의 확률도 F(t=−1.4025;4)=0.1167 로 나오는 것으로 이해되는데 유의수준이 위 문제와 똑같이 10%라면

'정규분포의 기댓값이 0보다 작다' 라는 가정도 기각할 수 없는 것인가요?

답변: 문제 2 트레이더의 수익률 관리자 2016년 10월 20일 2:48 오후

1. 샘플 수가 $N$개이면 검정통계량은 $N-1$자유도의 스튜던트 t 분포를 따릅니다.
2.3. "정규분포의 기댓값이 0보다 작다", 즉, 지속적으로 손실을 주는 트레이더라는 뜻입니다.