다운로드
작성자: admin 작성일시: 2016-05-02 11:31:45 조회수: 6031 다운로드: 362
카테고리: 기초 수학 태그목록:

확률의 수학적 정의

우리는 초등학교부터 고등학교, 그리고 대학교에 이르기까지 확률에 대한 여러가지 지식을 배운다. 그러나 그 교육과정 어디에도 확률의 수학적 정의를 명확히 서술한 내용은 보기 힘들다. 확률의 수학적 정의를 아는 것은 확률과 관련된 복잡한 문제를 푸는 것 뿐 아니라 지금까지 생각해오던 확률에 대한 관점을 새롭게 환기시키는데도 큰 도움이 된다. 여기에서는 확률의 수학적 정의를 살펴보고 필요한 개념을 소개한다.

확률을 정의하려면 다음의 3가지 개념을 알아야 한다.

  • 확률 표본
  • 표본 공간
  • 사건

표본 공간과 확률 표본

확률은 우리가 현실에서 해결하고자 하는 문제와 결부하여 정의한다. 예를 들어 다음과 같은 문제들을 생각해보자.

  1. 동전을 한번 던졌다. 동전이 앞면이 나올 것인가 뒷면인 나올 것인가?
  2. 플레잉카드(트럼프) 뭉치에서 카드 한장을 선택하였다. 이 카드는 어떤 무늬인가?
  3. 주사위를 던져 하나의 숫자가 나왔다. 이 숫자는 무엇인가?
  4. 약속 날짜를 정하기로 했다. 결정된 날짜가 31일인가 아닌가?
  5. 과일가게에서 손님이 과일을 하나 샀다. 이 과일은 어떤 과일일까?
  6. 삼성전자 주식의 가격은 내일 몇% 오를까?
  7. 자다가 갑자기 잠을 깨고 시계를 보았다. 시계의 분침은 몇 분을 가리키고 있을까?
  8. 체온을 측정하였다. 체온이 몇도일까?

이 문제들의 공통점은 답을 100% 확신할 수 없다는 점이다. 어떤 문제는 무엇이 답인지 전혀 예측할 수 없는 것도 있고 어떤 문제는 어느 정도 정확도 혹은 범위내에서 예측할 수 있는 것도 있다. 확률론은 이러한 문제가 어떤 답을 가질 수 있고 그 답의 신뢰성이 얼마나 되는지 계산하는 정량적인 방법을 제시한다.

이러한 문제를 확률론의 방법으로 접근하기 위해 우선 확률 표본(sample)과 표본 공간(sample space)을 정의해야 한다.

확률 표본 또는 표본(sample)은 풀고자 하는 확률적 문제에서 발생(realize)할 수 있는 하나의 현상, 혹은 선택(sampled)될 수 있는 하나의 경우를 말한다.

표본 공간(sample space)답이 될 수 있는 혹은 선택될 수 있는 모든 표본의 집합을 말한다. 보통 $\Omega$(대문자 오메가)라는 그리스 문자로 표기한다.

표본 공간을 정의한다는 것은 어떤 경우(현상)이 가능하고 어떤 경우(현상)이 가능하지 않은가를 정의하는 작업이다.

예를 들어 동전 던지기 문제에서는 "앞면(Head)이 나오는 현상" 또는 "뒷면(Tail)이 나오는 결과"가 각각 표본이 될 수 있다. 이를 기호 "H"와 "T"로 표시하기로 하자. 플레잉카드 문제에서는 다이아몬드(◆), 하트(♥), 스페이드(♠), 클럽(♣) 기호를 이용하여 표본을 표시할 수 있다.

이러한 기호를 사용하면 각각의 표본 공간은 다음처럼 표기할 수 있다.

$$ \Omega_1 = \{ H, T \} $$$$ \Omega_2 = \{ ♦, ♥, ♠, ♣ \} $$

연습 문제 7.1.3

  1. 주사위를 던져 나오는 숫자를 구하는 문제를 확률론적으로 접근할 때 표본 공간 $\Omega_3$을 구하라.
  2. 약속 날짜를 정하기로 했다. 결정된 날짜가 31일인가 아닌지 구하는 문제를 확률론적으로 접근할 때 표본 공간 $\Omega_4$을 구하라.

표본 공간은 풀고자하는 문제에 의해 정해진다. 예를 들어 과일가게에서 손님이 산 과일을 맞추는 문제에서 표본공간은 그 과일과게에서 파는 과일에 따라 달라진다. 예를 들어 사과(Apple)와 오렌지(Orange)만 파는 과일가게였다면 표본 공간은 다음과 같을 것이다.

$$ \Omega_5 = \{ A, O \} $$

표본이 연속적인 숫자인 경우에는 표본 공간이 무한개의 원소를 가질 수 있다. 예를 들어 삼성전자의 주식은 다음날 -30%부터 30%까지 내리거나 오를 수 있다. 따라서 표본 공간은 다음과 같다.

$$ \Omega_6 = \{ x: -30 \leq x \leq 30 \} $$

이 표본 공간은 구간이 정해져 있어도 구간내의 모든 실수를 원소로 가지므로 원소의 갯수가 무한개이다.(정확히 말하면 매매시 틱사이즈라고 부르는 가격단위가 정해저 있으므로 원소의 갯수가 무한개는 아니다. 그러나 여기에서는 이를 무시하기로 하자.)

연습 문제 7.1.4

  1. 잠을 자다 깨어나 시계를 보았을 때 분침이 가리키는 각도를 표본이라고 하면 표본 공간 $\Omega_7$는? 이 표본 공간의 표본의 갯수는?
  2. 측정한 체온을 표본이라고 하면 표본 공간 $\Omega_8$는? 이 표본 공간의 표본의 갯수는?

연습 문제 7.1.5

확률론으로 접근할 수 있는 문제와 그 표본 공간의 예를 4가지 더 만들어본다. 4가지 문제 중 2가지는 표본 공간의 크기가 무한대이어야 한다.

사건

사건(event)표본 공간 $\Omega$의 부분집합, 즉, 전체 표본 공간 중에서 우리가 관심을 가지고 있는 일부 표본의 집합을 뜻한다. 보통 $A,B, C, \cdots$ 식으로 대문자 알파벳으로 표기한다.

위에서 예로 든 동전 표본 공간에서는 가능한 사건(부분집합)은 다음과 같다.

$$ A = \{\} = \emptyset $$$$ B = \{H\} $$$$ C = \{T\} $$$$ D = \{H, T\} = \Omega $$

예로 든 $B$라는 사건은 "동전의 앞면이 나오는 경우"를 뜻하고 $D$라는 사건은 "동전의 앞면이 나오거나 뒷면이 나오는 경우"를 뜻한다. 이를 다른 말로 하면 "3보다 큰 숫자가 주사위의 윗면이 되는 경우"를 뜻한다. "~가 나오는 경우"라고 말할 때 이 "경우"라는 개념이 바로 사건(부분집합)에 해당한다.

파이썬으로 다음처럼 부분집합의 집합을 구현할 수 있다. 부분집합을 set 자료형이 아닌 frozenset 자료형으로 만든 이유는 딕셔너리의 키(key)로 사용하기 위해서이다.

In [4]:
A = frozenset([])
B = frozenset(['H'])
C = frozenset(['T'])
D = frozenset(['H', 'T'])
set([A, B, C, D])
Out:
{frozenset(), frozenset({'T'}), frozenset({'H'}), frozenset({'H', 'T'})}

연습 문제 7.1.6

  1. 플레잉카드 한장을 뽑아서 무늬를 결정하는 문제의 표본 공간 $\Omega_2$의 모든 사건을 구하고 이를 frozensetset으로 만든다.
  2. 주사위를 하나 던져서 숫자를 결정하는 문제의 표본 공간 $\Omega_3$의 모든 사건을 구하고 이를 frozensetset으로 만든다.

확률

확률(probability)이란 사건(부분 집합)을 입력하면 숫자(확률값)가 출력되는 함수이다. 확률의 정의역은 표본 공간의 모든 사건(부분집합)의 집합이다. (주: 엄격한 정의로는 모든 사건의 집합이 아니라 시그마 대수(sigma algebra)라는 특별한 사건 집합에 대해서만 정의하면 된다. 하지만 여기에서는 시그마 대수는 고려하지 않기로 한다.)

$$ \text{사건(부분집합)} \rightarrow \text{숫자} $$

즉, 모든 각각의 사건(부분 집합)에 어떤 숫자를 할당(allocate)한 것이 확률이다. 보통 대문자 알파벳 $P$ 로 나타낸다. $P$는 함수이고 $P(A)$는 $A$라는 사건에 할당된 숫자를 뜻한다.

다만 이 함수는 다음과 같은 세가지 규칙을 지켜야 한다.

(1) 모든 사건에 대해 확률은 실수이고 0 또는 양수이다.

$$P(A)\in\mathbf{R}, P(A)\geq 0 $$

(2) 표본공간이라는 사건에 대한 확률은 1이다.

$$P(\Omega) = 1$$

(3) 공통 원소가 없는 두 사건의 합집합의 확률은 각각의 사건의 확률의 합이다.

$$ A \cap B = \emptyset \;\;\; \rightarrow \;\;\; P(A \cup B) = P(A) + P(B) $$

이 세 가지를 콜모고로프의 공리(Kolmogorov's axioms)라고 한다.

파이썬에서는 사건을 키(key)로 가지고 숫자를 값(value)으로 가지는 딕셔너리를 사용하여 확률 함수를 구현할 수 있다. 동전의 경우를 구현하면 다음과 같다.

In [8]:
P = {A: 0, B: 0.4, C: 0.6, D: 1}
P
Out:
{frozenset(): 0,
 frozenset({'H'}): 0.4,
 frozenset({'T'}): 0.6,
 frozenset({'H', 'T'}): 1}

이 예에서 동전의 앞면이 나오는 경우에 대해 할당된 확률값이 0.5가 아닌 0.4임에 주의하라. 콜모고로프의 공리만 지킨다면 각각의 사건(부분집합)에 대한 확률값은 어떤 값도 할당해도 된다.

다음은 주사위 문제에서 가능한 사건 중 일부에 대해 확률값을 할당한 "예"이다.

$$ P(A) = P(\{2\}) = \dfrac{1}{6} $$$$ P(B) = P(\{4,5,6\}) = \dfrac{1}{2} $$$$ P(C) = P(\{1,2\}) = \dfrac{1}{3} $$$$ P(D) = P(\{1,2,3,4,5,6\}) = 1 $$

예를 들어 표본 공간이 $\{ H, T \}$일 때 사건 $\{ H \}$에 대한 확률값 $P(\{ H \})$는 "H라는 표본이 선택될 확률", 사건 $\{ H, T \}$에 대한 확률값 $P(\{ H, T \})$는 "H 또는 T라는 표본이 선택될 확률"이다. 따라서 확률이라는 함수를 정의한다는 것은 "무엇이 선택될 확률이 얼마인가"라는 질문에 대한 답을 모든 경우에 대해 미리 준비해 놓은 것이라 할 수 있다.

연습 문제 7.1.7

  1. 플레잉카드 한장을 뽑아서 무늬를 결정하는 문제에 대해 위와 같이 파이썬으로 확률을 할당하여 본다.
  2. 주사위를 하나 던져서 숫자를 결정하는 문제에 대해 위와 같이 파이썬으로 확률을 할당하여 본다.

확률은 표본이 아닌 사건을 입력으로 가지는 함수

확률에 대해 사람들이 흔히 가지고 있는 오해는 확률이 "표본 하나 하나에 대해 정의되어 있는 숫자"라는 것이다.

$$ \text{표본} \rightarrow \text{숫자} $$

즉, 표본을 입력하여 숫자(확률값)를 출력하는 함수라고 잘못 알고 있다. 예를 들어 주사위를 던져 숫자 1이 나타날 다음처럼 생각한다.

$$ P(1) = \dfrac{1}{6} $$

하지만 확률은 표본이 아닌 사건(부분집합)에 대해 정의하기 때문에, 이 수식은 틀렸다(이 식의 $P$는 확률이 아니라 뒤에서 이야기할 확률질량함수이어야 한다). 올바른 식은 다음과 같다.

$$ P(\{1\}) = \dfrac{1}{6} $$

주사위 한 면의 확률은 정말 $\frac{1}{6}$ ?

위에서 주사위의 확률값 할당을 이야기 할 때, 확률을 정의한 "예"라는 말을 썼다는 점에 주의하자. 그렇다면 $ P(\{ 1 \}) = \frac{1}{6} $ 이 아닌 경우도 있단 말인가? 답은 "그렇다"이다. 왜일까? 주사위의 면은 6개이니까 당연히 나올 수 있는 경우의 수는 6개, 따라서 1을 6으로 나눈 값이 아니란 말인가?

여러분 손에 현실의 주사위가 있다고 하자. 그 주사위를 던지면 정말로 특정한 하나의 면이 나올 가능성이 "정확하게" 6분의 1일까? 이렇게 묻는다면 대부분은 "정확하게는 그렇지 않다"고 대답할 것이다. 그 이유는 주사위를 아주 정밀하게 만들지 않으면 어떤 면이 미세하게나마 더 잘나오게 되는 경우가 발생할 수 있기 때문이다. 더 극단적인 경우를 생각해 보자. 누군가가 주사위 도박에서 사기를 치기 위해 특수한 주사위를 만들었다고 하자. 이 주사위는 절대로 6이 나오지 않으며 10번을 던지면 5번은 반드시 1이 나오게 만들었다면? 이 때는 확률값이 어떻게 할당되어 있는 상태인가?

그림 7.1.1 :

이 때는 확률이 다음과 같이 할당되어 있다고 할 수 있다.

$$ P(\{1\}) = 0.5 $$$$ P(\{6\}) = 0 $$

전체 사건의 확률들이 콜모고로프 정의만 만족하면 된다.

연습 문제 7.1.8

위의 두 조건 $$ P(\{1\}) = 0.5 $$ $$ P(\{6\}) = 0 $$ 을 만족하도록 주사위의 확률을 모든 부분집합에 대해 할당해 본다. 파이썬으로 구현한다.

그렇다면 우리는 왜 지금까지 주사위의 한 면이 나올 확률은 $\frac{1}{6}$이라고 생각해 왔던 것일까? 그 이유는 확률의 정의와는 무관한 다음 사실을 가정하고 있기 때문이다.

주사위가 공정(fair)한 주사위이다. 혹은 공정하지 않다고 생각할 수 있는 증거가 아직 없다.

주사위가 공정(fair)하다면 특정한 주사위 하나의 면이 나올 확률값은 모두 같고 이를 $x$라 하자.

$$ P(\{1\}) = P(\{2\}) = P(\{3\}) = P(\{4\}) = P(\{5\}) = P(\{6\}) = x $$

그리고 이 사건들은 서로 공통원소가 없고 합집합은 전체 집합이므로 확률의 성질을 이용하여 다음과 같이 각 확률이 $\frac{1}{6}$임을 구할 수 있다.

$$ P(\{1\}) + P(\{2\}) + P(\{3\}) + P(\{4\}) + P(\{5\}) + P(\{6\}) = 6x = P(\{1,2,3,4,5,6\}) = P(\Omega) = 1 $$$$ x = 1/6$$

즉, 이 방법은 확률 값을 만드는 방법의 하나일 뿐이고 현실에서 꼭 이대로 확률 값 즉, 숫자를 배당할 이유는 없다.

이 논리에 따르면 표본의 갯수가 유한하고 각 사건에 대해 원소의 갯수 이외의 아무런 정보가 없다면 각 사건의 확률을 다음과 같다고 보는 것이 타당하다.

$$ P(A) = \dfrac{\text{card}(A)}{\text{card}(\Omega)} $$

그러나 만약 다른 곳에서 얻은 정보(예: 도메인 지식)이나 표본에 대한 데이터가 존재하는 경우에는 보다 믿을 수 있는 확률값을 계산할 수 있다.

연습 문제 7.1.9

  1. 약속 날짜가 31일인가 아닌가를 결정하는 문제에서 확률을 할당해 보자.
  2. 과일가게에서에 손님이 선택한 과일(사과 혹은 오렌지)이 어떤 과일인지 결정하는 문제에 대해 확률을 할당해 보자.
  3. 과일가게에서에 과일이 100개가 진열되어 있고 이 중 70개가 사과, 30개가 오렌지이다. 손님이 선택한 과일을 결정하는 문제에 대해 확률을 할당해 보자.

단순사건과 확률질량함수

콜로고로프의 정리를 사용하면 어떤 사건의 확률값을 이용하여 다른 사건의 확률값을 계산할 수 있다. 예를 들어 표본을 1개만 가지는 사건을 단순사건(elementary event, atomic event)이라고 한다. 단순사건은 교집합을 가지지 않으므로 유한개의 사건만 있는 경우, 모든 단순사건의 확률값을 알면 콜모고로프의 세번째 공리에 의해 다른 모든 사건의 확률값을 계산할 수 있다.

예를 들어 플레잉카드의 단순사건과 그 확률이 다음과 같이 정의되어 있다고 하자.

$$ P(\{♦\})=0.1, P(\{♥\})=0.2, P(\{♠\})=0.3, P(\{♣\})=0.4 $$

다음처럼 모든 사건에 대한 확률을 계산할 수 있다.

$$ P(\{♥,♠\})=0.2+0.3=0.4 $$

표본이 숫자인 경우(뒤에서 설명할 확률 변수의 경우), 사건 대신 숫자(표본)를 입력으로 가지고 확률값을 출력으로 가지는 함수 $p$를 정의할 수 있는데 이를 확률질량함수(probability mass function)라고 한다. 확률과 확률질량함수는 다른 개념이라는 점을 주의한다.

$$ \text{확률}: P(\{1\}) = 0.2 $$$$ \text{확률질량함수}: p(1) = 0.2 $$$$ \text{확률}: P(\{1, 2\}) = 0.3 $$$$ \text{확률질량함수}: p(1,2) : \text{정의되지 않는다.} $$

표본의 수가 무한한 경우

왜 확률을 정의할 때 입력을 표본이 아닌 사건으로 정의하였을까? 다시 말해 왜 확률값을 표본에 대해 할당하지 않고 사건에 대해 할당하였을까? 그 이유는 표본의 수가 무한한 경우를 다루기 위해서이다.

잠에서 깨어나 시계를 보았을 때 시계의 분침이 이루는 각도를 결정하는 문제를 생각하자. 정각 12시를 가리킨다면 0도이고 정각 1시를 가리키면 30도이다. 그렇다면 이 시계 바늘 문제에서 분침이 정각 12시를 가르킬 확률 즉, 각도가 정확하게 0도가 될 확률은 얼마일까?

그림 7.1.2 : 시계

만약 모든 각도에 대해 가능성이 똑같다면, 바늘이 정각 12시를 가르킬 확률 즉, 각도가 정확하게 0이 될 확률은 0이다.

수식으로 나타내면 다음과 같다.

$$ P(\{ \theta = 0^{\circ} \}) = 0$$

각도가 0이 아닌 어떤 경우도 마찬가지이다. 예를 들어 시계 바늘이 1시를 가리키는 경우, 즉 각도가 30도가 되는 경우도 마찬가지이다.

$$ P(\{ \theta = 30^{\circ} \}) = 0$$

왜 그럴까. 모든 각도에 대해 가능성이 똑같으므로 그 확률을 $x$라는 값이라고 하자. 그런데 각도가 나올 수 있는 경우는 무한대의 경우가 있으므로 만약 $x$가 0이 아니라면 $x \times \infty = \infty$로 전체 표본 집합의 확률이 무한대가 된다. 즉, 1이 아니다. 따라서 표본의 수가 무한하고 모든 표본에 대해 표본 하나만을 가진 사건의 확률이 동일하다면, 표본 하나에 대한 사건의 확률은 언제나 0이다.

이번에는 다음과 같은 사건(event)을 생각해 보자. 확률은 얼마라고 말할 수 있을까?

  • 시계 바늘이 12시와 1시 사이에 있는 경우, 즉 각도가 0도보다 같거나 크고 30도보다 작은 경우
$$ P(\{ 0^{\circ} \leq \theta < 30^{\circ} \}) = ?$$

이 경우에는 동일한 가능성을 지닌 사건이 12개 있으므로 (1시와 2시 사이, 2시와 3시 사이 등) 전체집합의 확률 1을 12로 나누면 주어진 사건에 대한 확률은 $1/12$가 된다.

$$ P(\{ 0^{\circ} \leq \theta < 30^{\circ} \}) = 1 \div 12 = \frac{1}{12}$$

다음은 일부 사건에 대해 확률을 할당한 예이다.

$$ P(\{ 0^{\circ} \leq \theta < 30^{\circ} \}) = \frac{1}{12}$$$$ P(\{ 30^{\circ} \leq \theta < 60^{\circ} \}) = \frac{1}{12}$$$$ P(\{ 0^{\circ} \leq \theta < 60^{\circ} \text{ or } 90^{\circ} \leq \theta < 150^{\circ} \}) = \frac{1}{3}$$

다만 원소의 수가 무한대인 표본 집합의 경우에는 사건(부분집합)의 수도 무한대이므로 확률을 할당하거나 어떻게 할당했는지 다른 사람에게 설명하기가 어렵다. 이 경우에는 나중에 설명하게 될 확률밀도함수(probability density function)을 사용한다.

연습 문제 7.1.10

위 시계바늘 문제에서 각자 여러가지 방법으로 확률을 할당해 보자. 그리고 이 결과를 다른 사람에게 요약하여 전달해 보자. 어떤 방법을 사용해야 효과적으로 그리고 정확하게 확률 할당 결과를 전달할 수 있겠는가?

질문/덧글

확률 사건이 pjw9*** 2017년 7월 4일 10:15 오전

표본공간내의 부분 집합이라고 하셨는데 위의 주사위예에서 {1,2,3}은 1 또는 2또는 3이 나올 사건이라고 이해했습니다. 그렇다면 1,2,3 이 동시에 나올 사건은 위 예에서는 표본 공간내의 부분집합이 아닌건가요? 아니라면 어떻게 위 예에서 표본을 정의하여야 1,2,3이 동시에 나올 사건을 부분집합으로 표현할수 있을까요?

답변: 확률 사건이 lhj9*** 2018년 1월 4일 11:16 오전

1,2,3이 동시에 나오려면 [동시에 주사위를 3번 던졌을 경우] 에 1,2,3이 동시에 나올 사건을 부분 집합으로 표현할 수 있을 것 같습니다.

윗글에서는 주사위 1 or 2 or 3이 나올 사건은 주사위를 한 번 던졌을 경우라고 생각하시면 될 것 같습니다.