작성자: admin 작성일시: 2016-05-03 01:18:52 조회수: 1567 다운로드: 124
카테고리: 기초 수학 태그목록: 데이터 사이언스 강의

결합 확률과 조건부 확률

중요 개념

  • 결합 확률
  • 조건부 확률
  • 독립

확률론에서는 하나의 사건(부분 집합)을 선택된 표본이 포함되어 있을 수 있는 하나의 부분 집합으로 본다. 따라서 하나의 사건(부분 집합)은 "선택된 표본이 이 사건(부분 집합) 안에 있다"라는 주장 혹은 가설이라고도 생각할 수 있다.

따라서 사건(부분 집합)의 확률은 그 사건(부분 집합)이 선택된 표본을 포함할 가능성, 즉, 그 주장이 진실일 가능성, 다른말로 가설의 신뢰도를 뜻한다.

베이지안 확률론의 장점은 추가적인 정보가 발생하였을 때 이 추가 정보를 사용하여 기존에 가지고 있던 확률 즉, 어떤 가설에 대한 신뢰도를 좀 더 정확하게 수정할 수 있다는 점이다.

추가적인 정보는 보통 또다른 사건의 형태로 발생한다. 즉 "어떤 또다른 사건이 진짜로 발생했다"는 말은 "실제로 발생한 표본이 확실하게 포함된 새로운 집합을 알게 되었다"는 의미이다.

범인 찾기의 예

예를 들어 살인 사건이 발생하였다고 가정하자.

경찰은 전체 용의자 목록을 가지고 있으며 베이지안 확률론 관점에서 이 용의자 목록이 바로 표본 공간이다. 우리가 알고 싶은 것은 전체 용의자 목록(표본 공간)에서 누가 범인(실제로 발생한 표본)인가 하는 점이다.

현재 표본 공간은 20명의 용의자로 구성되어 있으며 이 중 남자가 12 명, 여자가 8 명이라고 가정해 보자.

만약 담당 형사가 범인은 남자라고 생각한다면, "범인이 남자이다."라는 주장은 확률론적 관점에서 남성인 용의자(표본)로만 이루어진 사건(표본 공간의 부분 집합)이 된다. 이를 사건 $A$ 라고 하자.

이 때 우리가 관심을 가지는 것은 "범인이 남자"라는 사건 $A$의 신뢰도 즉, 사건 $A$의 확률 $P(A)$ 이다. 아무런 추가 정보가 없다면 모든 사람이 범인일 가능성이 같기 때문에 범인이 남자일 확률 $P(A)$는 다음과 같이 전체 용의자의 수로 남자 용의자의 수를 나눈 값이 된다.

$$ P(A) = \dfrac{12}{12 + 8} = \dfrac{12}{20} = 0.6 $$

이 때 새로운 사건 $B$ 가 발생하였다고 하자. 바로 범인의 머리카락이 발견된 것이다. 발견된 범인의 머리카락에서 범인은 머리가 길다는 사실을 알게되었다.

이 새로운 사건 $B$ 은 확률론적으로는 새로운 용의자 목록, 즉 머리카락이 긴 사람의 목록이라는 표본 공간의 새로운 부분 집합을 의미한다. 그리고 사건 $B$가 발생했다는 것은 이 용의자 목록에 진짜로 범인이 포함되었다는 뜻이다.

현재 표본 공간 즉, 전체 용의자 목록에는 머리가 긴 사람이 10 명, 머리가 짧은 사람이 10 명이 있다.

만약 이 사건이 진실이라는 보장이 없다면, 사건 $B$에 대한 확률 $P(B)$, 즉 머리가 긴 사람이 범이라는 주장의 신뢰도는 다음과 같다.

$$ P(B) = \dfrac{10}{10 + 10} = \dfrac{10}{20} = 0.5 $$

지금까지의 상황을 요약해 보자.

  • 살인 사건 발생
  • 용의자는 20명
    • 남자 12명, 여자 8명
    • 머리가 긴 사람 10명, 머리가 짧은 사람 10명
  • 범인이 남자일 확률
    • 남자의 집합(사건) $A$에 범인(선택된 표본)이 속해 있다는 주장의 신뢰도: $P(A) = 0.6$
  • 범인이 머리가 길 확률
    • 머리가 긴 사람의 집합(사건) $B$에 범인(선택된 표본)이 속해 있다는 주장의 신뢰도: $P(B) = 0.5$
  • 실제로는 범인이 머리가 길다.

결합 확률과 조건부 확률

베이지안 확률론은 두 사건 $A$와 $B$의 관계를 알고 있다면 사건 $B$가 발생하였다는 사실로 부터 기존에 알고 있는 사건 $A$에 대한 확률 $P(A)$를 좀 더 정확한 확률로 바꿀 수 있는 방법을 알려준다.

이를 위해서는 결합 확률과 조건부 확률이라는 두 가지 개념을 정의해야 한다.

결합 확률(joint probability)사건 $A$와 $B$가 동시에 발생할 확률이다. 다음과 같이 표기한다.

$$ P(A \cap B) \text{ 또는 } P(A, B) $$

또한 $B$가 사실일 경우의 사건 $A$에 대한 확률을 사건 $B$에 대한 사건 $A$의 조건부 확률(conditional probability)이라고 하며 다음과 같이 표기한다.

$$ P(A | B) $$

조건부 확률은 다음과 같이 정의한다.

$$ P(A|B) = \dfrac{P(A,B)}{P(B)} $$

조건부 확률이 위와 같이 정의된 근거는 다음과 같다.

  1. 사건 $B$가 사실이므로 모든 가능한 표본은 사건 $B$에 포함되어야 한다. 즉, 표본 공간 $\Omega \rightarrow B$가 된다.
  2. 사건 $A$의 원소는 모두 사건 $B$의 원소도 되므로 사실상 사건 $A \cap B$의 원소가 된다. 즉, $A \rightarrow A \cap B$가 된다.
  3. 따라서 사건 $A$의 확률 즉, 신뢰도는 원래의 신뢰도(결합 확률)를 새로운 표본 공간의 신뢰도(확률)로 정규화(normalize)한 값이라고 할 수 있다.
  • 조건부 확률 $P(A|B)$
    • 사건 B가 발생한 경우의 사건 A의 확률
    • 표본이 이벤트 B에 속한다는 새로운 사실을 알게 되었을 때,
    • 이 표본이 사건 A에 속한다는 사실의 정확성(신뢰도)이 어떻게 변하는지를 알려준다.
  • 예를 들어, 범인 찾기 문제에서
    • $P(A)$: 범인이 남자일 확률
    • $P(B)$: 범인이 머리가 길 확률
    • $P(A|B)$: 범인이 머리가 길다는 사실을 알게 되었을 때, 달라진(갱신된) "범인이 남자일 확률"
  • 조건부 확률의 값
$$ P(A|B) = \dfrac{P(A,B)}{P(B)} $$

여기서 주의할 점은 사건 $A$와 사건 $B$의 결합 확률의 값 $P(A,B)$은 기존의 사건 $A$의 확률 $P(A)$나 사건 $B$의 확률 $P(B)$와는 전혀 무관한 별개의 정보이다. 즉, 수학적으로 계산하여 구할 수 있는 값이 아니라 외부에서 주어지지 않으면 안되는 정보인 것이다.

앞서 예를 들었던 범인 찾기의 경우에도 이미 주어진 정보 $P(A)$, $P(B)$와 관계없이 $P(A,B)$는 여러 가지 경우가 있을 수 있다.

한 예를 들어 10명의 남자 중 머리가 긴 사람이 다음과 같이 3명일 수도 있고

범인이 머리가 길다: $P(B)=0.5$ 범인이 머리가 길지 않다
범인이 남자다: $P(A)=0.6$ 3명 $\;\;\;P(A,B) = \dfrac{3}{20}$ 9명 12명
범인이 여자다 7명 1명 8명
10명 10명

또 다른 경우에는 10명의 남자 중 머리가 긴 사람이 다음과 같이 6명일 수도 있다.

범인이 머리가 길다: $P(B)=0.5$ 범인이 머리가 길지 않다
범인이 남자다: $P(A)=0.6$ 6명: $\;\;\;P(A,B) = \dfrac{6}{20}$ 6명 12명
범인이 여자다 4명 4명 8명
10명 10명

이 두가지 경우에 대해 조건부 확률 $P(A|B)를 구해보자.

만약 머리가 긴 남자가 3명이라면

$$ P(A|B) = \dfrac{P(A, B)}{P(B)} = \dfrac{3/20}{10/20} = \dfrac{3}{10} $$

이 된다. 원래 사건 $A$의 확률 $P(A)$가 0.6 즉 60% 였으므로 범인이 머리카락이 길다는 정보로 인해 남자가 범인일 확률은 절반으로 뚝 떨어졌다.

만약 머리가 긴 남자가 6명이라면

$$ P(A|B) = \dfrac{P(A, B)}{P(B)} = \dfrac{6/20}{10/20} = \dfrac{6}{10} $$

이 된다.

이 경우에는 새로운 정보(사건 $B$)가 주어지든 주어지지 않았든 남자가 범인일 확률은 변함없다. 이러한 경우에는 사건 $A$가 사건 $B$와 서로 독립(independent)이라고 한다.

독립

수학적으로는 사건 $A$와 사건 $B$의 결합 확률의 값이 다음과 같은 관계가 성립하면 두 사건 $A$와 $B$는 서로 독립(independent)라고 정의한다.

$$ P(A,B) = P(A)P(B) $$

독립인 경우 조건부 확률과 원래의 확률이 같아짐을 알 수 있다. 즉, $B$ 라는 사건이 발생하든 말든 사건 $A$ 에는 전혀 영향을 주지 않는 다는 것이다.

$$ P(A|B) = \dfrac{P(A,B)}{P(B)} = \dfrac{P(A)P(B)}{P(B)} = P(A) $$

질문/덧글

베이지안 확률론부터는 표본앞에 수식문구가 붙던데, 이유가 있나요? tch2*** 2017년 3월 15일 1:39 오전

'실제로 발생', '진짜' 이렇게 두가지 수식문구를 사용하셨던데, 단순히 표본이라고 하시지 않은 이유가 있으신가요? 그리고 두가지 수식 문구로 표현 하신 이유가 있으신가요?

답변: 베이지안 확률론부터는 표본앞에 수식문구가 붙던데, 이유가 있나요? 관리자 2017년 3월 15일 10:06 오전

사실 이 수식 문구는 필요없습니다. 다만 표본이 표본 공간으로 부터 "선택된 것"이라는 개념이 없는 분들이 너무 많아서 굳이 강조한 것 뿐입니다.