다운로드
작성자: admin 작성일시: 2016-05-03 00:37:21 조회수: 4577 다운로드: 392
카테고리: 기초 수학 태그목록:

확률의 의미

지금까지 우리는 표본 집합의 부분 집합인 사건에 대해 확률값이라는 숫자를 할당했다. 이 확률값이라는 숫자는 도대체 어떤 의미를 가지는 걸까? 확률값이라는 숫자가 가지는 의미에 대해서는 여러가지 해석이 있을 수 있다. 그 중 가장 대표적인 것이 빈도주의(Frequentist) 관점베이지안(Bayesian) 관점이다

빈도주의 관점에서 확률의 의미

빈도주의에서는 반복적으로 선택된 표본이 사건(부분 집합) $A$의 원소가 될 경향(propensity)을 그 사건의 확률이라고 한다.

예를 들어 동전을 던져 "앞면이 나오는 사건"의 확률값이 0.5라는 것은 빈도주의 관점에서는 실제로 동전을 반복하여 던졌을 경우 동전을 던진 전체 횟수에 확률값을 곱한 숫자만큼 해당 사건이 발생한다고 본다. 예를 들어 10,000번을 던지면 $ 10,000 \times 0.5 = 5,000$번 앞면이 나오는 경향을 가진다는 의미이다.

베이지안 관점에서 확률의 의미

베이지안 관점에서 확률은 "선택된 표본이 특정한 사건(부분 집합)에 속한다는 가설(hypothesis), 명제(proposition) 혹은 주장(assertion)의 신뢰도(degree of belief)"라고도 볼 수 있다. 여기에 반복이라는 개념은 사용되지 않는다.

예를 들어

새는 날 수 있다

라는 명제가 있다고 하자. 이 명제는 참인가? 대부분의 새는 날 수 있으므로 이 명제는 참에 가깝다. 하지만 닭, 타조, 펭귄 등의 새나 혹은 어린 새, 날개를 다친 새는 날 수 없으므로 항상 참인 명제는 아니다. 그렇다고 명제 전체를 거짓이라고 하는 것은 실용적이지 못하다. 이런 경우 숫자를 사용하여 "이 명제의 신뢰도는 95%이다"라고 명시할 수 있다면 유용할 것이다. 베이지안 관점에서의 확률은 이러한 명제의 신뢰도를 뜻한다. 따라서 베이지안 관점에서는 위 명제를 다음처럼 서술한다.

새가 날 수 있는 가능성은 95%이다

위의 동전 문제에서 동전을 던져

"앞면이 나오는 사건"의 확률값이 0.5다

라는 말의 의미는 베이지안 관점에서는

"앞면이 나왔다"는 주장의 신뢰도가 0.5이다

라는 의미이다.

4개의 보기중 하나의 정답을 고르는 4지 선다형 객관식 문제를 풀 때도 우리는 베이지안 확률을 사용한다. 1번부터 4번까지의 보기를 읽어보고 마음속으로 다음처럼 각각의 보기에 대한 확률을 할당하기 때문이다.

'1번은 절대로 답이 될 수 없어. 그러니까 1번이 정답일 확률은 0이다. 2번과 3번이 그럴 듯한데. 4번은 가능성이 2번이나 3번의 가능성의 반도 안되어 보이고. 그러니까 2번과 3번이 정답일 확률은 각각 0.4이고 4번이 정답일 확률은 0.2이군.'

이러한 생각을 했다면 $\{1,2,3,4\}$ 라는 표본 집합이 있을 때 다음과 같이 확률을 할당한 것이다.

$$ P(\{1\}) = 0 $$$$ P(\{2\}) = 0.4 $$$$ P(\{3\}) = 0.4 $$$$ P(\{4\}) = 0.2 $$

여기에서는 확률의 정의는 무언가 반복되는 것, 또는 빈도과는 전혀 관계가 없다. 확률 $ P(\{1\}) $ 은 "정답이 1이다"라는 주장에 대한 신뢰도일 뿐이다.

사건의 발생

베이지안 관점에서 사건(부분집합)이란 "원하는 답(표본)이 포함되어 있을 가능성이 있는 후보의 집합"이며 이런 맥락에서 우리가 어떤 사건을 제시하면 그 자체로 "이 사건에 속한 원소 중에 원하는 답(표본)이 있다"는 명제 혹은 주장을 제시한 것이라 할 수 있다.

또한 베이지안 확률론에서 사건이 일어났다(occur) 혹은 발생했다하는 말은 그 사건(부분집합)의 원소 중에 정말로 선택된 표본이 있다는 사실을 알게 되었다는 것을 말한다. 다른 말로는 해당 사건이 말하고 있는 주장이 진실임을 알게 되었다는 뜻으로 지금까지 모르고 있던 추가적인 정보가 들어왔음을 뜻한다.

예를 들어 투명하지 않은 컵안에 주사위를 넣고 굴렸다고 가정하자. "주사위의 눈금이 짝수가 나오는 사건이 발생했다"라는 말은 (나는 주사위의 눈금을 보지 않았지만) 컵을 들어서 주사위의 눈금을 본 사람이 "주사위의 눈금이 짝수다"라는 사실인 정보를 준 것을 의미한다. 이 용어는 나중에 베이즈 법칙에 대해 설명할 때 사용된다.

빈도주의적 관점과 베이지안 관점의 비교

확률의 빈도주의적 관점과 베이지안 관점은 양립할 수 없는 관계가 아니다. 예를 들어 의사가 환자를 진찰한 후

"검진 결과로 보아 암에 걸렸을 확률이 90%이다"

라고 진단했다고 하자.

의사의 관점에서는 "이러한 검진 결과를 가진 환자를 정밀 검사로 확인하는 일을 100번 반복하면 그 중의 약 90명은 암에 걸려 있다."라는 빈도주의적 관점일 수 있다. 하지만 환자의 관점에서는 다른 환자가 암인가 아닌가는 의미가 없기 때문에 "자신이 암에 걸렸다는 의사의 주장이 사실일 가능성은 90%이다"라는 베이지안 관점으로 바라보게 된다.

확률분포의 정보성

베이지안 관점에서 보면 우리가 알아낸 확률분포는 표본이 어떤 상태에 있는지를 알려주는 정보(information)이다.

앞에서 예로 든 4지 선다형 객관식 문제의 확률이 다음처럼 한 사건에 몰려있다고 하자.

$$ P(\{1\}) = 0 $$$$ P(\{2\}) = 0 $$$$ P(\{3\}) = 1 $$$$ P(\{4\}) = 0 $$

이것은 "답이 3이다"라는 정보를 확보한 것과 마찬가지이다.

따라서 확률분포를 알아내면 문제의 답을 알고 있는지 모르는지를 보여줌과 동시에 만약 알고 있다면 답이 무엇이다라는 정보까지 주게 된다.

반대로 확률이 다음처럼 고르게 분포되어 있다면,

$$ P(\{1\}) = 0.25 $$$$ P(\{2\}) = 0.25 $$$$ P(\{3\}) = 0.25 $$$$ P(\{4\}) = 0.25 $$

이 문제에 대해 아무것도 모른다. 즉 아무런 정보가 없다고 고백하는 것과 마찬가지이다.

이러한 확률분포의 정보성은 엔트로피(entropy)라는 측도로 측정하게 된다. 엔트로피에 대해서는 이후에 자세히 설명한다.

질문/덧글

확률의 베이지안 의미 moon*** 2016년 10월 11일 2:35 오후

너무 개념적인 질문일수도 있지만,,

확률이 베이지안의 의미를 갖는다면 이미 발생한 사건에 대해 예측한다고 이해됩니다.

모든 표본공간에 대한 확률이 1로 정의되면 베이지안의 의미는 문제가 될 것이 없어보이지만

주식의 경우를 예로들면 A라는 항목의 주식이 급등 혹은 급락하는 경우는 A가 이전에 그런 경우가 없다면 사건에 포함될 수 없기 때문에 베이지안의 의미는 무의미 해지는 것 아닌가요?

아니면 급등 혹은 급락한 경우가 있는 다른 항목의 주식 데이터를 활용하기 때문에 의미가 있다고 볼 수 있는건가요?

답변: 확률의 베이지안 의미 관리자 2016년 10월 12일 7:11 오후

표본 공간은 "이전에 일어나지 않은 일은 포함하지 않는 것"이 아니고 "물리적으로 일어날 수 있는 일은 모두 포함"합니다.

베이지안 관점에서 사건의 의미에 대한 질문 isb6*** 2018년 10월 10일 5:26 오후

두번째 단락에서 말하는 "지금까지 '모르고 있던' 추가적인 정보"라는 의미는 어떠한 사건 자체(예를 들면 주사위를 던졌는데 예상치 못하게 주사위가 부서지면서 어떠한 숫자도 나오지 않게 되는 경우..?)를 모른다는 의미인가요, 아니면 사건이 지닌 확률(주사위가 부서지는 사건에 대한 신뢰도)을 모른다는 의미인가요..?

답변: 베이지안 관점에서 사건의 의미에 대한 질문 관리자 2018년 10월 11일 8:09 오후

"주사위가 부서지면서 어떠한 숫자도 나오지 않게 되는 경우"는 사건(event)이 아닙니다. 사건은 "짝수의 집합"과 같은 부분집합입니다. "<짝수의 집합>이라는 사건이 발생했다"는 것은 나는 아직 주사위의 면을 보지 못했지만 미리 본 사람이 주사위의 면이 짝수가 나왔다는 정보를 준 것입니다.