다운로드
작성자: admin 작성일시: 2016-04-14 16:14:22 조회수: 4765 다운로드: 296
카테고리: 기초 수학 태그목록:

확률 모형

데이터와 확률 모형

우리가 다루게 되는 데이터는 숫자로 이루어져 있고 이 숫자는 일련의 실험(experiment) 혹은 조사(research) 행위에 의해 얻어진다. 예를 들어 주사위를 던지는 실험을 통해 나오는 숫자를 하나씩 적거나 자동차 엔진의 출력을 측정하는 실험을 해서 나오는 숫자를 적어 데이터를 확보하는 경우를 생각해 보자. 이 결과로 나온 데이터는 그 이면에 데이터를 생성하게 한 무언가, 즉 데이터 생성기(data generator)가 존재한다. 이 예에서는 주사위나 자동차 엔진이 될 것이다.

데이터 분석에 확률론을 적용하면 데이터를 생성한 구체적인 데이터 생성기가 존재하지 않더라도 다음처럼 가상의 데이터 생성기가 존재한다고 생각할 수 있다.

  1. 데이터를 뽑을 수 있는 후보자 집합: 가능한 모든 데이터값으로 이루어진 표본 공간 $\Omega$가 존재한다고 가정한다.
  2. 데이터를 뽑는 방법: 표본 공간의 모든 사건에 대해서 확률이 배정되어 있다고 가정한다. (엄밀하게는 모든 사건이 아니어도 되지만 여기에서는 이렇게 생각하자.)

이렇게 표본 공간과 확률이 정해져 있으면 이 두 가지를 사용하여 데이터를 생성할 수 있다. 이를 확률 모형이라고 부른다. 확률 모형은 주사위나 자동차 엔진처럼 내가 원하는 시점에 데이터를 생성하는 일종의 기계(machine)라고 생각하면 된다.

샘플링, 실현

우리가 가진 데이터가 확률모형이라고 하는 가상의 주사위에 의해 생성된 것이라고 할 때, 이 주사위를 던져서 데이터를 생성하는 과정을 샘플링(sampling) 또는 실현(realization)이라고 한다. 또한 샘플링을 통해 얻어진 데이터를 표본이라고 한다.

샘플링은 다른 의미로도 사용되는데 많은 수의 데이터 집합에서 일부 데이터만 선택하는 과정도 샘플링이라고도 한다.

데이터의 특성

확률 모형론에서는 데이터의 개별적인 값 하나 하나에는 의미가 없으며 데이터 전체의 특성만이 중요하다고 생각한다. 또 특성이 같은 데이터는 실질적으로 동일한 정보를 주는 데이터라고 본다. 예를 들어 자동차 엔진을 대상으로 출력 실험을 하여 10개의 숫자를 수집하고 또 다시 같은 엔진을 대상으로 동일한 실험을 실시하여 10개의 숫자를 수집하면 두 데이터 집합에는 동일한 숫자가 하나도 없을 수도 있다. 그렇지만 우리는 그 데이터 들이 잘못되었거나 다른 정보를 가지고 있다고 보지 않는다. 왜냐하면 데이터로부터 우리가 알고 싶어하는 것은 10개의 숫자 그 자체가 아니라 그 10개의 숫자들이 나타내고 있는 특성이기 때문이다.

확률 모형과 실제 데이터는 다음과 같은 관계가 있다.

  • 확률 모형으로부터 데이터를 여러번 생성하는 경우 실제 데이터 값은 매번 달라질 수 있지만 확률 모형 자체는 변하지 않는다.
  • 확률 모형은 우리가 직접 관찰할 수 없다. 다만 확률 모형에서 만들어지는 실제 데이터 값을 이용하여 확률 모형이 이러한 것일 거라고 추정하고 가정할 뿐이다.
  • 확률 모형에서 만들어 지는 실제 데이터의 값은 확률 모형이 가진 특성을 반영하고 있다. 다만 데이터의 갯수가 적을 수록 부정확하여 확률 모형이 가진 특징을 정확하게 추정할 수 없다.

데이터 분석의 과정

확률 모형을 사용하는 경우, 대부분의 데이터 분석은 다음과 같은 과정을 거친다.

  1. 데이터를 확보한다.
  2. 확보된 데이터를 어떤 확률 모형의 표본으로 가정한다.
  3. 데이터의 특성으로부터 확률 모형의 특성을 추정한다.
  4. 구해진 확률 모형의 특성으로 해당 확률 모형의 종류를 결정하고 모수를 추정한다.
  5. 구해진 확률 모형으로부터 다음에 생성될 데이터나 데이터 특성을 예측한다.

질문/덧글

이해가 안되는 것 2개만 질문해보겠습니다. grea*** 2016년 5월 14일 10:58 오후

Q1) 확률 변수에 대한 설명 중에 어떠한 값이 확률 모형을 따르면 그 값이 확률 변수라고 하셨는데요.
그걸 어떻게 판단할 수 있나요?

Q2) 요약: 자료 분석의 과정에서 "자료"와 "샘플"의 차이가 뭔지 좀 애매합니다.
그냥 추측하기론 자료는 단순히 풀 데이터고 샘플은 거기에서 추려낸 데이터인 것 같은데 샘플링을 할 때 그냥 랜덤하게 데이터를 추려내는건가요?

답변: 이해가 안되는 것 2개만 질문해보겠습니다. 관리자 2016년 5월 15일 1:18 오전

A1)
확률 모형이라는 것은 현실 세계에 존재하는 것이 아니고 수식을 사용하여 현실 세계의 모습을 이상화(idealization)한 것입니다.

자료와 확률 모형의 관계는 현실세계의 원(예를 들면 컴파스로 그린 원)과 수학에서 정의하는 원(한 점으로 부터 일정한 거리만큼 떨어진 점의 집합)과의 관계와 비슷합니다. 우리는 컴파스로 (엄격하게 보면) 원의 정의를 따르지 않는 불완전한 원을 그려 놓고 "이게 (수학적인) 원이다"라고 가정한 후 문제를 풉니다.
자료와 확률 모형의 관계도 이와 유사하여 실제의 자료가 특정한 확률 모형을 따른다는 것은 사람이 그렇게 "가정"하는 것 뿐입니다.

다만 다음과 같은 여러가지 수치적 인 방법을 사용하여 실제의 자료와 확률 모형과의 유사도를 정량적으로 계산할 수는 있습니다.
* 자료의 샘플 모멘트들과 확률 모형의 이론적 모멘트들과의 비교
* kolmogorov-smirnov test 등의 분포 비교 검정

A2)
"자료가 특정한 확률 모형을 따른다는 가정"을 하는 경우에 그 자료를 "해당 확률 분포의 샘플"이라고 부릅니다.
현실 자료가 "이상적인 확률 모형이 만들어 낼 수 있는 무한개의 자료 중 선택된 일부"라고 생각하는 것입니다.

질문 있습니다! lemo*** 2017년 2월 13일 10:33 오후

확률 변수 부분에
확률 공간은 어떤 분포 특성을 가지는 표본(샘플, sample)을 만드는 기계이고~
라고 쓰여 있는데, 제가 이해한 바로는 저 설명이 확률 공간이 아니라, "확률 모형"의 정의라고 생각해서요
확률 공간도 샘플을 만드는 기계라고 이해하면 되나요?
감사합니다

답변: 질문 있습니다! 관리자 2017년 2월 17일 5:03 오후

확률 공간(probability space)는 표본 공간(sample space)과는 다른 용어입니다. 확률 공간에 대한 정의는 시그마 대수(sigma algebra)의 정의가 포함되어야 해서 너무 어려울까봐 넣지 않았습니다. 확률 공간은 확률을 할당할 이벤트 들을 정의하고 여기에 각각 확률을 할당한 결과를 말합니다. 즉 샘플을 확률적으로 생성하기 위한 모든 준비가 완료된 상태입니다. 비유를 들자면 샘플을 만드는 공장을 지은 것입니다.