다운로드
작성자: admin 작성일시: 2016-04-14 16:14:22 조회수: 6270 다운로드: 372
카테고리: 기초 수학 태그목록:

데이터 모형과 확률변수

데이터 모형

확률적 데이터는 어떤 실험(experiment) 행위에 의해 얻어지는 경우가 많다. 예를 들어

  • 주사위를 던지는 실험
  • 자동차 엔진의 출력을 측정하는 실험
  • 혈압을 측정하는 실험

등을 같은 조건에서 여러번 반복하여 확률적 데이터를 얻을 수 있다. 이 확률적 데이터들에는 데이터를 생성하게 한 주사위, 자동차 엔진, 사람 등의 데이터 생성기(data generator)가 명확하게 존재한다.

이러한 상황을 더 확장하면 데이터가 숫자로만 주어지고 그 데이터가 어떤 과정을 통해 얻어졌는지 전혀 알지 못한다고 해도 앞에서 예로 든 주사위, 자동차 엔진처럼 이 데이터를 생성한 무언가가 존재한다고 가정할 수 있다. 데이터 모형(data model)은 해당 데이터를 만들어내는 가상의 데이터 생성기를 말한다.

데이터 모형이 갖추어야 할 조건은 다음과 같다.

  • 해당 데이터와 분포(distribution) 특성이 같은 데이터를 만들 수 있어야 한다.
  • 데이터의 생성과정이 수학적으로 기술될 수 있고 알고리즘에 의해 구현될 수 있어야 한다.

두 데이터 표본집합의 분포 특성이 완전히 같으면 같은 데이터라고 할 수 있을 것이다. 즉, 두 데이터 표본집합은 같은 데이터 생성기로부터 나온 것이다. 만약 어떤 수학적인 방법으로 우리가 가진 데이터와 완전히 같은 분포 특성을 가지는 데이터를 만들 수 있다면 그 데이터의 생성기를 확보한 것이나 마찬가지다.

확률변수

확률변수는 수학적으로는 확률이 정의된 표본공간의 모든 표본을 실수인 숫자로 바꾸는 함수로 정의한다.

$$ \omega \in \Omega \;\;\; \xrightarrow{확률변수} \;\; x \in \mathbf{R} $$

$X$와 같은 대문자 알파벳을 사용하여 확률변수를 표기하고 확률변수에 의해 할당된 실수는 $x$와 같이 소문자 알파벳으로 표시한다. 경우에 따라서는 소문자 알파벳으로 확률변수를 표기하는 경우도 있다.

$$ X(\omega) = x \;\; (x \in \mathbf{R}) $$

이산확률변수

예를 들어 주사위의 확률 문제에서 주사위에서 나올 수 있는 모든 면의 집합인 표본집합 $\{⚀,⚁,⚂,⚃,⚄,⚅\}$ 내의 모든 표본에 대해 다음과 같이 숫자를 할당하면 1부터 6까지 값을 가지는 확률변수가 된다. 이렇게 확률변수값이 연속적(continuous)이지 않고 떨어져(discrete) 있는 경우를 이산확률변수(discrete random variable)라고 한다.

$$ \begin{eqnarray} X(⚀) &=& 1 \\ X(⚁) &=& 2 \\ X(⚂) &=& 3 \\ X(⚃) &=& 4 \\ X(⚄) &=& 5 \\ X(⚅) &=& 6 \\ \end{eqnarray} $$

주의할 점은 이산확률변수의 정의는 값의 이산성이지 가능한 경우가 유한하다는 점이 아니라는 점이다. 이산 확률변수도 연속 확률변수와 같이 가능한 값 자체는 무한대의 경우의 수가 있을 수 있다. 예를 들어 기하 분포(geometric distribution)는 양의 정수값을 가지는 이산 분포이지만 무한대의 양의 정수도 0이 아닌 확률을 가질 수 있다.

연속확률변수

주사위가 아닌 원반의 각도 문제처럼 연속적이고 무한대의 실수 표본값을 가지는 확률변수를 연속확률변수(continuous random variable)라고 한다.

모든 표본이 실수인 숫자로 변한다면 모든 사건은 단순구간사건의 조합으로 표시된다. 즉, 확률이 어떻게 할당되었는가를 나타내는 정보인 확률분포를 수학적인 확률분포함수로 나타낼 수 있다는 뜻이다.

확률변수와 데이터

현실적으로는 확률변수를 실수인 데이터를 생성하는 주사위같은 데이터생성기로 생각하면 된다. 다만 확률변수는 확률분포함수라는 간결하고 정확한 수학적 도구를 이용하여 확률이 정의되어 있다는 점이 주사위와 다른 점이다.

그림 7.2.3 : 확률변수

데이터 모형에 따르면 우리가 가진 현실 세계의 데이터는 확률변수가 가진 확률분포에 따라 실수 표본공간에서 선택된 표본이다. 이렇게 확률분포함수에 따라 표본공산의 표본이 현실 세계의 데이터로 선택되는 것을 실현(realization) 혹은 표본화(sampling)라고 한다. 표본화는 다른 의미로도 사용되는데 많은 수의 데이터 집합에서 일부 데이터만 선택하는 과정도 표본화라고 한다.

실현은 이상적이고(ideal), 추상적이며(abstract), 수학적인(mathematical) 세계에서 현실로 넘어가는 과정이다. 확률변수라는 데이터 모형에 따르면 현실의 표본 데이터는 이러한 수학적인 세계가 현실 세계에 투영된 그림자에 지나지 않는다. 따라서 히스토그램이나 기술통계 등 분포의 특성이 깨끗한 형태를 지니지 않지만 이는 실현 혹은 표본화 과정에서 생긴 잡음일 뿐이면 그 내면에는 원래의 수학적 특성을 내포하고 있다.

따라서 확률변수와 실제 데이터는 다음과 같은 관계가 있다.

  • 확률변수로부터 데이터를 여러번 생성하는 경우 실제 데이터 값은 매번 달라질 수 있지만 확률 모형 자체는 변하지 않는다.
  • 확률변수의 확률분포함수는 우리가 직접 관찰할 수 없다. 다만 확률변수에서 만들어지는 실제 데이터 값을 이용하여 확률분포함수가 이러한 것일 거라고 추정할 뿐이다.
  • 확률변수에서 만들어 지는 실제 데이터의 값은 확률변수가 가진 특성을 반영하고 있다. 데이터의 갯수가 적을수록 확률변수가 가진 특징을 정확하게 표현하지 못하지만 데이터의 갯수가 증가하면 보다 정확하게 확률분포함수를 묘사할 수 있게 된다.

확률변수를 사용한 데이터 분석

확률변수를 사용하게 되면 데이터 분석은 다음과 같은 순서로 이루어진다.

  1. 데이터를 확보한다.
  2. 확보된 데이터를 어떤 확률변수의 표본으로 가정한다.
  3. 데이터의 특성으로부터 확률변수의 특성을 추정한다.
  4. 구해진 확률변수의 특성으로 해당 확률분포함수의 모양을 결정하고 모수를 추정한다.
  5. 구해진 확률변수으로부터 다음에 생성될 데이터나 데이터 특성을 예측한다.

질문/덧글

이해가 안되는 것 2개만 질문해보겠습니다. grea*** 2016년 5월 14일 10:58 오후

Q1) 확률 변수에 대한 설명 중에 어떠한 값이 확률 모형을 따르면 그 값이 확률 변수라고 하셨는데요.
그걸 어떻게 판단할 수 있나요?

Q2) 요약: 자료 분석의 과정에서 "자료"와 "샘플"의 차이가 뭔지 좀 애매합니다.
그냥 추측하기론 자료는 단순히 풀 데이터고 샘플은 거기에서 추려낸 데이터인 것 같은데 샘플링을 할 때 그냥 랜덤하게 데이터를 추려내는건가요?

답변: 이해가 안되는 것 2개만 질문해보겠습니다. 관리자 2016년 5월 15일 1:18 오전

A1)
확률 모형이라는 것은 현실 세계에 존재하는 것이 아니고 수식을 사용하여 현실 세계의 모습을 이상화(idealization)한 것입니다.

자료와 확률 모형의 관계는 현실세계의 원(예를 들면 컴파스로 그린 원)과 수학에서 정의하는 원(한 점으로 부터 일정한 거리만큼 떨어진 점의 집합)과의 관계와 비슷합니다. 우리는 컴파스로 (엄격하게 보면) 원의 정의를 따르지 않는 불완전한 원을 그려 놓고 "이게 (수학적인) 원이다"라고 가정한 후 문제를 풉니다.
자료와 확률 모형의 관계도 이와 유사하여 실제의 자료가 특정한 확률 모형을 따른다는 것은 사람이 그렇게 "가정"하는 것 뿐입니다.

다만 다음과 같은 여러가지 수치적 인 방법을 사용하여 실제의 자료와 확률 모형과의 유사도를 정량적으로 계산할 수는 있습니다.
* 자료의 샘플 모멘트들과 확률 모형의 이론적 모멘트들과의 비교
* kolmogorov-smirnov test 등의 분포 비교 검정

A2)
"자료가 특정한 확률 모형을 따른다는 가정"을 하는 경우에 그 자료를 "해당 확률 분포의 샘플"이라고 부릅니다.
현실 자료가 "이상적인 확률 모형이 만들어 낼 수 있는 무한개의 자료 중 선택된 일부"라고 생각하는 것입니다.

질문 있습니다! lemo*** 2017년 2월 13일 10:33 오후

확률 변수 부분에
확률 공간은 어떤 분포 특성을 가지는 표본(샘플, sample)을 만드는 기계이고~
라고 쓰여 있는데, 제가 이해한 바로는 저 설명이 확률 공간이 아니라, "확률 모형"의 정의라고 생각해서요
확률 공간도 샘플을 만드는 기계라고 이해하면 되나요?
감사합니다

답변: 질문 있습니다! 관리자 2017년 2월 17일 5:03 오후

확률 공간(probability space)는 표본 공간(sample space)과는 다른 용어입니다. 확률 공간에 대한 정의는 시그마 대수(sigma algebra)의 정의가 포함되어야 해서 너무 어려울까봐 넣지 않았습니다. 확률 공간은 확률을 할당할 이벤트 들을 정의하고 여기에 각각 확률을 할당한 결과를 말합니다. 즉 샘플을 확률적으로 생성하기 위한 모든 준비가 완료된 상태입니다. 비유를 들자면 샘플을 만드는 공장을 지은 것입니다.

질문 skyj*** 2018년 7월 21일 8:29 오전

"데이터 분석 과정"의
"3. 데이터의 특성으로부터 확률 모형의 특성을 추정한다."
"4. 구해진 확률 모형의 특성으로 해당 확률 모형의 종류를 결정하고 모수를 추정한다."
부분에서 질문이 있습니다.
확률 모형의 특성을 추정하는 것과 모수를 추정하는 것이 어떻게 다른지 잘 모르겠습니다.
모수가 확률 모형의 특성 아닌가요? 확률 모형의 특성의 정의를 제가 잘 모르고 있는것 같습니다.
감사합니다.

답변: 질문 관리자 2018년 7월 21일 8:40 오전

본문에서 말하는 "특성"은 모수 자체는 아니지만 모수를 추정할 수 있는 충분한 정보를 가진 값, 즉 sufficient statistic를 말합니다. 예를 들어 정규 분포에서 나온 값의 합(sum)은 그 자체로는 정규 분포의 모수가 아니지만 이 값으로부터 기댓값 모수를 구할 수 있습니다.