이 내용은 책 Mathematics for machine learning(Marc Peter Deisenroth et al.)을 기반으로 하고 있습니다.
Probability Mass Function(pmf) | Cumulative Distribution Function(cdf) |
---|---|
확률 질량 함수 | 누적 분포 함수 |
Target space $\mathcal{T}$ 가 이산적임 | Target space $\mathcal{T}$ 가 연속적임 |
확률 변수 X가 특정 값 $x \in \mathcal{T}$ 을 가짐 | 확률 변수 X가 범위 $a \le x \le b$ 로 나타남 |
$P(X=x)$ | $P(a\le X \le b)$ or $P(X \le x)$ |
Univariate Distribution | Multivariate Distribution |
---|---|
일변량 분포 | 다변량 분포 |
하나의 확률 변수 $x$ 에 대한 분포 | 여러 확률 변수 $\boldsymbol{x}$ 에 대한 분포 |
앞서 본 표대로 Target space $\mathcal{T}$ 가 이산적일 때에 해당한다.
이산 확률 분포의 ‘확률 질량 함수(Probability Mass Function(pmf)’는 아래와 같이 표로 쉽게 알아볼 수 있다.
위 표에서 $n_{ij}$ 는 각 상태 $x_i, y_i$ 에 해당하는 사건의 개수(횟수)이며, 모든 사건의 전체 개수를 $N$ 이라 표시한다. 위 그림에서 $N=15$ 이다. $c_i$ 는 $i$ 번째 열의 각각의 빈도를 모두 더한 것, 쉽게 말하자면 그 열의 합을 말하고, 같은 원리로 $r_j$는 그 행의 합을 말한다. 위 사진을 예시로 하면 아래와 같이 계산한다.
\[\begin{aligned} c_i &= \sum \limits_{j=1}^3 n_{ij} \\ r_j &= \sum \limits_{i=1}^5 n_{ij} \end{aligned}\]두 값을 결합적으로 고려해 한 값을 내는 확률이다. Fig.1에서는 특정 한 칸을 나타내며, 수학적으로는 각 확률변수가 가진 target space의 Cartesian product으로 구할 수 있다.
\[P(X=x_i, Y=y_i) = \cfrac{n_{ij}}{N}\]위 식을 예로 들어보자면, 특정 $x_i, y_i$가 동시에 일어날 확률이라 생각하면 된다. 식에서도 알 수 있듯이, 결합 확률은 양 사건의 교집합의 확률이다. 즉 $P(X=x_i, Y=y_i) = P(X=x_i \cap Y=y_i)$ 인 것이다.
특정 x, y에 대한 확률은 $p(x, y)$라 표기한다. 이렇게 표기하면 마치 x, y를 입력으로 받아 어떤 실수값을 돌려주는 함수처럼 보인다. 즉, 확률을 함수처럼 여길 수 있다.
어떤 확률 변수의 특정 값일 확률을 ‘다른 확률 변수들의 값과는 무관하게’ 구한다. 즉, 내가 알아보고 싶은 확률변수만의 확률로 나타낸다. 그러므로 X, Y 중에 Y와 무관하게 $X=x$ 일 확률만 알고 싶다면 표기는 $p(x)$라고 한다. $p(x)$ 에 따라 분포된 확률변수 X 임을 나타내고 싶다면 $X \sim p(x)$ 라고 표기한다.
그 정의를 곱씹어보면, 주변확률은 각 열 혹은 각 행의 합을 전체 개수로 나누어준 값이다.
\[\begin{aligned} P(X=x_i) &= \cfrac{c_i}{N} = \cfrac{\sum \limits_{i=1}^3 n_{ij}}{N} \\ P(Y=y_j) &= \cfrac{r_i}{N} = \cfrac{\sum \limits_{i=1}^5 n_{ij}}{N} \end{aligned}\]한 확률변수가 특정 값일 때의 다른 확률 변수의 특정 값을 구하고 싶다면, 그건 조건부 확률이다. 결합 확률과 차이는, 조건부 확률은 한 확률 변수에 대한 값이 ‘조건’으로 들어가 제한을 둔다는 점이다.
예를 들어 $X=x$일 때의 $Y=y$ 일 확률을 구하고 싶다면 $p(y \vert x)$ 로 표기한다. 그림을 이용해 수식으로 생각해보면, 조건부 확률은 특정 행/열에 대한 특정 칸의 비율이다.
\[\begin{aligned} P(X=x_i \vert Y=y_j) &= \cfrac{n_{ij}}{r_i} \\ P(Y=y_j \vert X=x_i) &= \cfrac{n_{ij}}{c_i} \end{aligned}\]머신러닝에선 이산 확률 분포를 ‘카테고리형 변수’로 이용한다. 즉 변수를 순서가 없는 유한 집합으로 본다. 예를 들자면, 각 사람의 연봉을 예측할 때 대학 학위 종류를 본다던지, 손글씨 인식을 할 때 알파벳의 종류를 본다던지 등이다.
또는 유한 개의 개수를 가진 연속 분포와 결합한 확률 모델을 만들 때 이산 분포를 사용하기도 한다. 이는 11장(Density Estimation with Gaussian Mixture Models)에서 계속된다.
연속 확룰에서 다루는 확률 변수는 실수값 확률 변수, 즉 $\mathbb{R}$ 위의 간격이 target space가 된다.
용어 ‘measure(측도)’란, 집합의 크기(size)를 말한다. 이산 공간(discrete spaces)에서는 요소의 개수를 세서 구할 수 있다(cardinality). 그 밖에도 $\mathbb{R}$ 의 간격의 길이 혹은 $\mathbb{R}^d$ 의 영역의 부피를 일컫는 등 역시 measure이다.
보렐 집합(Borel set)은 열린 집합에서 가산 합집합, 가산 교집합, 차집합 연산을 유한번 반복해 만들 수 있는 집합(집합 연산이 가능하고 topology를 가진 집합)을 말한다. 보렐 집한인 이들을 ‘보렐 시그마 대수(Borel σ-algebra)’를 따른다고 말한다. 이 책에서는 보렐 시그마 대수에 대응하는 실수값 확률 변수를 다룬다.
$\mathbb{R}^D$ 에서의 값을 가지는 확률 변수를 실수값 확률 변수의 벡터로 사용한다.
아래의 조건을 만족하는 함수 $f: \mathbb{R}^D \rightarrow \mathbb{R}$ 을 말한다. * $\forall \boldsymbol{x} \in \mathbb{R}^D : f(\boldsymbol{x}) \ge 0$ * 적분이 가능하고(존재하고) 그 값이 1 ($\int_{\mathbb{R}^D}f(\boldsymbol{x})d\boldsymbol{x} = 1$)
이산 확률 변수의 확률 질량 함수(pdf)에 대해선 적분 대신 합($\sigma$)로 한다. 여긴 연속 확률 변수라 적분이다.
특정 범위에서의 확률은 $P(a \le X \le b) = \int_a^b f(x) dx$ 로 나타낸다. (‘확률 변수 X의 법칙/분포’)
주의할 것은, 연속 확률 변수의 확률은 특정 값 하나에서의 확률은 0이라는 점이다. 즉 $P(X=x) = 0$ 이다. 이는 적분 식 시작과 끝에 같은 값을 넣어보면($a=b$) 수긍이 된다.
다변수 실수값 확률 변수에 대한 분포 함수이다. 상태는 벡터 $\boldsymbol{x} \in \mathbb{R}^D$ 로 나타난다. $$ \begin{align} F_{X}(\boldsymbol{x}) &= P(X_1 \le x_1, X_2 \le x_2, \cdots, X_D \le x_D) \\ &= \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_D} f(z_1, \cdots, z_d) dz_1 \cdots dz_D \end{align} $$ 이때 $X = [X_1, \cdots, X_D]^T$ , $\boldsymbol{x} = [x_1, \cdots, x_D]^T$ 이다.
위 정의에서 (1)번 식이 의미하는 바는, 각 변수 $X_i$가 특정값 $x_i$ 보다 작거나 같을 때의 확률이란 뜻이다. (2)번 식은 누적 분포 함수를 확률 밀도 함수의 적분으로 본 표현이다.
지금까지 pmf, pdf, cdf 세 함수를 봤는데, 이를 정리해보자.
Type | Point probability | Interval Probability |
---|---|---|
Discrete | $P(X=x)$ pmf | X |
Continuous | $p(x)$ pdf | $P(X \le x)$ cdf |
기본적으로, 확률은 양수이며 모든 확률의 합은 1이 된다고 했다. 이산 확률 변수의 경우, 그 규칙을 따를 때 각 상태의 확률은 0에서 1 사이의 값을 갖게 된다. 그러나 연속 확률 변수에 대해 정규화(normalization)은 꼭 밀도값이 1보다 작거나 같진 않다.
위 사진은 균일 분포(Uniform distribution)을 나타냈다. 균일 분포란, 각 상태가 똑같이 일어난다는 것을 말한다.
이산 확률 변수 Z에 대해 상태는 $z = -1.1, 0.3, 1.5$ 이고 각 확률은 $P(Z=-1.1)=P(Z=0.3)=P(Z=1.5)=\frac{1}{3}$로 같다.
연속 확률 변수 X가 범위 $0.9 \le X \le 1.6$ 에서 정의된다고 하자. 이산 확률 변수와는 다르게 각 위치에서 y좌표는 그림 (b)처럼 1보다 클 수도 있다. 다만 적분 시 1이 된다는 것만 지키면 된다. 그 말인 즉, 균일 분포의 위 예시를 들어보자면, $\int_{0.9}^{1.6}p(x)dx=1, p(x)=\frac{1}{0.7}$ 이다.