베르누이분포
1. 어떤 시행이 두 가지 가능한 결과만을 가질 경우 이를 베르누이시행(Bernoulli trial)이라고 하며, 일반적으로 베르누이시행의 결과는 '성공($\text{s}$)' 또는 '실패($\text{f}$)'로 나타낸다. 즉, 베르누이시행의 표본공간은 $S=\{\text{s}, \text{f}\}$이다. 확률변수 $X$가 $$\begin{align} (1)\ \ &X(\text{s})=1, X(\text{f})=0 \\ (2)\ \ &P(X=1)=p, P(X=0)=1-p=q\end{align}$$를 만족할 때, $X$는 모수(parameter)가 $p$인 베르누이분포를 따른다고 하며 $X\sim\text{Bernoulli}(p)$로 표기한다.
2. $X\sim\text{Bernoulli}(p)$의 확률밀도함수와 적률생성함수는 다음과 같다. $$\begin{align} f(x)&=p^xq^{1-x},\ \ x \in \{0, 1\}\\ M_X(t) &= pe^t + q \end{align}$$
3. $X\sim\text{Bernoulli}(p)$의 기댓값과 분산은 다음과 같다. $$\begin{align} \mathbb{E}(X)&= p \\ \text{Var}(X) &= pq \end{align}$$
4. 베르누이분포는 특성값이 이원적인 모집단의 분포로 이해할 수 있다. 이 때 $p$는 모비율이 된다.
초기하분포
1. $D$개의 '성공'과 $N\!-\!D$개의 '실패'로 구성된 이원적인 유한모집단에서 단순랜덤비복원추출을 통해 크기 $n$인 표본 $X_1$, $X_2$, $...$, $X_n$을 얻는다고 하자. 이 때 $X_i$는 추출의 결과를 나타내는 베르누이확률변수이고, 아래첨자(index)는 서로 다른 추출을 구분하기 위해 사용되었다. (참고: In many applications time passes between trials, as the index $i$ increases. In effect, the trials $X_1$, $X_2$, $...$, $X_i$, $...$ happen at "points in time" $1$, $2$, $...$, $i$, $...$. That passage of time and the associated notions of "past" and "future" are not necessary, however. Most generally, any $X_i$ and $X_j$ in the process are simply two from a set of random variables indexed by $\{1, 2, ..., n\}$, the finite cases, or by $\{1, 2, 3, ...\}$, the infinite cases.) 이처럼 유한모집단에서 단순랜덤비복원추출로 뽑은 표본을 랜덤표본(random sample)이라고 한다.
2. 1의 랜덤표본에서 $X_i$, $X_j$는 모집단과 동일한 확률분포를 가진다. 즉, $$\begin{align}P(X_i=1)&=P(X_j=1)=\tfrac{D}{N}\\ P(X_i=0)&=P(X_j=0)=\tfrac{N-D}{N} \end{align}$$이다(unconditional or "ex-ante" probability).
3. 한편 $X_i$가 추출되었다는 가정 하에 $X_j$의 조건부확률분포를 고려하면 $$\begin{align}P(X_j=1 \vert X_i=1) &= \tfrac{D-1}{N-1} \\ P(X_j=0 \vert X_i=1) &= \tfrac{N-D}{N-1} \\ P(X_j=1 \vert X_i=0) &= \tfrac{D}{N-1} \\ P(X_j=0 \vert X_i=0) &= \tfrac{N-D-1}{N-1} \end{align}$$이고, 따라서 $X_i$의 추출 결과에 따라 $X_j$의 분포가 달라짐을 알 수 있다(conditional or "ex-post" probability). 즉, $X_i$와 $X_j$는 서로 독립이 아니다.
4. 1의 랜덤표본 내 '성공'의 개수를 확률변수 $X$라 할 때, $X$는 모수가 $n$, $N$, $D$인 초기하분포를 따른다고 하며 $X \sim \text{HG}(n, N, D)$로 표기한다. 초기하확률변수 $X$는 동일한 분포를 가지며 서로 독립이 아닌 베르누이확률변수의 합으로 나타낼 수 있다. $$\begin{align} &X \overset{d}{\equiv} X_1 + X_2 + \cdots + X_n \\ &X_i \sim \text{Bernoulli}\left(\!\tfrac{D}{N} \!\right) \end{align}$$
5. $X \sim \text{HG}(n, N, D)$의 확률밀도함수에 대해 살펴보자. $X_1$, $X_2$, $...$, $X_n$ 중 $x$개가 $1$을 취하고 $n\!-\!x$개가 $0$을 취하는 경우의 수는 $\binom{n}{x}$이고, 각 경우의 확률은 $$\begin{align} &\ \tfrac{D(D-1)\cdots(D-(x-1))\times(N-D)(N-D-1)\cdots(N-D-(n-x-1)}{N(N-1)\cdots(N-(n-1))} \\ &=\tfrac{\prod_{i=0}^{x-1} \prod_{j=0}^{n-x-1} (D-i)(N-D-j)}{\prod_{k=0}^{n-1}(N-k) } \end{align}$$이므로, 이 둘을 곱해서 정리하면 $$\begin{align} f(x) &=\binom{n}{x}\frac{\prod_{i=0}^{x-1} \prod_{j=0}^{n-x-1} (D-i)(N-D-j)}{\prod_{k=0}^{n-1}(N-k)} \\ &=\frac{\binom{D}{x} \binom{N-D}{n-x}}{\binom{N}{n}},\ \ x \in \{0, 1, ..., n \}\end{align}$$이다.
6. $X \sim \text{HG} (n, N, D)$의 기댓값은 다음과 같다. $$\begin{align} \mathbb{E}(X) &= \mathbb{E}(X_1+X_2+\cdots+X_n) \\ &=\mathbb{E}(X_1)+\mathbb{E}(X_2)+\cdots+\mathbb{E}(X_n) \\ &= n\left(\!\tfrac{D}{N}\!\right) \end{align}$$ 한편 $X_i$, $X_j$의 공분산은 $$\begin{align} \text{Cov}(X_i, X_j) &= \mathbb{E}(X_iX_j) - \mathbb{E}(X_i)\mathbb{E}(X_j) \\ &=P(X_i=1, X_j=1) - \left(\!\tfrac{D}{N}\!\right)^2 \\ &= \tfrac{D(D-1)}{N(N-1)} - \left(\!\tfrac{D}{N}\!\right)^2 \\ &=-\left(\!\tfrac{D}{N}\!\right)\!\left(\! \tfrac{N-D}{N}\!\right)\!\left(\!\tfrac{1}{N-1}\!\right)\end{align}$$ 이고, 이로부터 $X$의 분산은 다음과 같다. $$\begin{align} \text{Var}(X) &= \text{Var}(X_1+X_2+\cdots+X_n) \\ &= \sum_{i=1}^{n}\text{Var}(X_i) + 2 \sum_{j=i+1}^{n} \sum_{i=1}^{n-1} \text{Cov}(X_i, X_j)\\ &=n \left(\!\tfrac{D}{N} \!\right)\!\left(\!\tfrac{N-D}{N} \!\right) - n\left(\!\tfrac{D}{N}\!\right)\!\left(\! \tfrac{N-D}{N}\!\right)\!\left(\!\tfrac{n-1}{N-1}\!\right)\\ &=n\left(\!\tfrac{D}{N}\!\right)\!\left(\! \tfrac{N-D}{N}\!\right)\!\left(\!\tfrac{N-n}{N-1} \!\right) \end{align}$$ 이 때 $\left(\! \frac{N-n}{N-1}\!\right)$을 유한모집단 수정계수(finite population correction factor)라고 한다.
이항분포
1. 유한모집단에서의 랜덤표본은 단순랜덤비복원추출을 통해 얻은 표본으로 정의하였다. 무한모집단에서의 랜덤표본을 정의하기 위해 이원적인 유한모집단에서 $N \to \infty$, $\frac{D}{N} \to p$일 때 크기 $n$인 랜덤표본의 성질이 어떻게 변화하는지 살펴보자.
2. 임의의 $X_i$, $X_j$에 대하여 $P(X_i = 1) =P(X_j=1)= p$, $P(X_i=0)=P(X_j=0)=q$이고, $$\begin{align} P(X_j=1 \vert X_i=1) &= \lim \tfrac{D-1}{N-1} = p \\ P(X_j=0 \vert X_i=1) &= \lim \tfrac{N-D}{N-1} = q \\ P(X_j=1 \vert X_i=0) &= \lim \tfrac{D}{N-1} = p \\ P(X_j=0 \vert X_i=0) &= \lim \tfrac{N-D-1}{N-1} = q\end{align}$$이다. 즉, $X_i$와 $X_j$는 모집단과 동일한 베르누이분포를 따르며 서로 독립이다. 이에 착안하여 무한모집단에서의 랜덤표본을 각각의 분포가 모집단의 분포와 같고 서로 독립인 $X_1$, $X_2$, $...$, $X_n$으로 정의한다. 특성값이 이원적인 무한모집단에서 크기 $n$인 랜덤표본을 얻는 과정은 동일한 베르누이시행을 독립적으로 $n$회 반복하는 것이며, 이는 단순랜덤복원추출로 이해할 수 있다.
3. 1의 랜덤표본 내 '성공'의 개수를 확률변수 $X$라 할 때, $X$는 모수가 $n$, $p$인 이항분포를 따른다고 하며 $X \sim \text{B}(n, p)$로 표기한다. 이항확률변수 $X$는 서로 독립이고 동일한 분포를 가지는(independent and identically distributed; i.i.d.) 베르누이확률변수의 합으로 표현할 수 있다. $$\begin{align} &X \overset{d}{\equiv} X_1 + X_2 + \cdots + X_n \\ &X_i \overset{\text{i.i.d.}}{\sim} \text{Bernoulli}(p) \end{align}$$
4. $X \sim \text{B}(n, p)$의 확률밀도함수에 대해 살펴보자. $X_1$, $X_2$, $...$, $X_n$ 중 $x$개가 $1$을 취하고 $n\!-\!x$개가 $0$을 취하는 경우의 수는 $\binom{n}{x}$이고, 각 경우의 확률은 $p^x q^{n-x}$이므로, $$f(x) =\binom{n}{x} p^x q^{n-x},\ \ x \in \{0, 1, ..., n \}$$이다. 이는 초기하분포의 확률밀도함수에 극한을 적용하여 얻을 수도 있다. $$\lim_{\ \ N \to \infty \\ D/N \to p} \binom{n}{x}\frac{\prod_{i=0}^{x-1} \prod_{j=0}^{n-x-1} \left(\!\frac{D}{N}\!-\!\frac{i}{N} \!\right) \left(\!1\!-\!\frac{D}{N}\!-\!\frac{j}{N}\!\right)}{\prod_{k=0}^{n-1}\left(\!1\!-\!\frac{k}{N}\! \right)}$$ 한편 $X$의 적률생성함수는 다음과 같다. $$\begin{align} M_X(t) &=M_{X_1}(t) M_{X_2}(t) \cdots M_{X_n}(t) \\ &= (pe^t+q)^n \end{align}$$
5. $X \sim \text{B} (n, p)$의 기댓값과 분산은 다음과 같다. $$\begin{align} \mathbb{E}(X) &= \sum_{i=1}^{n} \mathbb{E}(X_i) = np \\ \text{Var}(X) &= \sum_{i=1}^{n} \text{Var}(X_i) = npq \end{align}$$
기하분포
1. 성공률 $p$인 베르누이시행을 독립적으로 반복할 때 $1$번째 '성공'을 관측하기까지 필요한 시행의 횟수를 확률변수 $W$라 하자. 이 때 $W$는 모수가 $p$인 기하분포를 따른다고 하며 $W \sim \text{Geo}(p)$로 표기한다.
2. $W \sim \text{Geo}(p)$의 확률밀도함수와 적률생성함수는 다음과 같다. $$\begin{align} f(w) &= pq^{w-1},\ \ w \in \{1, 2, 3, \cdots \} \\ M_W(t) &= \sum_{w=1}^{\infty} e^{tw}pq^{w-1} \\ &=\frac{p}{q}\sum_{w=1}^{\infty} (qe^t)^w \\ &= \frac{pe^t}{1-qe^t}\ \ \text{for}\ \ t < -\log{q}\end{align}$$
3. $W \sim \text{Geo}(p)$의 기댓값과 분산은 다음과 같다. $$\mathbb{E}(W) = \frac{1}{p},\ \ \text{Var}(W)=\frac{q}{p^2} $$
4. $W \sim \text{Geo}(p)$일 때 자연수 $k$에 대하여 $P(W > k)$를 생각해보면 $$P(W>k) = \sum_{w=k+1}^{\infty}pq^{w-1} = q^k$$이다. 따라서 임의의 자연수 $i$, $j$에 대하여 $$\begin{align} P(W>i+j \vert W>i) &= \frac{P(W>i+j)}{P(W>i)} \\ &= \frac{q^{i+j}}{q^i} = q^j \\ &= P(W>j) \end{align}$$가 성립하는데, 이를 기하분포의 무기억성(memoryless property)이라고 한다.
음이항분포
1. 성공률 $p$인 베르누이시행을 독립적으로 반복할 때 $r$번째 '성공'을 관측하기까지 필요한 시행의 횟수를 확률변수 $W$라 하자. 이 때 $W$는 모수가 $r$, $p$인 음이항분포를 따른다고 하며 $W \sim \text{NB}(r, p)$로 표기한다. 음이항확률변수 $W$는 서로 독립이고 동일한 분포를 가지는 기하확률변수의 합으로 표현할 수 있다. $$\begin{align} &W \overset{d}{\equiv} W_1 + W_2 + \cdots + W_r \\ &W_i \overset{\text{i.i.d.}}{\sim} \text{Geo}(p) \end{align}$$
2. $W \sim \text{NB}(r, p)$의 확률밀도함수에 대해 살펴보자. $w\!-\!1$번의 시행에서 $r\!-\!1$번의 '성공'을 얻은 후 $w$번째 시행에서 '성공'할 확률은 $$f(w) = \binom{w\!-\!1}{r\!-\!1} p^{r} q^{w-r},\ \ w \in \{r, r\!+\!1, r\!+\!2, \cdots \} $$ 한편 $W$의 적률생성함수는 다음과 같다. $$\begin{align} M_W(t) &=M_{W_1}(t) M_{W_2}(t) \cdots M_{W_r}(t) \\[3 pt] &= \left(\!\frac{pe^t}{1-qe^t} \!\right)^r\ \ \text{for}\ \ t < -\log{q} \end{align}$$
3. $W \sim \text{NB}(r, p)$의 기댓값과 분산은 다음과 같다. $$\begin{align} \mathbb{E}(W) &= \sum_{i=1}^{r} \mathbb{E}(W_i) = \frac{r}{p} \\ \text{Var}(W) &= \sum_{i=1}^{r} \text{Var}(W_i) = \frac{rq}{p^2} \end{align}$$
4. $r \le n$인 자연수 $r$, $n$에 대하여 $W \sim \text{NB}(r, p)$이고 $X \sim \text{B}(n, p)$일 때 다음이 성립한다. $$P(W \le n) = P(X \ge r) $$ 즉, '$r$번 성공하기까지 $n$회 이하의 시행이 필요한 확률'은 '$n$회의 시행에서 $r$번 이상 성공할 확률'과 같다.
References
김우철 외, 개정판 일반통계학
송성주·전명식, 수리통계학 제5판
김우철, 개정판 수리통계학
'일반통계학' 카테고리의 다른 글
[일반통계학] 7. 베르누이과정의 극한으로서의 푸아송과정 (0) | 2021.11.19 |
---|---|
[일반통계학] 6. 푸아송분포, 지수분포, 감마분포 (0) | 2021.10.15 |
[일반통계학] 4. 기댓값과 그의 성질 (0) | 2021.10.09 |
[일반통계학] 3. 확률과 확률분포 (0) | 2021.10.03 |
[일반통계학] 2. 모집단과 표본 (0) | 2021.10.02 |