확률의 정의
1. 통계적 조사에서 얻을 수 있는 모든 가능한 결과들의 집합을 표본공간(sample space)이라 하고, 표본공간의 부분집합을 사건(event)이라고 한다. 표본공간은 $S$로, 사건은 $A$, $B$ 등으로 표기한다. 한 개의 원소로 이루어진 사건을 근원사건(elementary event)이라고 한다. $A \cup B$, $A \cap B$를 각각 $A$, $B$의 합사건, 곱사건이라 하고, $A^c$를 $A$의 여사건이라 한다. 또한 $A \cap B = \phi$인 두 사건 $A$, $B$를 서로 배반(mutually exclusive)인 사건이라 하고, 이는 두 사건 $A$, $B$가 동시에 일어날 수 없음을 뜻한다.
2. 라플라스는 $N$개의 원소로 구성된 표본공간 $S=\{E_1, E_2, ..., E_N \} $에서 각각의 근원사건이 일어날 가능성이 같은 경우에, $m$개의 원소로 구성된 사건 $A$의 확률을 $P(A)=\frac{m}{N}$으로 정의하였다. 이러한 확률의 고전적 정의는 표본공간의 원소가 무한한 경우나 각 근원사건이 일어날 가능성이 같지 않은 경우에는 적용하기 어려우며, 정의 자체가 다소 순환적이라 할 수 있다.
3. 20세기에 들어와서는 확률을 상대도수(relative frequency)의 극한으로 파악하려는 시도가 활발해졌다. 콜모고로프는 상대도수의 기본적 성질을 바탕으로 확률을 공리적으로 정의하였다. 즉, 표본공간 $S$와 임의의 사건 $A$에 대하여 $$\begin{align} (1)\ \ & P(A) \ge 0 \\ (2)\ \ &P(S)=1 \\ (3)\ \ &\text{For}\ A_1, A_2, \cdots, \\ &A_i \cap A_j = \phi\ \ (i\ne j)\\ &\implies P\left(\bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i) \end{align}$$ 를 만족시키는 함수 $P$를 확률이라 정의한 것이다. 이와 같은 공리적 접근은 상대도수의 극한과 같이 반복 시행에서의 경험에 바탕을 둔 경험적 확률뿐만 아니라, 확률의 값을 개인의 주관에 따라 정하는 주관적 확률의 개념도 수용하고 있다.
4. 위의 공리로부터 확률에 관한 다음과 같은 성질들을 얻는다. $$\begin{align} (1)\ \ &P(A^c)=1-P(A) \\ (2)\ \ &P(\phi)=0\\ (3)\ \ &\text{If}\ A\subset B,\ \text{then}\ P(A)\le P(B) \\ (4)\ \ &P(A \cup B)=P(A)+P(B)-P(A \cap B)\end{align}$$
조건부확률과 독립사건
1. $P(A)>0$, $P(B)>0$일 때, 사건 $A$가 일어났다는 가정하의 사건 $B$가 일어날 조건부확률(conditional probability) $P(B \vert A)$는 $$P(B \vert A)=\frac{P(A\cap B)}{P(A)}$$로 정의한다. 이로부터 곱셈공식 $$P(A\cap B)=P(A)P(B \vert A) = P(B) P(A \vert B)$$를 얻는다.
2. 어떤 사건 $B$의 확률을 직접 계산하기 어려운 경우, 서로 배반인 사건 $A_1$, $A_2$, $...$, $A_n$으로 표본공간 $S$를 분할하면 편리하다. 이 때 $P(B)$는 전체 확률의 법칙(law of total probability)으로 계산할 수 있다. $$P(B)=\sum_{i=1}^{n}P(A_i)P(B \vert A_i) $$
3. 곱셈공식과 전체 확률의 법칙으로부터 베이즈 정리(Bayes' theorem)를 얻는다. $$\begin{align} P(A \vert B) &= \frac{P(A \cap B)}{P(B)} \\ &=\frac{P(A)P(B \vert A)}{P(A)P(B\vert A)+P(A^c)P(B\vert A^c)}\end{align}$$
3-1. 유병률이 $1\text{%}$인 질병에 대한 진단 검사법이 있다. 이 검사법은 실제로 질병이 있을 경우 양성 반응을 나타낼 확률이 $95\text{%}$이고, 질병이 없을 경우 양성 반응을 나타낼 확률이 $10\text{%}$이다. 어떤 사람이 해당 검사법에 의해 양성 판정을 받았을 때 그 사람이 실제로 질병을 가졌을 확률을 구해 보자. 질병을 가지는 것을 사건 $A$라 하고 해당 검사법이 양성 반응을 나타내는 것을 사건 $B$라 하면, 이 문제는 $P(A)=0.01$, $P(B \vert A)=0.95$, $P(B \vert A^c)=0.1$일 때 $P(A \vert B)$를 구하는 것이다. 베이즈 정리로부터 $$P(A \vert B) = \frac{0.01 \! \times \! 0.95}{0.01 \! \times \! 0.95 + 0.99 \! \times \! 0.1}\fallingdotseq 0.088$$임을 알 수 있다.
4. 사건 $A$가 일어났다는 사실이 사건 $B$가 일어날 확률에 아무런 영향을 미치지 않을 때, 즉 $$P(B \vert A) = P(B)$$일 때, 사건 $A$와 사건 $B$는 서로 독립(mutually independent)이라고 한다. 조건부확률의 정의로부터 이는 $$P(A\cap B) = P(A)P(B)$$와 동치이다. 또한 곱셈공식에 의해 $$P(A \vert B) = P(A)$$가 성립한다. 서로 독립이 아닌 두 사건을 서로 종속(mutually dependent)이라고 한다.
4-1. 불량품 $20$개와 양호품 $80$개로 구성된 로트에서 $2$개의 제품을 단순랜덤추출할 때, 첫번째 꺼낸 제품이 불량품인 것을 사건 $A$, 두번째 꺼낸 제품이 불량품인 것을 사건 $B$라고 하자. 비복원추출인 경우 $$\begin{align} P(B \vert A)&=\frac{19}{99}\\[4 pt] P(B)&= P(A)P(B \vert A)+P(A^c)P(B \vert A^c) \\[4 pt] &=\frac{20}{100} \! \times \! \frac{19}{99} + \frac{80}{100} \! \times \! \frac{20}{99}=\frac{20}{100} \end{align}$$이므로, 사건 $A$와 사건 $B$는 서로 종속이다. 한편 복원추출인 경우 $$\begin{align} P(B \vert A)&=\frac{20}{100}\\[4 pt] P(B)&= P(A)P(B \vert A)+P(A^c)P(B \vert A^c) \\[4 pt] &=\frac{20}{100} \! \times \! \frac{20}{100} + \frac{80}{100} \! \times \! \frac{20}{100}=\frac{20}{100} \end{align}$$이므로, 사건 $A$와 사건 $B$는 서로 독립이다. 그러나 두 경우 $P(B)$는 동일한 값을 가진다.
4-2. 사건 $A$, $B$, $C$가 다음을 만족할 때, $A$, $B$, $C$는 서로 독립이라고 한다. $$\begin{align} P(A \cap B) &= P(A)P(B) \\ P(B \cap C) &= P(B)P(C) \\ P(C \cap A) &= P(C)P(A) \\ P(A\cap B\cap C) &=P(A)P(B)P(C)\end{align}$$
확률변수와 확률분포
1. 표본공간 $S$에서 정의된 실함수를 확률변수(random variable)라고 하며, $X$, $Y$ 등으로 표기한다. 확률변수 $X$의 값에 따라 확률이 어떻게 흩어져 있는지를 합이 1인 양수로써 나타낸 것을 $X$의 확률분포(probability distribution) 또는 간단히 분포라고 한다. 확률변수 $X$가 취할 수 있는 모든 값을 $x_1$, $x_2$, $...$로 세어 나갈 수 있을 때 $X$를 이산형(discrete) 확률변수라고 한다. 확률변수 $X$가 실직선 상의 어떤 구간 내 모든 값을 취할 수 있을 때 $X$를 연속형(continuous) 확률변수라고 한다.
2. 확률변수 $X$의 분포는 확률함수(probability function)로 표현할 수 있다. 이산형 확률변수의 확률함수를 확률질량함수(probability mass function; pmf)라고 하고, 연속형 확률변수의 확률함수를 확률밀도함수(probability density function; pdf)라고 한다.
2-1. 확률질량함수 $f(x)$는 이산형 확률변수 $X$가 취할 수 있는 값 하나하나에 확률을 부여한다. $$P(X=x)=f(x) $$ 확률의 정의로부터 $0 \le f(x) \le 1$이고 $\sum_{\text{All}\ x} f(x) = 1$이다.
2-2. 확률밀도함수 $f(x)$는 연속형 확률변수 $X$가 취할 수 있는 구간에 확률을 부여한다. $$P(a \le X \le b)=\int_{a}^{b}f(x)\ dx $$ 이 때 $f(x) \ge 0$이고 $\int_{-\infty}^{\infty} f(x)\ dx=1$이다. 또한 임의의 실수 $c$에 대해 $P(X=c)=\int_{c}^{c}f(x)\ dx =0$임을 알 수 있다.
2-3. 앞으로 혼동의 여지가 없는 한 이산형 확률변수에 대해서도 확률밀도함수라는 용어를 사용하도록 한다.
3. 확률변수 $X$의 분포를 표현하는 다른 방법으로 누적분포함수(cumulative distribution function; cdf) $F(x)$를 다음과 같이 정의한다.$$F(x) = P(X\le x) $$ $X$가 연속형이고 그 확률밀도함수가 $f(x)$인 경우 $F(x)=\int_{-\infty}^{x}f(u)\ du$이며, 이로부터 $\frac{d}{dx}F(x)=f(x)$의 관계가 성립한다.
두 확률변수의 결합분포 및 조건부확률분포
1. 확률변수 $X$, $Y$의 결합분포는 결합확률밀도함수(joint probability density function)로 나타낼 수 있다. 결합확률밀도함수는 $X$, $Y$가 이산형인 경우 $$P(X=x,\ Y=y)=f(x, y)$$를 만족하고, $X$, $Y$가 연속형인 경우 임의의 영역 $A \subset \mathbb{R}^2$에 대하여 $$P[(X,Y)\in A]= \iint_{A}f(x,y)\ dxdy$$를 만족하는 $f(x, y)$로 정의한다. 물론 $X$, $Y$가 이산형인 경우 $0 \le f(x,y) \le 1$이고 $\sum \sum_{\text{All}\ x,y} f(x,y) = 1$이며, $X$, $Y$가 연속형인 경우 $f(x,y) \ge 0$이고 $\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}f(x,y)\ dxdy = 1$이다.
2. 확률변수 $X$, $Y$의 결합누적분포함수(joint cumulative distribution function) $F(x, y)$를 다음과 같이 정의한다. $$F(x,y) = P(X\le x,\ Y \le y) $$ $X$, $Y$가 연속형이고 그 결합확률밀도함수가 $f(x, y)$인 경우 $F(x, y)=\int_{-\infty}^{y} \int_{-\infty}^{x} f(u,v)\ dudv$이며, 이로부터 $\frac{\partial^2}{\partial x \partial y}F(x, y)=f(x,y)$의 관계가 성립한다.
3. 확률변수 $X$, $Y$의 결합확률밀도함수가 $f(x, y)$로 주어졌을 때, 이로부터 $X$, $Y$ 각각의 확률밀도함수 $f_X(x)$, $f_Y(y)$를 구할 수 있다. $X$, $Y$가 연속형인 경우를 고려하면 $$\begin{align} f_X(x) &= \int_{-\infty}^{\infty} f(x,y)\ dy \\[4 pt] f_Y(y) &= \int_{-\infty}^{\infty} f(x,y)\ dx \end{align}$$이며, 이 때 $f_X(x)$, $f_Y(y)$를 $X$, $Y$의 주변확률밀도함수(marginal probability density function)라고 한다.
4. 확률변수 $X$, $Y$의 결합확률밀도함수가 $f(x, y)$이고 $X$의 주변확률밀도함수가 $f_X(x)$일 때, 조건부확률변수 $Y \vert X$의 조건부확률밀도함수(conditional probability density function) $f(y \vert x)$를 다음과 같이 정의한다. $$f (y \vert x ) = \frac{f(x, y)}{f_X(x)}$$
5. 확률변수 $X$, $Y$가 임의의 실구간 $A$, $B$에 대하여 $$P(X \in A,\ Y \in B)=P(X \in A) P(Y \in B) $$를 만족시킬 때, $X$와 $Y$는 서로 독립(mutually independent)이라고 말한다. 이는 $$f(x, y)= f_X(x) f_Y(y) $$와 동치이다. 즉, 두 확률변수가 서로 독립일 필요충분조건은 결합확률밀도함수가 주변확률밀도함수들의 곱으로 표현되는 것이다.
확률변수들의 함수
1. 다음 두 조건을 만족하는 함수 $g: X \longmapsto Y$를 일대일 대응(one-to-one correspondence or bijection)이라고 한다. $$\begin{align} (1)\ \ &g(x_1)=g(x_2) \implies x_1=x_2 \\ (2)\ \ &\forall y \in Y,\ \exists x \in X\ \text{such that}\ g(x)=y \end{align}$$
1-1. $g:X \longmapsto Y$가 일대일 대응이면 $x = g^{-1}(y)$를 만족하는 역함수 $g^{-1}: Y \longmapsto X$가 존재한다.
1-2. $g:X \longmapsto Y$가 일대일 대응이면 임의의 $x_1$, $x_2 \in X$에 대하여 다음 둘 중 하나가 성립한다. $$\begin{align} (1)\ \ &x_1 < x_2 \implies g(x_1) < g(x_2) \\ (2)\ \ &x_1 < x_2 \implies g(x_1) > g(x_2)\end{align}$$ 즉, $g(x)$는 단조증가하거나 단조감소한다.
2. 확률변수 $X$의 확률밀도함수가 $f_X(x)$이고 함수 $y=g(x)$가 일대일 대응일 때 확률변수 $Y=g(X)$의 확률밀도함수를 구해 보자. 단조증가인 경우를 고려하면 $$\begin{align} F_Y(y) &=P[Y \le y] \\ &= P[g(X) \le y] \\ &= P[X \le g^{-1}(y)] \\ &= F_X(g^{-1}(y))\end{align}$$이고, 이로부터 $$\begin{align} f_Y(y) &= \frac{d}{dy}F_Y(y) \\ &= \frac{d}{dy}F_X(g^{-1}(y)) \\ &=f_X(g^{-1}(y)) \frac{d}{dy}g^{-1}(y) \\ &\ge 0\ \ \left( \because \frac{d}{dy}g^{-1}(y) >0 \right) \end{align}$$임을 안다. 단조감소인 경우 유사한 전개를 통해 $$\begin{align} f_Y(y) &= -f_X(g^{-1}(y)) \frac{d}{dy}g^{-1}(y) \\ &\ge 0\ \ \left( \because \frac{d}{dy}g^{-1}(y) <0 \right) \end{align}$$를 얻는다. 두 경우를 종합하면 다음과 같이 쓸 수 있다. $$f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy}g^{-1}(y) \right| $$
3. 확률변수 $X$, $Y$의 결합확률밀도함수가 $f_{X, Y}(x, y)$이고 $(z, w) =(g_1(x, y),\ g_2(x, y)) $로 표현되는 변환 $g$가 일대일 대응이라 하자. $g$의 역변환 $h$가 $(x, y) = (h_1(z, w),\ h_2(z, w))$일 때, 확률변수 $Z=g_1(X, Y)$, $W=g_2(X, Y)$의 결합확률밀도함수는 다음과 같이 주어진다. $$\begin{align} &f_{Z, W}(z, w)\\ = &f_{X, Y}(h_1(z, w),\ h_2(z, w)) \begin{vmatrix} \frac{\partial h_1(z, w)}{\partial z} & \frac{\partial h_1(z, w)}{\partial w} \\ \frac{\partial h_2(z, w)}{\partial z} & \frac{\partial h_2(z, w)}{\partial w} \end{vmatrix} \end{align}$$ 이 때 뒤에 곱해주는 행렬식을 변환 $h$의 야코비 행렬식 또는 야코비안(Jacobian)이라고 하며, 흔히 $|J|$로 표기한다.
3-1. $Z=X+Y$, $W=X$인 경우 $x= w$, $y= z-w$이므로, 야코비안은 $$|J|=\begin{vmatrix} 0 & 1 \\ 1 & -1 \end{vmatrix}= 1 $$이고, 따라서 $$f_{Z, W}(z, w)= f_{X, Y}(w, z-w) $$이다. 이로부터 $Z$의 주변확률밀도함수는 $$f_Z(z)=\int_{-\infty}^{\infty} f_{X, Y}(w, z-w)\ dw$$임을 안다.
3-2. 위의 예에서 확률변수 $X$, $Y$가 독립인 경우 $$f_Z(z)=\int_{-\infty}^{\infty} f_X(w) f_Y(z-w)\ dw$$의 합성곱(convolution) 형태로 표현할 수 있다.
References
김우철 외, 개정판 일반통계학
송성주·전명식, 수리통계학 제5판
'일반통계학' 카테고리의 다른 글
[일반통계학] 6. 푸아송분포, 지수분포, 감마분포 (0) | 2021.10.15 |
---|---|
[일반통계학] 5. 베르누이분포, 초기하분포, 이항분포, 기하분포, 음이항분포 (0) | 2021.10.12 |
[일반통계학] 4. 기댓값과 그의 성질 (0) | 2021.10.09 |
[일반통계학] 2. 모집단과 표본 (0) | 2021.10.02 |
[일반통계학] 1. 자료의 생성 (0) | 2021.10.01 |