감마함수
양수 $\alpha$에 대하여 $$\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha -1}e^{-x}\ dx$$로 정의된 함수를 감마함수(gamma)함수라고 한다. 감마함수는 다음과 같은 성질을 가진다. $$\begin{align} \text{(1)}\ \ &\Gamma(n) = (n-1)!\ \ \text{for}\ \ n \in \mathbb{N} \\ \text{(2)}\ \ &\Gamma(\alpha+1) = \alpha\Gamma(\alpha)\\ \text{(3)}\ \ &\Gamma(\textstyle{\frac{1}{2}}) = \sqrt{\pi} \end{align}$$ 즉, 감마함수는 계승(factorial)의 정의역을 (복소수 범위로) 확장한 것이다.
스털링 근사
스털링 근사(Stirling's approximation)는 계승에 대한 근사이다. $$n! \sim \sqrt{2 \pi } n^{n+\frac{1}{2}}e^{-n} ,\ \ n \to \infty $$ $n!$을 감마함수의 형태로 나타내면 $$\begin{align} n! &= \Gamma(n+1) \\ &= \int_{0}^{\infty}x^n e^{-x}\ dx \\ &= \int_{0}^{\infty}e^{n \log{x} - x}\ dx \\ &= \int_{0}^{\infty}e^{n \log{ny} - ny} n\ dy \\ &= n^{n+1}\int_{0}^{\infty} e^{n(\log{y}- y})\ dy \end{align}$$이다. 한편 라플라스의 방법(Laplace's method)에 의하면 $f(x)$가 두 번 미분가능한 함수이고 $x = x_0$에서 극댓값을 가질 때 다음 근사식이 성립한다. $$\int_{a}^{b} e^{n f(x)}\ dx \sim \sqrt{\frac{2 \pi}{-nf''(x_0)}}e^{nf(x_0)},\ \ n \to \infty$$ 이를 적용하면 $$\int_{0}^{\infty}e^{n(\log{y}-y)}\ dy\sim \sqrt{2 \pi}n^{-\frac{1}{2}}e^{-n},\ \ n \to \infty$$이고, 이로부터 스털링 근사 공식을 얻는다.
드 무아브르-라플라스 정리
1. 드 무아브르-라플라스 정리(De Moivre-Laplace theorem)는 이항확률의 근사에 관한 정리이다. $X \sim \text{B}(n, p)$일 때 $np+a\sqrt{npq} \le x \le np+b\sqrt{npq}$ 인 $x$에 대하여 다음이 성립한다. $$ \frac{n!}{x!(n-x)!}p^x q^{n-x} \sim \frac{1}{\sqrt{2 \pi npq}}e^{-\frac{(x-np)^2}{2npq}},\ \ n \to \infty$$ 증명 과정에서 세 차례의 근사를 거친다.
1-1. 이항계수에 스털링 근사를 적용한다. $$\begin{align} &\frac{n!}{x!(n-x)!}p^x q^{n-x} \\ \sim \ &\frac{\sqrt{2 \pi}n^{n+\frac{1}{2}}e^{-n}}{\sqrt{2 \pi} x^{x+\frac{1}{2}}e^{-x} {\sqrt{2 \pi}} (n-x)^{n-x+\frac{1}{2}}e^{-n+x}}p^x q^{n-x} \\ =\ &\frac{1}{\sqrt{2 \pi}} \frac{n^{n+\frac{1}{2}}}{x^{x+\frac{1}{2}} (n-x)^{n-x+\frac{1}{2}}} p^x q^{n-x} \\ =\ &\frac{1}{\sqrt{2 \pi n \left( \! \cfrac{x}{n} \! \right) \left( \! 1 - \cfrac{x}{n} \! \right)}} \left( \! \frac{np}{x} \! \right)^x \left( \! \frac{nq}{n-x} \! \right)^{n-x}\end{align}$$
1-2. $(\frac{np}{x})^x (\frac{nq}{n-x})^{n-x}$ 항을 정리하기 위해 $z$라는 변수를 도입하자. $$z = \frac{x - np}{\sqrt{npq}} $$
식을 $x$에 대해 정리하면 $x = np + z \sqrt{npq}$, $n-x = nq - z \sqrt{npq}$이므로, $$\begin{align} &\left( \! \frac{np}{x} \! \right)^x \left( \! \frac{nq}{n-x} \! \right)^{n-x}\\ = \ &\left( \! \frac{x}{np} \! \right)^{-x} \left( \! \frac{n-x}{nq} \! \right)^{-n+x} \\ = \ &\left( 1+ z \sqrt{\tfrac{q}{np}} \right)^{-np-z\sqrt{npq}} \left( 1- z \sqrt{\tfrac{p}{nq}} \right)^{-nq+z\sqrt{npq}}\end{align}$$이다. 로그함수의 멱급수 전개 $\log{(1+x)} = x-\frac{1}{2}x^2+\frac{1}{3}x^3+\cdots$를 이용하면 $$\begin{align} &(-np-z\sqrt{npq})\log{\left( 1 + z \sqrt{\tfrac{q}{np}} \right)} \\ =\ &(-np-z\sqrt{npq})\left( \sqrt{\tfrac{q}{np}} z - \tfrac{q}{2np}z^2 + \cdots \right) \\ =\ &-\sqrt{npq}z - \frac{q}{2}z^2 + \cdots \end{align}$$이고 $$\begin{align} &(-nq+z\sqrt{npq})\log{\left( 1 - z \sqrt{\tfrac{p}{nq}} \right)} \\ =\ &(-nq+z\sqrt{npq})\left( - \sqrt{\tfrac{p}{nq}} z - \tfrac{p}{2nq}z^2 + \cdots \right) \\ =\ &\sqrt{npq}z - \frac{p}{2}z^2 + \cdots \end{align}$$이므로, $$\begin{align} &\left( 1+ z \sqrt{\tfrac{q}{np}} \right)^{-np-z\sqrt{npq}} \left( 1- z \sqrt{\tfrac{p}{nq}} \right)^{-nq+z\sqrt{npq}} \\ =\ &\exp{[(-\sqrt{npq}+\sqrt{npq})z -\frac{1}{2}(q+p)z^2 + \cdots]} \\ \sim \ &e^{-\frac{1}{2}z^2} = e^{-\frac{(x-np)^2}{2npq}} \end{align}$$을 얻는다.
1-3. 마지막으로 $np+a\sqrt{npq} \le x \le np+b\sqrt{npq}$로부터 $$p+a \sqrt{\frac{pq}{n}} \le \frac{x}{n} \le p+b \sqrt{\frac{pq}{n}} \\ q-b \sqrt{\frac{pq}{n}} \le 1-\frac{x}{n} \le q-a \sqrt{\frac{pq}{n}}$$이므로, $\sqrt{2 \pi n ( \frac{x}{n} ) ( 1 - \frac{x}{n} )} \sim \sqrt{2 \pi npq} $임을 알 수 있다.
2. $x_1 = \left\lceil np+a\sqrt{npq} \right\rceil$, $x_k = \left\lfloor np+b\sqrt{npq} \right\rfloor$라 하고 $i=1, ..., k$에 대하여 $z_i = \frac{x_i-np}{\sqrt{npq}}$라 하면 $$\begin{align} &\sum_{i=1}^{k} \frac{n!}{x_i! (n-x_i)!}p^{x_i}q^{n-x_i} \\ \sim\ &\sum_{i=1}^{k} \frac{1}{\sqrt{2 \pi npq}}e^{-\frac{(x_i - np)^2}{2npq}} \\ = \ &\frac{1}{\sqrt{npq}}\sum_{i=1}^{k} \frac{1}{\sqrt{2 \pi}}e^{-\frac{1}{2}z_i^2} \end{align}$$이다. 그런데 $z_1 \sim a$, $z_k \sim b$이고 $$\begin{align} \frac{1}{\sqrt{npq}} &= \frac{k-1}{\sqrt{npq}} \frac{1}{k-1} \\ &= \frac{x_k - x_1}{\sqrt{npq}} \frac{1}{k-1} \\ &= \frac{z_k - z_1}{k-1} \\ &\sim \frac{b-a}{k-1} \end{align}$$이므로, $$\begin{align} &\frac{1}{\sqrt{npq}}\sum_{i=1}^{k} \frac{1}{\sqrt{2 \pi}}e^{-\frac{1}{2}z_i^2} \\ \sim\ &\frac{b-a}{k-1}\sum_{i=1}^{k} \frac{1}{\sqrt{2 \pi}}e^{-\frac{1}{2}z_i^2} \\ \sim\ &\int_{a}^{b} \frac{1}{\sqrt{2 \pi}}e^{-\frac{1}{2}z^2}\ dz \end{align}$$를 얻는다. 즉, 이항분포에서 $n$이 충분히 클 경우 그 누적확률을 정적분의 형태로 근사할 수 있으며, 이 때 피적분함수는 다음과 같다. $$ \phi(z) = \frac{1}{\sqrt{2 \pi}}e^{-\frac{1}{2}z^2},\ \ z \in (-\infty, \infty)$$ 극좌표 변환을 이용하면 $\int_{-\infty}^{\infty} \phi(z)\ dz = 1$임을 보일 수 있다.
정규분포
1. 확률변수 $X$의 확률밀도함수가 $$ f(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\ \ x \in (-\infty, \infty)$$로 주어질 때, $X$는 모수가 $\mu$, $\sigma$인 정규분포를 따른다고 하며 이를 $X \sim \text{N}(\mu, \sigma^2)$로 표기한다. $X$의 적률생성함수를 구할 때는 $z = \frac{x-\mu}{\sigma}$로 두면 편리하다. $$\begin{align}M_X(t) &= \int_{-\infty}^{\infty} e^{tx} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}\ dx \\ &=\int_{-\infty}^{\infty} e^{t(\sigma z + \mu)}\frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}z^2}\ dz \\ &=e^{\mu t}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}}e^{t\sigma z - \frac{1}{2}z^2}\ dz \\ &=e^{\mu t + \frac{1}{2}\sigma^2 t^2}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}}e^{-\frac{1}{2}(z - t\sigma)^2}\ dz \\ &=e^{\mu t + \frac{1}{2}\sigma^2 t^2} \end{align}$$
2. $X \sim \text{N}(\mu, \sigma^2)$의 기댓값과 분산은 다음과 같다. $$\mathbb{E}(X) = \mu,\ \ \text{Var}(X) = \sigma^2 $$
3. $X \sim \text{N}(\mu, \sigma^2)$이면 상수 $a$, $b$에 대하여 다음이 성립한다. $$aX + b \sim \text{N}(a \mu + b, a^2\sigma^2)$$ 적률생성함수의 성질을 이용해 이를 증명해 보자. $$\begin{align} M_{aX+b}(t) &= e^{bt}M_X(aX) \\ &=e^{bt}e^{a \mu t + \frac{1}{2}a^2 \sigma^2 t^2} \\ &= e^{(a \mu + b)t + \frac{1}{2}(a^2 \sigma^2) t^2} \end{align}$$
4. 3에서 $a = \frac{1}{\sigma}$, $b = -\frac{\mu}{\sigma}$인 경우를 고려하면 $$\tfrac{X - \mu}{\sigma} \sim \text{N}(0, 1) $$임을 알 수 있다. $Z \sim \text{N}(0, 1)$일 때 확률변수 $Z$는 표준정규분포를 따른다고 하며 그 확률밀도함수는 $\phi(z)$이다. $Z$의 선형변환을 통해 $X \sim \text{N}(\mu, \sigma^2)$을 '정의'할 수도 있다. $$X \overset{d}{\equiv} \sigma Z + \mu,\ \ Z \sim \text{N}(0, 1)$$
5. 정규분포의 누적확률은 표준정규분포를 이용하여 구할 수 있다. 즉, 표준정규분포의 누적분포함수를 $$\Phi (z ) = \int_{-\infty}^{z} \frac{1}{\sqrt{2 \pi}}e^{-\frac{1}{2}t^2}\ dt $$라 하면 $X \sim \text{N}(\mu, \sigma^2)$의 누적확률은 $$\begin{align} P(X \le x ) &= P\left( \tfrac{X - \mu}{\sigma} \le \tfrac{x - \mu}{\sigma} \right) \\ &= P\left( Z \le \tfrac{x-\mu}{\sigma} \right) \\ &= \Phi \left( \tfrac{x - \mu}{\sigma} \right) \end{align}$$
6. $Z \sim \text{N}(0, 1)$일 때 $$P(Z > z_{\alpha}) = \alpha\ \ (0 < \alpha <1) $$을 만족시키는 값 $z_{\alpha}$를 표준정규분포의 상방 $\alpha$분위수(upper $\alpha$ quantile)라고 한다. 자주 사용되는 $z_{\alpha}$ 값으로는 다음과 같은 것들이 있다. $$ z_{0.05} = 1.645,\ \ z_{0.025} = 1.96,\ \ z_{0.005} = 2.58 $$
7. 양수의 값을 취하는 확률변수 $X$에 대하여 $\log{X} \sim \text{N}(\mu, \sigma^2)$일 때, $X$는 모수가 $\mu$, $\sigma$인 로그정규분포를 따른다고 하며 이를 $X \sim \text{Lognormal}(\mu, \sigma^2)$로 표기한다. 로그정규확률변수의 경우 모든 적률이 존재하지만 적률생성함수를 가지지 않는다.
Reference
김우철, 개정판 수리통계학
'일반통계학' 카테고리의 다른 글
[일반통계학] 10. 야코비안 (0) | 2021.12.05 |
---|---|
[일반통계학] 9. R을 이용한 분포의 계산 (0) | 2021.12.03 |
[일반통계학] 7. 베르누이과정의 극한으로서의 푸아송과정 (0) | 2021.11.19 |
[일반통계학] 6. 푸아송분포, 지수분포, 감마분포 (0) | 2021.10.15 |
[일반통계학] 5. 베르누이분포, 초기하분포, 이항분포, 기하분포, 음이항분포 (0) | 2021.10.12 |