여러 가지 분포의 확률밀도함수, 적률생성함수, 기댓값 및 분산
Distribution | PMF or PDF | MGF | Expectation | Variance |
$\text{Bernoulli}(p)$ | $\begin{gathered} f(x) = p^xq^{1-x} \\ x \in \{0, 1\} \end{gathered}$ | $\begin{gathered} M(t)=pe^t + q \\ t \in \mathbb{R} \end{gathered}$ | $p$ | $pq$ |
$\text{B}(n, p)$ | $\begin{gathered} f(x) = \frac{n!}{x!(n-x)!}p^{x}q^{n-x} \\ x \in \{0, 1, \cdots, n \}\end{gathered}$ | $\begin{gathered} M(t) = (pe^t + q)^n \\ t \in \mathbb{R} \end{gathered}$ | $np$ | $npq$ |
$\text{Geo}(p)$ | $\begin{gathered} f(x) = pq^{x-1} \\ x \in \{1, 2, 3, \cdots \}\end{gathered}$ | $\begin{gathered} M(t) = \cfrac{pe^t}{1-qe^t} \\ t \in (-\infty, -\log{q})\end{gathered}$ | $\cfrac{1}{p}$ | $\cfrac{q}{p^2}$ |
$\text{NB}(r, p)$ | $\begin{gathered} f(x) = \frac{(x-1)!}{(r-1)!(x-r)!} p^{r}q^{x-r} \\ x \in \{r, r\!+\!1, r\!+\!2, \cdots \}\end{gathered}$ | $\begin{gathered} M(t) = \left( \! \cfrac{pe^t}{1-qe^t} \! \right)^r\\ t \in (-\infty, -\log{q})\end{gathered}$ | $\cfrac{r}{p}$ | $\cfrac{rq}{p^2}$ |
$\text{Pois}(\lambda)$ | $\begin{gathered} f(x) = \frac{\lambda ^x e^{-\lambda}}{x!} \\ x \in \{0, 1, 2, \cdots \}\end{gathered}$ | $\begin{gathered} M(t) = e^{\lambda (e^t - 1)} \\ t \in \mathbb{R} \end{gathered}$ | $\lambda$ | $\lambda$ |
$\text{Exp}(\frac{1}{\lambda})$ | $\begin{gathered} f(x) = \lambda e^{-\lambda x} \\ x \in [0, \infty)\end{gathered}$ | $\begin{gathered} M(t) = \frac{1}{1-t/\lambda}\\ t \in (-\infty, \lambda) \end{gathered}$ | $\cfrac{1}{\lambda}$ | $\cfrac{1}{\lambda^2}$ |
$\text{Gamma}(r, \frac{1}{\lambda})$ | $\begin{gathered} f(x) = \frac{\lambda^r x^{r-1}e^{-\lambda x}}{(r-1)!} \\ x \in (0, \infty)\end{gathered}$ | $\begin{gathered} M(t) = \left( \! \frac{1}{1-t/\lambda} \! \right)^r\\ t \in (-\infty, \lambda) \end{gathered}$ | $\cfrac{r}{\lambda}$ | $\cfrac{r}{\lambda^2}$ |
$\text{N}(\mu, \sigma^2)$ | $\begin{gathered} f(x) = \frac{1}{\sqrt{2 \pi} \sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \\ x \in \mathbb{R}\end{gathered}$ | $\begin{gathered} M(t) = e^{\mu t + \frac{1}{2}\sigma^2 t^2}\\ t \in \mathbb{R} \end{gathered}$ | $\mu$ | $\sigma^2$ |
$\text{U}(a, b)$ | $\begin{gathered} f(x) = \frac{1}{b-a} \\ x \in [a, b]\end{gathered}$ | $\begin{gathered} M(t) = \frac{e^{bt}-e^{at}}{t(b-a)}\\ t \in \mathbb{R} - \{ 0 \}\end{gathered}$ | $\cfrac{a+b}{2}$ | $\cfrac{(b-a)^2}{12}$ |
감마분포에서 $r$을 양의 실수로 확장하여 생각할 수 있으며, 이 경우 흔히 $r$ 대신 $\alpha$로 표기한다. 또한 발생률의 역수인 $\frac{1}{\lambda}$을 $\beta$로 나타내기도 한다. 이 때 $\alpha$와 $\beta$를 각각 형상모수(shape parameter)와 척도모수(scale parameter)라 한다. $X \sim \text{Gamma}(\alpha, \beta)$의 확률밀도함수는 $$f(x) = \frac{1}{\Gamma(\alpha)\beta^{\alpha}}x^{\alpha -1} e^{-\frac{x}{\beta}} $$으로 나타낼 수 있다. 한편 $\alpha <1$인 경우 $x=0$에서의 함수값이 정의되지 않기 때문에 감마분포의 확률밀도함수는 정의역을 양의 실수로 제한한다.
R에서 분포 계산하기 및 그래프 그리기
1. R
은 확률분포의 계산과 관련하여 네 종류의 함수를 지원하며, 이들을 접두어로 구분한다. 접두어 'd-', 'p-', 'q-', 'r-'은 각각 확률밀도함수 $f(x)$, 누적분포함수 $F(x)$, 분위수함수 $F^{-1}(\alpha)$, 난수생성함수를 가리킨다. 특정 분포는 접미어로 나타낸다. '-binom', '-geom', '-nbinom', '-pois', '-exp', '-gamma', '-norm', '-unif'는 각각 이항분포, 기하분포, 음이항분포, 푸아송분포, 지수분포, 감마분포, 정규분포, 균등분포를 가리킨다.
2. R
에서 기하확률변수와 음이항확률변수는 성공을 관측하기까지의 '시행 횟수'가 아닌 '실패 횟수'로 정의함에 유의한다. 음이항분포의 경우 시행 횟수 $X$와 실패 횟수 $Y$ 사이에는 $Y = X\!-\!r$의 관계가 있다.
2-1. 7회의 동일한 게임으로 구성된 경기에서 두 개의 팀 A와 B가 겨루게 되었다고 하자. 4회를 먼저 이기는 팀이 우승을 하게 되고, 어떤 팀이든지 먼저 4회를 이기면 경기는 더 이상 계속되지 않고 종료된다. A팀이 각 게임에서 이길 확률을 $0.7$이라고 할 때 경기가 5회에서 종료될 확률을 구해 보자. A팀이 4회를 이기는 데 필요한 경기의 수를 $X$라 하면 $X \sim \text{NB}(4, 0.7)$이고, B팀이 4회를 이기는 데 필요한 경기의 수를 $Y$라 하면 $Y \sim \text{NB}(4, 0.3)$이다. 구하고자 하는 확률은 $P(X=5)+P(Y=5)$이다.
> dnbinom(x=1,size=4,prob=0.7)+dnbinom(x=1,size=4,prob=0.3)
[1] 0.3108
3. 이항분포의 확률밀도함수는 다음과 같은 개형을 가진다. $n$이 커질수록 정규분포곡선과 유사한 모양을 가짐을 알 수 있다.
위 그래프를 그리는 데 사용한 R
스크립트는 아래와 같다.
x <- 0:50
db1 <- dbinom(x,10,0.3)
db2 <- dbinom(x,20,0.3)
db3 <- dbinom(x,50,0.3)
plot(x, db1, pch = 19, col = "deepskyblue",
main = "Binomial PMF", xlab = "x", ylab = "f(x)")
lines(x, db1, col = "deepskyblue")
points(x, db2, pch = 19, col = "royalblue")
lines(x, db2, col = "royalblue")
points(x, db3, pch = 19, col = "navyblue")
lines(x, db3, col = "navyblue")
legend("topright",
c("B(10, 0.3)", "B(20, 0.3)", "B(50, 0.3)"),
pch = c(19, 19, 19),
col = c("deepskyblue", "royalblue", "navyblue"))
4. 음이항분포의 확률밀도함수는 다음과 같은 개형을 가진다.
5. 푸아송분포의 확률밀도함수는 다음과 같은 개형을 가진다.
5-1. 이항분포의 푸아송 근사를 그래프로 살펴보자. $np=15$로 동일한 $\text{B}(50, 0.3)$, $\text{B}(150, 0.1)$, $\text{B}(750, 0.02)$를 $\text{Pois}(15)$와 비교하였다.
x <- 0:50
db3 <- dbinom(x,50,0.3)
db4 <- dbinom(x,150,0.1)
db5 <- dbinom(x,750,0.02)
dpois3 <- dpois(x,15)
plot(x, db3, type = "l", lwd = 1.5, col = "deepskyblue",
main = "Poisson Approximation to Binomial", xlab = "x", ylab = "f(x)")
lines(x, db4, lwd = 1.5, col = "royalblue")
lines(x, db5, lwd = 1.5, col = "navyblue")
lines(x, dpois3, lwd = 1.5, col = "violetred")
legend("topright",
c("B(50, 0.3)", "B(150, 0.1)", "B(750, 0.02)", "Pois(15)"),
lty = c(1, 1, 1, 1),
lwd = c(1.5, 1.5, 1.5, 1.5),
col = c("deepskyblue", "royalblue", "navyblue", "violetred"))
6. 감마분포의 확률밀도함수는 다음과 같은 개형을 가진다.
curve(dgamma(x, shape=1, rate=1), lwd = 2, col = "deepskyblue",
xlim=c(0, 50), main = "Gamma PDF", xlab = "x", ylab = "f(x)")
curve(dgamma(x, shape=0.5, rate=1), lwd = 2, col = "lightblue", add = TRUE)
curve(dgamma(x, shape=3, rate=1), lwd = 2, col = "royalblue", add = TRUE)
curve(dgamma(x, shape=10, rate=1), lwd = 2, col = "navyblue", add = TRUE)
curve(dgamma(x, shape=10, rate=0.5), lwd = 2, col = "violetred", add = TRUE)
legend("topright",
c("Gamma(0.5, 1)", "Exp(1)", "Gamma(3, 1)", "Gamma(10, 1)", "Gamma(10, 2)"),
lty = c(1, 1, 1, 1, 1),
lwd = c(2, 2, 2, 2, 2),
col = c("lightblue", "deepskyblue", "royalblue", "navyblue", "violetred"))
7. 이항분포의 정규 근사를 그래프로 살펴보자. $\text{B}(30, 0.3)$과 $\text{N}(9, 6.3)$을 비교하였다.
plot(0:30, dbinom(0:30, 30, 0.3), pch = 19, col = "navyblue",
main = "Normal Approximation to Binomial", xlab = "x", ylab = "f(x)")
curve(dnorm(x, 9, sqrt(6.3)), lwd = 2, col = "violetred", add = TRUE)
legend("topright",
c("B(30, 0.3)", "N(9, 6.3)"),
pch = c(19, NA_integer_),
lty = c(0, 1),
lwd = c(0, 2),
col = c("navyblue", "violetred"))
References
김우철, 개정판 수리통계학
송성주·전명식, 수리통계학 제 5판
'일반통계학' 카테고리의 다른 글
[일반통계학] 11. 확률변수의 함수의 분포 (0) | 2022.01.02 |
---|---|
[일반통계학] 10. 야코비안 (0) | 2021.12.05 |
[일반통계학] 8. 정규분포 (0) | 2021.11.20 |
[일반통계학] 7. 베르누이과정의 극한으로서의 푸아송과정 (0) | 2021.11.19 |
[일반통계학] 6. 푸아송분포, 지수분포, 감마분포 (0) | 2021.10.15 |