분포
1. 특성값이 흩어져 있는 상태를 합이 1인 양수로써 나타낸 것을 분포(distribution)라고 한다.
2. 다차원 특성값의 분포를 결합분포(joint distribution)라고 한다.
모집단의 대푯값
1. 표본추출의 목적은 모집단의 분포를 추측하기 위한 것이라고 할 수 있다. 그러나 일반적으로 모집단 분포를 추측하는 것은 매우 복잡하고 어렵다. 따라서 모집단의 분포를 추측하는 대신 모집단 분포의 특징을 나타내는 대푯값(representative value)을 추측하는 방법이 널리 통용되고 있다.
2. 분포의 위치(center or location)를 나타내는 대푯값으로는 평균(mean), 중앙값(median), 최빈값(mode), 분위수(quantile), 사분위수(quartile) 등이 있다.
2-1. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$일 때, 모평균 $\mu$는 다음과 같이 정의한다. $$\mu=\frac{1}{N} \sum_{i=1}^{N}a_i $$
2-2. $p$분위수는 특성값을 작은 것부터 순서대로 나열했을 때 $100p\text{%}$의 특성값이 그 값보다 작고 $100(1-p)\text{%}$의 특성값이 그 값보다 크게 되는 값으로 정의한다. 이 때 $0.25$분위수를 제$1$사분위수, $0.5$분위수를 중앙값, $0.75$분위수를 제$3$사분위수라고 하며, 각각 $Q_1$, $Q_2$, $Q_3$로 표기한다.
2-3. 유한모집단의 특성값 $a_1$, $a_2$, $...$, $a_N$을 작은 것부터 순서대로 나열한 결과가 $a_{(1)}$, $a_{(2)}$, $...$, $a_{(N)}$일 때, 모중앙값 $Q_2$는 $(\text{i})$ $N$이 홀수일 때는 $a_{\left(\frac{N+1}{2} \right)}$, $(\text{ii})$ $N$이 짝수일 때는 $a_{\left(\frac{N}{2} \right)}$과 $a_{\left(\frac{N+2}{2} \right)}$의 평균이 된다.
3. 분포의 산포(dispersion)를 나타내는 대푯값으로는 분산(variance), 표준편차(standard deviation), 평균절대편차(mean absolute deviation; MAD), 사분위수범위(interquartile range; IQR), 공분산(covariance), 상관계수(correlation coefficient) 등이 있다.
3-1. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$이고 모평균이 $\mu$일 때, 모분산 $\sigma^2$와 모표준편차 $\sigma$는 다음과 같이 정의한다. $$\begin{align} \sigma^2 &= \frac{1}{N}\sum_{i=1}^{N}(a_i-\mu)^2 \\ \sigma &= \sqrt{\sigma^2} \end{align}$$
3-2. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$이고 제1사분위수, 모중앙값, 제3사분위수가 각각 $Q_1$, $Q_2$, $Q_3$일 때, 평균절대편차 $\text{MAD}$와 사분위수범위 $\text{IQR}$은 다음과 같이 정의한다. $$\begin{align} \text{MAD}&=\frac{1}{N}\sum_{i=1}^{N}|a_i-Q_2| \\ \text{IQR}&=Q_3-Q_1\end{align}$$
3-3. 이차원 유한모집단의 특성값이 $(a_1, b_1)$, $(a_2, b_2)$, $...$, $(a_N, b_N)$이라 하자. $a_1$, $a_2$, $...$, $a_N$의 모평균과 모분산이 $\mu_a$, ${\sigma_a}^2$이고, $b_1$, $b_2$, $...$, $b_N$의 모평균과 모분산이 $\mu_b$, ${\sigma_b}^2$일 때, 모공분산 $\sigma_{ab}$와 모상관계수 $\rho_{ab}$는 다음과 같이 정의한다. $$\begin{align} \sigma_{ab}&=\frac{1}{N}\sum_{i=1}^{N}(a_i-\mu_a)(b_i-\mu_b) \\ \rho_{ab}&=\frac{\sigma_{ab}}{\sigma_a \sigma_b} \\ &=\frac{\sum\limits_{i=1}^{N}(a_i-\mu_a)(b_i-\mu_b)}{\sqrt{\sum\limits_{i=1}^{N}(a_i-\mu_a)^2} \sqrt{\sum\limits_{i=1}^{N}(b_i-\mu_b)^2}}\end{align}$$
4. 분포의 모양(shape)을 나타내는 대푯값으로는 왜도(skewness)와 초과첨도(excess kurtosis)가 있다.
4-1. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$이고 모평균이 $\mu$, 모분산이 $\sigma^2$일 때, 모왜도 $\gamma$와 모초과첨도 $\kappa$는 다음과 같이 정의한다. $$\begin{align} \gamma &= \frac{1}{N\sigma^3}\sum_{i=1}^{N}(a_i-\mu)^3 \\ \kappa &= \frac{1}{N\sigma^4}\sum_{i=1}^{N} (a_i-\mu)^4-3 \end{align}$$
4-2. 왜도가 $0$보다 크면 분포가 오른쪽으로 긴 꼬리를 가지고, 왜도가 $0$보다 작으면 분포가 왼쪽으로 긴 꼬리를 가진다. 초과첨도가 $0$보다 크면 분포가 정규분포에 비해 두꺼운 꼬리를 가지고, 초과첨도가 $0$보다 작으면 분포가 정규분포에 비해 얇은 꼬리를 가진다.
5. 모평균, 모분산, 모표준편차, 모공분산, 모상관계수 등과 같이 모집단 분포의 특징을 나타내는 대푯값을 모수(parameter)라고 한다.
표본의 대푯값
1. 표본의 특성값이 $x_1$, $x_2$, $...$, $x_n$일 때, 표본평균 $\bar{x}$는 다음과 같이 정의한다. $$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$
2. 표본의 특성값이 $x_1$, $x_2$, $...$, $x_n$이고 표본평균이 $\bar{x}$일 때, 표본분산 $s^2$와 표본표준편차 $s$는 다음과 같이 정의한다. $$\begin{align}s^2&=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 \\ s&=\sqrt{s^2}\end{align}$$ 표본분산의 정의에서 표본의 크기 $n$이 아닌 $n-1$로 나누는 이유는 표본분산을 모분산의 불편추정량(unbiased estimator)으로 만들기 위함이며, 이를 베셀 보정(Bessel's correction)이라 한다.
3. 표본의 사분위수는 $\hat{Q}_1$, $\hat{Q}_2$, $\hat{Q}_3$, 사분위수범위는 $\widehat{\text{IQR}}$으로 표기하며, 모집단에서와 동일하게 정의한다.
4. 이차원 표본의 특성값이 $(x_1, y_1)$, $(x_2, y_2)$, $...$, $(x_n, y_n)$이라 하자. $x_1$, $x_2$, $...$, $x_n$의 표본평균과 표본분산이 $\bar{x}$, ${s_x}^2$이고, $y_1$, $y_2$, $...$, $y_n$의 표본평균과 표본분산이 $\bar{y}$, ${s_y}^2$일 때, 표본공분산 $s_{xy}$와 표본상관계수 $r_{xy}$는 다음과 같이 정의한다. $$\begin{align} s_{xy}&= \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y}) \\ r_{xy}&=\frac{s_{xy}}{s_x s_y} \\ &=\frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2} \sqrt{\sum\limits_{i=1}^{n} (y_i-\bar{y})^2}} \end{align}$$
5. 표본의 특성값이 $x_1$, $x_2$, $...$, $x_n$이고 표본평균이 $\bar{x}$, 표본분산이 $s^2$일 때, 표본왜도 $g$와 표본초과첨도 $k$는 다음과 같이 정의한다(adjusted Fisher-Pearson standardized moment coefficient). $$\begin{align}g &=\frac{\sqrt{n(n-1)}}{(n-2)ns^3} \sum_{i=1}^{n}(x_i-\bar{x})^3 \\ k &=\frac{n-1}{(n-2)(n-3)}\left[\frac{n+1}{ns^4}\sum_{i=1}^{n}(x_i-\bar{x})^4+6 \right] \end{align}$$
6. 표본평균, 표본분산, 표본표준편차, 표본공분산, 표본상관계수 등과 같이 표본분포의 특징을 나타내는 대푯값을 기술통계량(descriptive statistic) 또는 통계량(statistic)이라고 한다. 특히 모수의 추측에 사용되는 통계량을 추정량(estimator)이라고 한다.
R의 기술통계량 요약 함수
1. R
의 기술통계량 요약 함수로는 summary()
, stat.desc()
, describe()
등이 있다. 40명으로부터 얻은 키와 몸무게의 표본자료가 아래와 같다고 하자.
> #Height versus weight
>
> height <- c(183, 168, 165, 158, 180, 176, 168, 160, 160, 150, 180, 183, 170, 170, 185, 170, 165, 170, 168, 154, 152, 173, 173, 165, 163, 163, 160, 178, 138, 171, 163, 168, 165, 165, 178, 170, 168, 183, 145, 174)
> weight <- c(82, 52, 52, 55, 93, 57, 60, 48, 50, 49, 79, 73, 60, 66, 74, 82, 57, 54, 57, 55, 50, 63, 60, 49, 63, 57, 57, 77, 54, 69, 50, 57, 54, 59, 79, 54, 79, 70, 37, 65)
> df <- data.frame(height, weight)
2. 기본 내장 함수인 summary()
함수는 최솟값·최댓값, 사분위수와 평균을 출력한다.
> summary(df)
height weight
Min. :138.0 Min. :37.00
1st Qu.:163.0 1st Qu.:54.00
Median :168.0 Median :57.00
Mean :167.4 Mean :61.45
3rd Qu.:173.2 3rd Qu.:69.25
Max. :185.0 Max. :93.00
3. pastecs
패키지의 stat.desc()
함수는 좀 더 많은 종류의 통계량을 출력한다. round()
함수로 둘러싸 소수점 자릿수를 알맞게 조절할 수 있다.
> library(pastecs)
> stat.desc(df, norm=TRUE)
height weight
nbr.val 40.00000000 40.00000000
nbr.null 0.00000000 0.00000000
nbr.na 0.00000000 0.00000000
min 138.00000000 37.00000000
max 185.00000000 93.00000000
range 47.00000000 56.00000000
sum 6698.00000000 2458.00000000
median 168.00000000 57.00000000
mean 167.45000000 61.45000000
SE.mean 1.64782296 1.88820563
CI.mean.0.95 3.33303654 3.81925639
var 108.61282051 142.61282051
std.dev 10.42174748 11.94206098
coef.var 0.06223797 0.19433785
skewness -0.58197028 0.64021520
skew.2SE -0.77848606 0.85639874
kurtosis 0.30884911 -0.21437283
kurt.2SE 0.21078965 -0.14630955
normtest.W 0.96058145 0.93491651
normtest.p 0.17533668 0.02337709
> round(stat.desc(df, norm=TRUE), digits=2)
height weight
nbr.val 40.00 40.00
nbr.null 0.00 0.00
nbr.na 0.00 0.00
min 138.00 37.00
max 185.00 93.00
range 47.00 56.00
sum 6698.00 2458.00
median 168.00 57.00
mean 167.45 61.45
SE.mean 1.65 1.89
CI.mean.0.95 3.33 3.82
var 108.61 142.61
std.dev 10.42 11.94
coef.var 0.06 0.19
skewness -0.58 0.64
skew.2SE -0.78 0.86
kurtosis 0.31 -0.21
kurt.2SE 0.21 -0.15
normtest.W 0.96 0.93
normtest.p 0.18 0.02
4. psych
패키지의 describe()
함수는 다음과 같은 결과를 출력한다.
> library(psych)
> describe(df)
vars n mean sd median trimmed mad min max range skew kurtosis se
height 1 40 167.45 10.42 168 168.09 7.41 138 185 47 -0.58 0.31 1.65
weight 2 40 61.45 11.94 57 60.59 9.64 37 93 56 0.64 -0.21 1.89
분위수 계산하기
1. 위에서 생성한 키에 대한 자료를 작은 것부터 순서대로 나열했을 때, $x_{(10)}$, $x_{(11)}$, $x_{(20)}$, $x_{(21)}$, $x_{(30)}$, $x_{(31)}$은 다음과 같다.
> height_sorted <- sort(height)
> height_sorted[c(10, 11, 20, 21, 30, 31)]
[1] 163 163 168 168 173 174
이로부터 $\hat{Q}_1=\frac{163+163}{2}=163$, $\hat{Q}_2=\frac{168+168}{2}=168$, $\hat{Q}_3=\frac{173+174}{2}=173.5$일 것이라 생각할 수 있다. 그런데 R
에서 quantile()
함수로 사분위수를 구해보면 $\hat{Q}_3=173.25$를 얻는다.
> quantile(height)
0% 25% 50% 75% 100%
138.00 163.00 168.00 173.25 185.00
2. 이러한 차이가 발생하는 이유는 분위수를 계산하는 방식에 여러 가지가 있으며, 통계 소프트웨어마다 채택하고 있는 기본 방식이 다르기 때문이다. R
에서는 총 아홉 가지의 분위수 계산 방식을 제공하며, type
인자를 통해 원하는 방식을 선택할 수 있다.
2-1. $p$분위수를 $q_p$라 하자. 먼저 $n$, $p$의 함수로 $h_p$라는 값을 정의한 후, $h_p$, $x_{(\lceil h_p \rceil)}$, $x_{(\lfloor h_p \rfloor)}$를 조합하여 $q_p$를 계산한다.
2-2. type=2
에서는 $$\begin{align} h_p&=np+0.5 \\ q_p&=\tfrac{1}{2}(x_{(\lceil {h_p-0.5} \rceil)} + x_{(\lfloor {h_p+0.5} \rfloor)})\end{align}$$로 정의한다. 이에 따르면 키 자료에서 $h_{0.75}=30.5$이고, $q_{0.75}=\frac{1}{2}(x_{(30)}+x_{(31)})=173.5$이다.
2-3. type=6
에서는 $$\begin{align} h_p&=(n+1)p \\ q_p&=x_{(\lfloor{h_p} \rfloor)}+(h_p-\lfloor{h_p}\rfloor)(x_{(\lceil{h_p}\rceil)}-x_{(\lfloor{h_p}\rfloor)}) \end{align}$$로 정의한다. 이에 따르면 키 자료에서 $h_{0.75}=30.75$이고, $q_{0.75}=x_{(30)}+0.75\times(x_{(31)}-x_{(30)})=173.75$이다. Minitab
의 기본 분위수 계산 방식이기도 하며, Excel
에서는 QUANTILE.EXC()
함수로 구현된다.
2-4. type=7
에서는 $$\begin{align} h_p&=(n-1)p+1 \\ q_p&=x_{(\lfloor{h_p} \rfloor)}+(h_p-\lfloor{h_p}\rfloor)(x_{(\lceil{h_p}\rceil)}-x_{(\lfloor{h_p}\rfloor)}) \end{align}$$로 정의한다. 이에 따르면 키 자료에서 $h_{0.75}=30.25$이고, $q_{0.75}=x_{(30)}+0.25\times(x_{(31)}-x_{(30)})=173.25$이다. R
의 기본 분위수 계산 방식이기도 하며, Excel
에서는 QUANTILE.INC()
함수로 구현된다.
> #Calculating quartiles
>
> quantile(height, type=2)
0% 25% 50% 75% 100%
138.0 163.0 168.0 173.5 185.0
> quantile(height, type=6)
0% 25% 50% 75% 100%
138.00 163.00 168.00 173.75 185.00
> quantile(height)
0% 25% 50% 75% 100%
138.00 163.00 168.00 173.25 185.00
References
김우철 외, 개정판 일반통계학
https://en.wikipedia.org/wiki/Skewness
'일반통계학' 카테고리의 다른 글
[일반통계학] 6. 푸아송분포, 지수분포, 감마분포 (0) | 2021.10.15 |
---|---|
[일반통계학] 5. 베르누이분포, 초기하분포, 이항분포, 기하분포, 음이항분포 (0) | 2021.10.12 |
[일반통계학] 4. 기댓값과 그의 성질 (0) | 2021.10.09 |
[일반통계학] 3. 확률과 확률분포 (0) | 2021.10.03 |
[일반통계학] 1. 자료의 생성 (0) | 2021.10.01 |