본문 바로가기

일반통계학

[일반통계학] 2. 모집단과 표본

분포

1. 특성값이 흩어져 있는 상태를 합이 1인 양수로써 나타낸 것을 분포(distribution)라고 한다.

 

2. 다차원 특성값의 분포를 결합분포(joint distribution)라고 한다.

모집단의 대푯값

1. 표본추출의 목적은 모집단의 분포를 추측하기 위한 것이라고 할 수 있다. 그러나 일반적으로 모집단 분포를 추측하는 것은 매우 복잡하고 어렵다. 따라서 모집단의 분포를 추측하는 대신 모집단 분포의 특징을 나타내는 대푯값(representative value)을 추측하는 방법이 널리 통용되고 있다.

 

2. 분포의 위치(center or location)를 나타내는 대푯값으로는 평균(mean), 중앙값(median), 최빈값(mode), 분위수(quantile), 사분위수(quartile) 등이 있다.

 

2-1. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$일 때, 모평균 $\mu$는 다음과 같이 정의한다. $$\mu=\frac{1}{N} \sum_{i=1}^{N}a_i $$

 

2-2. $p$분위수는 특성값을 작은 것부터 순서대로 나열했을 때 $100p\text{%}$의 특성값이 그 값보다 작고 $100(1-p)\text{%}$의 특성값이 그 값보다 크게 되는 값으로 정의한다. 이 때 $0.25$분위수를 제$1$사분위수, $0.5$분위수를 중앙값, $0.75$분위수를 제$3$사분위수라고 하며, 각각 $Q_1$, $Q_2$, $Q_3$로 표기한다.

 

2-3. 유한모집단의 특성값 $a_1$, $a_2$, $...$, $a_N$을 작은 것부터 순서대로 나열한 결과가 $a_{(1)}$, $a_{(2)}$, $...$, $a_{(N)}$일 때, 모중앙값 $Q_2$는 $(\text{i})$ $N$이 홀수일 때는 $a_{\left(\frac{N+1}{2} \right)}$, $(\text{ii})$ $N$이 짝수일 때는 $a_{\left(\frac{N}{2} \right)}$과 $a_{\left(\frac{N+2}{2} \right)}$의 평균이 된다.

 

3. 분포의 산포(dispersion)를 나타내는 대푯값으로는 분산(variance), 표준편차(standard deviation), 평균절대편차(mean absolute deviation; MAD), 사분위수범위(interquartile range; IQR), 공분산(covariance), 상관계수(correlation coefficient) 등이 있다.

 

3-1. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$이고 모평균이 $\mu$일 때, 모분산 $\sigma^2$와 모표준편차 $\sigma$는 다음과 같이 정의한다. $$\begin{align} \sigma^2 &= \frac{1}{N}\sum_{i=1}^{N}(a_i-\mu)^2 \\ \sigma &= \sqrt{\sigma^2} \end{align}$$

 

3-2. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$이고 제1사분위수, 모중앙값, 제3사분위수가 각각 $Q_1$, $Q_2$, $Q_3$일 때, 평균절대편차 $\text{MAD}$와 사분위수범위 $\text{IQR}$은 다음과 같이 정의한다. $$\begin{align} \text{MAD}&=\frac{1}{N}\sum_{i=1}^{N}|a_i-Q_2| \\ \text{IQR}&=Q_3-Q_1\end{align}$$

 

3-3. 이차원 유한모집단의 특성값이 $(a_1, b_1)$, $(a_2, b_2)$, $...$, $(a_N, b_N)$이라 하자. $a_1$, $a_2$, $...$, $a_N$의 모평균과 모분산이 $\mu_a$, ${\sigma_a}^2$이고, $b_1$, $b_2$, $...$, $b_N$의 모평균과 모분산이 $\mu_b$, ${\sigma_b}^2$일 때,  모공분산 $\sigma_{ab}$와 모상관계수 $\rho_{ab}$는 다음과 같이 정의한다. $$\begin{align} \sigma_{ab}&=\frac{1}{N}\sum_{i=1}^{N}(a_i-\mu_a)(b_i-\mu_b) \\ \rho_{ab}&=\frac{\sigma_{ab}}{\sigma_a \sigma_b} \\ &=\frac{\sum\limits_{i=1}^{N}(a_i-\mu_a)(b_i-\mu_b)}{\sqrt{\sum\limits_{i=1}^{N}(a_i-\mu_a)^2} \sqrt{\sum\limits_{i=1}^{N}(b_i-\mu_b)^2}}\end{align}$$

 

4. 분포의 모양(shape)을 나타내는 대푯값으로는 왜도(skewness)와 초과첨도(excess kurtosis)가 있다.

 

4-1. 유한모집단의 특성값이 $a_1$, $a_2$, $...$, $a_N$이고 모평균이 $\mu$, 모분산이 $\sigma^2$일 때, 모왜도 $\gamma$와 모초과첨도 $\kappa$는 다음과 같이 정의한다. $$\begin{align} \gamma &= \frac{1}{N\sigma^3}\sum_{i=1}^{N}(a_i-\mu)^3 \\ \kappa &= \frac{1}{N\sigma^4}\sum_{i=1}^{N} (a_i-\mu)^4-3 \end{align}$$

 

4-2. 왜도가 $0$보다 크면 분포가 오른쪽으로 긴 꼬리를 가지고, 왜도가 $0$보다 작으면 분포가 왼쪽으로 긴 꼬리를 가진다. 초과첨도가 $0$보다 크면 분포가 정규분포에 비해 두꺼운 꼬리를 가지고, 초과첨도가 $0$보다 작으면 분포가 정규분포에 비해 얇은 꼬리를 가진다.

 

5. 모평균, 모분산, 모표준편차, 모공분산, 모상관계수 등과 같이 모집단 분포의 특징을 나타내는 대푯값을 모수(parameter)라고 한다.

표본의 대푯값

1. 표본의 특성값이 $x_1$, $x_2$, $...$, $x_n$일 때, 표본평균 $\bar{x}$는 다음과 같이 정의한다. $$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

 

2. 표본의 특성값이 $x_1$, $x_2$, $...$, $x_n$이고 표본평균이 $\bar{x}$일 때, 표본분산 $s^2$와 표본표준편차 $s$는 다음과 같이 정의한다. $$\begin{align}s^2&=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 \\ s&=\sqrt{s^2}\end{align}$$ 표본분산의 정의에서 표본의 크기 $n$이 아닌 $n-1$로 나누는 이유는 표본분산을 모분산의 불편추정량(unbiased estimator)으로 만들기 위함이며, 이를 베셀 보정(Bessel's correction)이라 한다.

 

3. 표본의 사분위수는 $\hat{Q}_1$, $\hat{Q}_2$, $\hat{Q}_3$, 사분위수범위는 $\widehat{\text{IQR}}$으로 표기하며, 모집단에서와 동일하게 정의한다.

 

4. 이차원 표본의 특성값이 $(x_1, y_1)$, $(x_2, y_2)$, $...$, $(x_n, y_n)$이라 하자. $x_1$, $x_2$, $...$, $x_n$의 표본평균과 표본분산이 $\bar{x}$, ${s_x}^2$이고, $y_1$, $y_2$, $...$, $y_n$의 표본평균과 표본분산이 $\bar{y}$, ${s_y}^2$일 때, 표본공분산 $s_{xy}$와 표본상관계수 $r_{xy}$는 다음과 같이 정의한다. $$\begin{align} s_{xy}&= \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y}) \\ r_{xy}&=\frac{s_{xy}}{s_x s_y} \\ &=\frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2} \sqrt{\sum\limits_{i=1}^{n} (y_i-\bar{y})^2}} \end{align}$$

 

5. 표본의 특성값이 $x_1$, $x_2$, $...$, $x_n$이고 표본평균이 $\bar{x}$, 표본분산이 $s^2$일 때, 표본왜도 $g$와 표본초과첨도 $k$는 다음과 같이 정의한다(adjusted Fisher-Pearson standardized moment coefficient). $$\begin{align}g &=\frac{\sqrt{n(n-1)}}{(n-2)ns^3} \sum_{i=1}^{n}(x_i-\bar{x})^3 \\ k &=\frac{n-1}{(n-2)(n-3)}\left[\frac{n+1}{ns^4}\sum_{i=1}^{n}(x_i-\bar{x})^4+6 \right]  \end{align}$$

 

6. 표본평균, 표본분산, 표본표준편차, 표본공분산, 표본상관계수 등과 같이 표본분포의 특징을 나타내는 대푯값을 기술통계량(descriptive statistic) 또는 통계량(statistic)이라고 한다. 특히 모수의 추측에 사용되는 통계량을 추정량(estimator)이라고 한다.

R의 기술통계량 요약 함수

1. R의 기술통계량 요약 함수로는 summary(), stat.desc()describe() 등이 있다. 40명으로부터 얻은 키와 몸무게의 표본자료가 아래와 같다고 하자.

 

> #Height versus weight
> 
> height <- c(183, 168, 165, 158, 180, 176, 168, 160, 160, 150, 180, 183, 170, 170, 185, 170, 165, 170, 168, 154, 152, 173, 173, 165, 163, 163, 160, 178, 138, 171, 163, 168, 165, 165, 178, 170, 168, 183, 145, 174)
> weight <- c(82, 52, 52, 55, 93, 57, 60, 48, 50, 49, 79, 73, 60, 66, 74, 82, 57, 54, 57, 55, 50, 63, 60, 49, 63, 57, 57, 77, 54, 69, 50, 57, 54, 59, 79, 54, 79, 70, 37, 65)
> df <- data.frame(height, weight)

 

2. 기본 내장 함수인 summary() 함수는 최솟값·최댓값, 사분위수와 평균을 출력한다.

 

> summary(df)
     height          weight     
 Min.   :138.0   Min.   :37.00  
 1st Qu.:163.0   1st Qu.:54.00  
 Median :168.0   Median :57.00  
 Mean   :167.4   Mean   :61.45  
 3rd Qu.:173.2   3rd Qu.:69.25  
 Max.   :185.0   Max.   :93.00

 

3. pastecs 패키지의 stat.desc() 함수는 좀 더 많은 종류의 통계량을 출력한다. round() 함수로 둘러싸 소수점 자릿수를 알맞게 조절할 수 있다.

 

> library(pastecs)
> stat.desc(df, norm=TRUE)
                    height        weight
nbr.val        40.00000000   40.00000000
nbr.null        0.00000000    0.00000000
nbr.na          0.00000000    0.00000000
min           138.00000000   37.00000000
max           185.00000000   93.00000000
range          47.00000000   56.00000000
sum          6698.00000000 2458.00000000
median        168.00000000   57.00000000
mean          167.45000000   61.45000000
SE.mean         1.64782296    1.88820563
CI.mean.0.95    3.33303654    3.81925639
var           108.61282051  142.61282051
std.dev        10.42174748   11.94206098
coef.var        0.06223797    0.19433785
skewness       -0.58197028    0.64021520
skew.2SE       -0.77848606    0.85639874
kurtosis        0.30884911   -0.21437283
kurt.2SE        0.21078965   -0.14630955
normtest.W      0.96058145    0.93491651
normtest.p      0.17533668    0.02337709
> round(stat.desc(df, norm=TRUE), digits=2)
              height  weight
nbr.val        40.00   40.00
nbr.null        0.00    0.00
nbr.na          0.00    0.00
min           138.00   37.00
max           185.00   93.00
range          47.00   56.00
sum          6698.00 2458.00
median        168.00   57.00
mean          167.45   61.45
SE.mean         1.65    1.89
CI.mean.0.95    3.33    3.82
var           108.61  142.61
std.dev        10.42   11.94
coef.var        0.06    0.19
skewness       -0.58    0.64
skew.2SE       -0.78    0.86
kurtosis        0.31   -0.21
kurt.2SE        0.21   -0.15
normtest.W      0.96    0.93
normtest.p      0.18    0.02

 

4. psych 패키지의 describe() 함수는 다음과 같은 결과를 출력한다.

 

> library(psych)
> describe(df)
       vars  n   mean    sd median trimmed  mad min max range  skew kurtosis   se
height    1 40 167.45 10.42    168  168.09 7.41 138 185    47 -0.58     0.31 1.65
weight    2 40  61.45 11.94     57   60.59 9.64  37  93    56  0.64    -0.21 1.89

분위수 계산하기

1. 위에서 생성한 키에 대한 자료를 작은 것부터 순서대로 나열했을 때, $x_{(10)}$, $x_{(11)}$, $x_{(20)}$, $x_{(21)}$, $x_{(30)}$, $x_{(31)}$은 다음과 같다.

 

> height_sorted <- sort(height)
> height_sorted[c(10, 11, 20, 21, 30, 31)]
[1] 163 163 168 168 173 174

 

이로부터 $\hat{Q}_1=\frac{163+163}{2}=163$, $\hat{Q}_2=\frac{168+168}{2}=168$, $\hat{Q}_3=\frac{173+174}{2}=173.5$일 것이라 생각할 수 있다. 그런데 R에서 quantile() 함수로 사분위수를 구해보면 $\hat{Q}_3=173.25$를 얻는다.

 

> quantile(height)
    0%    25%    50%    75%   100% 
138.00 163.00 168.00 173.25 185.00

 

2. 이러한 차이가 발생하는 이유는 분위수를 계산하는 방식에 여러 가지가 있으며, 통계 소프트웨어마다 채택하고 있는 기본 방식이 다르기 때문이다. R에서는 총 아홉 가지의 분위수 계산 방식을 제공하며, type 인자를 통해 원하는 방식을 선택할 수 있다.

 

2-1. $p$분위수를 $q_p$라 하자. 먼저 $n$, $p$의 함수로 $h_p$라는 값을 정의한 후, $h_p$, $x_{(\lceil h_p \rceil)}$, $x_{(\lfloor h_p \rfloor)}$를 조합하여 $q_p$를 계산한다.

 

2-2. type=2에서는 $$\begin{align} h_p&=np+0.5 \\ q_p&=\tfrac{1}{2}(x_{(\lceil {h_p-0.5} \rceil)} + x_{(\lfloor {h_p+0.5} \rfloor)})\end{align}$$로 정의한다. 이에 따르면 키 자료에서 $h_{0.75}=30.5$이고, $q_{0.75}=\frac{1}{2}(x_{(30)}+x_{(31)})=173.5$이다.

 

2-3. type=6에서는 $$\begin{align} h_p&=(n+1)p \\ q_p&=x_{(\lfloor{h_p} \rfloor)}+(h_p-\lfloor{h_p}\rfloor)(x_{(\lceil{h_p}\rceil)}-x_{(\lfloor{h_p}\rfloor)}) \end{align}$$로 정의한다. 이에 따르면 키 자료에서 $h_{0.75}=30.75$이고, $q_{0.75}=x_{(30)}+0.75\times(x_{(31)}-x_{(30)})=173.75$이다. Minitab의 기본 분위수 계산 방식이기도 하며, Excel에서는 QUANTILE.EXC() 함수로 구현된다.

 

2-4. type=7에서는 $$\begin{align} h_p&=(n-1)p+1 \\ q_p&=x_{(\lfloor{h_p} \rfloor)}+(h_p-\lfloor{h_p}\rfloor)(x_{(\lceil{h_p}\rceil)}-x_{(\lfloor{h_p}\rfloor)}) \end{align}$$로 정의한다. 이에 따르면 키 자료에서 $h_{0.75}=30.25$이고, $q_{0.75}=x_{(30)}+0.25\times(x_{(31)}-x_{(30)})=173.25$이다. R의 기본 분위수 계산 방식이기도 하며, Excel에서는 QUANTILE.INC() 함수로 구현된다.

 

> #Calculating quartiles
> 
> quantile(height, type=2)
   0%   25%   50%   75%  100% 
138.0 163.0 168.0 173.5 185.0 
> quantile(height, type=6)
    0%    25%    50%    75%   100% 
138.00 163.00 168.00 173.75 185.00 
> quantile(height)
    0%    25%    50%    75%   100% 
138.00 163.00 168.00 173.25 185.00

References

김우철 외, 개정판 일반통계학

https://en.wikipedia.org/wiki/Skewness

https://en.wikipedia.org/wiki/Kurtosis

https://en.wikipedia.org/wiki/Quantile