본문 바로가기

일반통계학

[일반통계학] 1. 자료의 생성

통계학이란 무엇인가?

1. 통계학에서는 관심과 추측의 대상이 되는 전체 중에서 일부분에 대한 자료를 수집하고 이를 통하여 전체에 대한 합리적인 결론을 이끌어낸다. 여기에서 전체를 구성하는 각 개체를 추출단위(sampling unit)라고 하고, 각 추출단위의 특성을 나타내는 값을 특성값(characteristic)이라고 한다. 모든 추출단위의 특성값들을 모아 놓은 것을 모집단(population)이라고 하고, 이 중 통계적 분석을 위하여 실제로 관측한 것들의 모임을 표본(sample)이라고 한다.

 

2. 유한개의 추출단위로 구성된 모집단을 유한모집단(finite population)이라고 하고, 무한개의 추출단위를 가지는 모집단을 무한모집단(infinite population)이라고 한다. 무한모집단은 유한모집단과 달리 실존하는 것이 아닌 가상적인 집단이다.

단순랜덤추출

1. 단순랜덤추출(simple random sampling)은 유한모집단에서 $n$개의 추출단위로 구성된 모든 부분집합들이 표본으로 선택될 확률이 같도록 설계된 표본추출방법이다. 이 때 자연스럽게 모집단의 각 추출단위에는 동등한 선출 기회가 부여된다(equal probability sampling).

 

1-1. 크기가 $N$인 유한모집단을 가정하자. $n$개의 추출단위로 구성된 부분집합의 개수는 $\binom{N}{n} = \frac{1}{n!} \prod_{i=0}^{n-1} (N-i)$개이므로, 각 부분집합이 표본으로 선택될 확률이 $n! \prod_{i=0}^{n-1} \frac{1}{N-i}$이 되도록 하는 것이 단순랜덤추출이다. 그런데 이는 $$n! \! \times \! \frac{1}{N} \! \times \! \frac{1}{N-1} \! \times \! \cdots \! \times \! \frac{1}{N-n+1}$$로, 먼저 처음 1개를 $\frac{1}{N}$의 확률로 뽑고, $i$개를 뽑은 후에는 비복원추출(sampling without replacement)로 나머지 $N-i$개 중 1개를 $\frac{1}{N-i}$의 확률로 뽑는 것과 같다.

 

1-2. 한편 복원추출(sampling with replacement)을 고려하면 부분집합의 개수는 $\bigl( \! \binom{N}{n} \! \bigr) = \frac{1}{n!} \prod_{i=0}^{n-1}(N+i)$개이므로, 각 부분집합이 표본으로 선택될 확률은 $n! \prod_{i=0}^{n-1} \frac{1}{N+i}$이다.$$n! \! \times \! \frac{1}{N} \! \times \! \frac{1}{N+1} \! \times \! \cdots \! \times \! \frac{1}{N+n-1} $$단순랜덤복원추출은 실제 문제에서 사용되지는 않는 것으로서, 후에 무한모집단의 랜덤표본을 정의하기 위한 개념적 도구로 이용된다.

 

2. DescTools 패키지의 CombN(), CombSet() 함수를 이용하면 추출의 가짓수를 계산하거나 모든 가능한 경우를 나열할 수 있다.

 

> library(DescTools)
> 
> x <- letters[1:4]
> N <- length(x)
> n <- 2
> 
> #Sampling without replacement
> 
> choose(N, n)
[1] 6
> CombN(N, n, repl=FALSE, ord=FALSE)
[1] 6
> CombSet(x, n, repl=FALSE, ord=FALSE)
     [,1] [,2]
[1,] "a"  "b" 
[2,] "a"  "c" 
[3,] "a"  "d" 
[4,] "b"  "c" 
[5,] "b"  "d" 
[6,] "c"  "d" 
> 
> #Sampling with replacement
> 
> CombN(N, n, repl=TRUE, ord=FALSE)
[1] 10
> CombSet(x, n, repl=TRUE, ord=FALSE)
      [,1] [,2]
 [1,] "a"  "a" 
 [2,] "a"  "b" 
 [3,] "a"  "c" 
 [4,] "a"  "d" 
 [5,] "b"  "b" 
 [6,] "b"  "c" 
 [7,] "b"  "d" 
 [8,] "c"  "c" 
 [9,] "c"  "d" 
[10,] "d"  "d"

통계적 실험

1. 실험(experiment)은 사람이나 동물 또는 사물에 어떤 조작을 가하면 어떻게 반응하는지를 연구하는 것이다. 이 때 실험이 행해지는 개체를 실험단위(experimental units)라 하고, 각각의 실험단위에 특정한 실험환경 또는 실험조건을 가하는 것을 처리(treatment)라고 한다. 실험환경이나 실험조건을 나타내는 변수를 요인 또는 인자(factor)라 하고, 이에 대한 반응을 나타내는 변수를 반응변수(response variable)라고 한다. 인자가 취하는 값을 그 인자의 수준(level)이라고 한다.

 

2. 통계적 실험계획의 제1원칙은 관심 인자 이외의 다른 외부 인자의 효과를 극소화하는 것으로, 이는 대조집단(control group)의 도입, 이중눈가림(double blind) 등을 통해 이루어진다. 외부 인자의 효과가 한 집단에 치우쳐 두 집단의 차이에 관심 인자의 효과와 외부 인자의 효과가 교락(confounding)된 경우 관심 인자의 실제 효과를 볼 수 없게 된다.

 

3. 통계적 실험계획의 제2원칙은 각 실험단위에 어떤 처리를 가할지를 정할 때 모든 실험단위에 특정 처리를 받을 기회를 동등하게 부여하는 것이다. 이는 우연에 의한 실험단위의 배정, 즉 랜덤화(randomization)를 통해 이루어진다. 랜덤화에 의해 전체 실험단위를 처리의 개수만큼 나눈 후 그에 따라 모든 실험단위를 각 처리에 배정하는 실험계획을 완전랜덤화계획(completely randomized design)이라고 한다.

 

4. 통계적 실험계획의 제3원칙은 충분히 많은 실험단위에 각 처리를 반복 실시하는 것이다.

 

5. 블록화(blocking)란 실험 이전에 동일 처리에 대한 반응이 유사할 것으로 예상되는 실험단위들끼리 모아서 군(group)을 형성하는 것을 뜻하며, 이 때 각 군을 블록(block)이라고 한다. 블록화는 반응변수에 영향을 미칠 것으로 예상되는 인자들을 실험 내로 끌어와 블록을 형성하게 함으로써 그 인자들의 효과를 통제하는 것이다. 만일 각 실험단위에 모든 처리를 실시하는 경우 블록의 크기는 $1$이고 블록의 개수는 실험단위의 개수가 된다.

References

김우철 외, 개정판 일반통계학

https://statkclee.github.io/r-algorithm/ml-combinatorics.html