표본평균의 분포 - 중심극한 정리
중심극한 정리는 모집단의 분포를 몰라도 표본 샘플링만으로도 가설검정을 가능하게 하기 때문에 중요하다.
그리고 보통 데이터 수집을 할 때 전수조사를 하는 것은 어렵고, 샘플링 하여 데이터를 수집하는 경우가 많은데
그 샘플 데이터를 가지고 모집단을 추론하는 것이 중요하고 또 필요하다.
데이터 분석을 하는 이유가 결국 모집단에 대한 정보를 얻기 위함이기 때문이다.
그런 이유에서 중심극한 정리는 매우 중요하고 기본적인 내용이 될 수 있다고 생각하며
중심극한 정리에 대해서 공부해보자.
중심극한 정리란?
central limit theorem, 평균이 μ 이고, 분산이 σ² 인 임의의 모집단에서 뽑은 확률표본(임의의 표본)의 평균의 분포는 표본의 크기가 크면 근사적으로 평균 μ, 분산 σ²/n 인 정규 분포를 따른다.
즉,
중심극한 정리에 대해 이해하려면 우선, 표본 평균의 분포에 대해 알아야 하고
그 전에 표본 평균의 기대값과 분산이 모평균, 모분산, 표본의 크기(n)와 어떤 관계가 있는지 알아야 한다.
1. 표본 평균의 기대값과 분산이 모평균, 모분산, 표본의 크기(n) 사이의 관계
* 평균 μ와 분산 σ²을 갖는 모집단으로부터 크기 n인 표본을 추출했을 때 다음이 성립한다.
표본 평균의 기대값은 모집단의 평균과 같고, 표본 평균의 분산은 모집단의 분산을 표본의 크기로 나눈 것과 같다는 것이 성립한다. (표본의 평균이 아니고, 표본 평균의 기대값(X-bar)이 모집단의 평균과 같은것이다.)
표본평균의 표준편차는 평균의 표준 오차라고 부른다.
평균의 표준오차는 모분산 σ²과 표본의 크기 n에 의해 결정되는데
모분산이 클수록 평균의 표준오차도 커지고 표본의 크기가 클수록 표준오차는 작아진다.
모집단의 분산은 우리가 임의로 조절할 수 없는 값이므로(모집단은 우리가 알 수 없는 상태)
평균의 표준오차를 줄이기 위해서는 표본의 크기를 늘려야 한다.
2. 표본 평균의 분포
표본 평균의 기대값, X-bar 의 분포는 모집단의 분포에 많이 의존한다.
모집단의 분포가 정규분포이면 표본 평균 X-bar의 분포도 정규분포라는 것은 기본적인 사실이다.
그 정규분포는 평균과 분산에 의해 결정되는 것이므로
평균이 μ이고 분산이 σ²인 정규분포를 따르는 모집단으로부터 뽑은
크기가 n인 확률표본의 평균 X-bar의 분포는 평균이 μ이고 분산이 σ²/n인 정규분포 라고 말할 수 있다.
(표본이 정규분포를 따른다는 것이 아니고 표본의 평균이 정규분포를 따른다는 것이다)
모집단이 정규분포를 따르는 경우에는 표본평균이 정규분포를 따르지만
모집단이 정규분포를 따르지 않는다면 표본평균의 분포는 정규분포가 아니다.
그러나 표본의 크기 n이 클 때에는 모집단의 분포를 모르더라도 표본평균 X-bar의 분포가 정규분포에 매우 가깝다는 사실을 수학적으로 증명할 수 있다.
중심극한정리는 표본의 크기가 큰 경우라고 앞서 말했다.
여기서 표본의 크기가 얼마나 커야 할까?
모집단이 정규분포라면 X-bar의 분포는 표본의 크기에 상관없이 정규분포이다.
모집단이 대칭적인 분포를 갖는 경우에는 대체로 n = 10 정도의 빅교적 작은 표본크기로도 정규분포에 접근한다.
그 외에 표본의 크기가 n = 30 정도이면 표본평균의 분포는 어느 정도 정규분포에 가깝게 되고 표본크기가 클수록 더욱더 정규분포에 가까워진다.
중심극한 정리를 이용하면 n ≥ 30 인 크기의 표본이 있을 때 정규분포를 따르는 것을 알 수 있으므로
가설검정을 진행할 수 있다.
일반적으로 가설검정을 할 때 귀무가설로 모평균을 알 수 있으니 μ 값을 알 수 있고, 모분산을 알고 있으면 정규분포에서 가설검정을 하면 된다.
모분산을 모르는 경우에는 표본의 분산을 사용하면 되는데, 이 경우 정규분포가 아니라 t-분포를 사용해야 한다.
t-분포를 사용하는 경우에도 n이 크면 정규분포에 근사할 수 있긴 한데 .. 더 자세한 내용은 이후에 추가로 공부해보자.
'self.statics' 카테고리의 다른 글
[Statics] 통계적 추론 - 추정에 대하여 (0) | 2023.05.30 |
---|---|
[statics] 전확률의 정리와 베이즈의 공식 Bayes' formula (0) | 2022.08.16 |
[Statics] 사분위수와 상자그림 boxplot (0) | 2022.07.23 |
[Statics] 도수분포표와 히스토그램 (0) | 2022.07.20 |
댓글