본문 바로가기
self.statics

[Statics] 표본평균의 분포 - 중심극한 정리

by 톤토니 2022. 7. 17.
반응형

 

 

표본평균의 분포 - 중심극한 정리

 

중심극한 정리는 모집단의 분포를 몰라도 표본 샘플링만으로도 가설검정을 가능하게 하기 때문에 중요하다.

 

그리고 보통 데이터 수집을 할 때 전수조사를 하는 것은 어렵고, 샘플링 하여 데이터를 수집하는 경우가 많은데

그 샘플 데이터를 가지고 모집단을 추론하는 것이 중요하고 또 필요하다.

데이터 분석을 하는 이유가 결국 모집단에 대한 정보를 얻기 위함이기 때문이다.

 

그런 이유에서 중심극한 정리는 매우 중요하고 기본적인 내용이 될 수 있다고 생각하며

중심극한 정리에 대해서 공부해보자.

 

 

 

 

중심극한 정리란?

 

central limit theorem, 평균이 μ 이고, 분산이 σ² 인 임의의 모집단에서 뽑은 확률표본(임의의 표본)의 평균의 분포는 표본의 크기가 크면 근사적으로 평균 μ, 분산 σ²/n 인 정규 분포를 따른다.

 

즉,

 

 

중심극한 정리에 대해 이해하려면 우선, 표본 평균의 분포에 대해 알아야 하고

그 전에 표본 평균의 기대값과 분산이 모평균, 모분산, 표본의 크기(n)와 어떤 관계가 있는지 알아야 한다.

 

 

 

1. 표본 평균의 기대값과 분산이 모평균, 모분산, 표본의 크기(n) 사이의 관계

 

* 평균 μ와 분산 σ²을 갖는 모집단으로부터 크기 n인 표본을 추출했을 때 다음이 성립한다.

 

 

표본 평균의 기대값은 모집단의 평균과 같고, 표본 평균의 분산은 모집단의 분산을 표본의 크기로 나눈 것과 같다는 것이 성립한다. (표본의 평균이 아니고, 표본 평균의 기대값(X-bar)이 모집단의 평균과 같은것이다.)

 

표본평균의 표준편차는 평균의 표준 오차라고 부른다. 

평균의 표준오차는 모분산 σ²과 표본의 크기 n에 의해 결정되는데

모분산이 클수록 평균의 표준오차도 커지고 표본의 크기가 클수록 표준오차는 작아진다.

 

모집단의 분산은 우리가 임의로 조절할 수 없는 값이므로(모집단은 우리가 알 수 없는 상태)

평균의 표준오차를 줄이기 위해서는 표본의 크기를 늘려야 한다.

 

 

2. 표본 평균의 분포

 

표본 평균의 기대값, X-bar 의 분포는 모집단의 분포에 많이 의존한다. 

모집단의 분포가 정규분포이면 표본 평균 X-bar의 분포도 정규분포라는 것은 기본적인 사실이다.

 

그 정규분포는 평균과 분산에 의해 결정되는 것이므로

 

평균이 μ이고 분산이 σ²인 정규분포를 따르는 모집단으로부터 뽑은

크기가 n인 확률표본의 평균 X-bar의 분포는 평균이 μ이고 분산이 σ²/n인 정규분포 라고 말할 수 있다.

(표본이 정규분포를 따른다는 것이 아니고 표본의 평균이 정규분포를 따른다는 것이다)

 

모집단이 정규분포를 따르는 경우에는 표본평균이 정규분포를 따르지만

모집단이 정규분포를 따르지 않는다면 표본평균의 분포는 정규분포가 아니다.

 

그러나 표본의 크기 n이 클 때에는 모집단의 분포를 모르더라도 표본평균 X-bar의 분포가 정규분포에 매우 가깝다는 사실을 수학적으로 증명할 수 있다. 

 

 

중심극한정리는 표본의 크기가 큰 경우라고 앞서 말했다.

여기서 표본의 크기가 얼마나 커야 할까?

 

모집단이 정규분포라면 X-bar의 분포는 표본의 크기에 상관없이 정규분포이다.

모집단이 대칭적인 분포를 갖는 경우에는 대체로 n = 10 정도의 빅교적 작은 표본크기로도 정규분포에 접근한다.

그 외에 표본의 크기가 n = 30 정도이면 표본평균의 분포는 어느 정도 정규분포에 가깝게 되고 표본크기가 클수록 더욱더 정규분포에 가까워진다.

 

중심극한 정리를 이용하면 n ≥ 30 인 크기의 표본이 있을 때 정규분포를 따르는 것을 알 수 있으므로

가설검정을 진행할 수 있다.

 

일반적으로 가설검정을 할 때 귀무가설로 모평균을 알 수 있으니 μ 값을 알 수 있고, 모분산을 알고 있으면 정규분포에서 가설검정을 하면 된다.

 

모분산을 모르는 경우에는 표본의 분산을 사용하면 되는데, 이 경우 정규분포가 아니라 t-분포를 사용해야 한다.

t-분포를 사용하는 경우에도 n이 크면 정규분포에 근사할 수 있긴 한데 .. 더 자세한 내용은 이후에 추가로 공부해보자.

 

 

 

 

 

 

 

 

반응형

댓글