통계적 추론 1. 추정에 대하여
통계적 추론은 모집단에 대해 파악하기 위해 표본을 보고 통계학을 이용하여 모집단을 추측해보는 것이다.
통계 조사의 주요 목적은 결국 모집단을 알고자 하는 것이고, 이것은 모집단의 특성을 결정짓는 상수 값들을 앎으로써 달성할 수 있다. 이런 상수들을 모수(population parameters)라고 부른다.
이 모수들의 값은 모집단 전체를 조사하지 않는 이상 100% 확신할 수는 없다.
하지만 전체를 조사하는 것은 모집단이 무한히 큰 경우나, 무한하지는 않더라도 많은 시간과 비용을 들여야 한다면 현실적으로 불가능하다고 할 수 있다.
그래서 모집단을 대표하는 일부인 표본을 사용하여 모수에 대응되는 값들을 구함으로써 모수와 모집단에 대한 정보를 얻으려고 하는 것이다.
이러한 통계적 추론은 미지의 모수값에 대한 추정(estimation)과 이 값에 대한 가설검정으로 나눌 수 있다.
추정은 일상생활에서도 우리가 자주 사용하는 개념이다.
예를 들어 전동킥보드의 요금이 5분에 1,000원이라면 학교에서 우리집까지의 거리가 2.5km가 된다고 추정하고
전동킥보드가 1분에 250m를 간다고 추정하여 킥보드를 타고 등교하는데에 드는 총 비용을 추정해볼 수 있다.
이것은 거리와 주행거리를 우리가 특정한 값으로 추정하는 것으로 점 추정(point estimation)이라고 한다.
다른 방법으로는 학교와 우리집 사이의 거리를 2~3km 사이로, 전동킥보드의 1분당 주행 거리를 200~300m 사이로 추정할 수도 있다. 이 방법은 어떤 구간으로 추정하는 것으로 구간추정(interval estimation)이라고 한다.
위에서 말했듯이 통계적 추론은 표본을 통해서 모집단을 추정하는 것이다.
모평균 μ, 모비율 p, 모분산 σ^2
모평균을 알고자 한다면 표본의 평균을 보고 추정할 수 있다. 예시로 한국의 20대 청년들의 연 소득수준을 알고 싶다면 20대 청년의 한 확률표본으로부터 표본 평균을 구하여 20대 청년의 평균 소득의 추정값으로 사용할 수 있다.
그렇다면 모분산에 대한 추정은 어떻게 할 수 있을까?
모평균의 추정을 표본의 평균으로 구했으니 직관적으로 생각해보면 표본의 분산을 계산하는 것으로 생각할 수 있다.
분산은 편차의 제곱에 대한 산술평균으로 표본의 분산을 계산한다면 각 표본의 값에서 표본 평균을 빼서 제곱한 값을 표본의 개수 n으로 나눌 것이다.
하지만 일반적으로 사용하는 모분산에 대한 적절한 추정값은 n대신 (n-1)로 나눈 값이다.
점 추정치를 구했을 때 이 값이 모수와 정확히 일치하는지는 알기 어렵다.
같은 모집단에서 두 표본을 추출하여 구한 두 점 추정치가 일치하지 않을수도 있다.
위에서 들었던 예시를 다시 한 번 활용해보겠다.
20대 청년들의 연 소득 수준을 추정하기 위하여 하나의 표본을 추출했더니 표본 평균이 3000만원이었다고 하자.
만약 이 3000만원을 모평균의 추정치로 받아들인다면 얼마나 신뢰할 수 있을까?
20대 청년 10명을 조사한 결과라면 이 추정치는 쉽게 믿을 수 없다고 생각될 것이다.
하지만 20대 청년 10만명을 조사한 결과라면 신뢰도가 커질 것이다.
그리고 만약 이 모집단의 표준편차가 1000만원이라면 (σ = 1000만원) 모집단이 넓게 퍼져 있으므로 쉽게 신뢰할 수 있는 수치는 아닌 것으로 보여진다.
하지만 만약 표준편차가 10만원 이었다면 이 추정치는 꽤 신뢰할 수 있게 된다.
이렇게 점 추정치가 얼마나 정확한지 알기 위해서는 모분산과 표본의 크기를 함께 알아야 한다.
이 정보를 이용해서 모수를 포함하고 있는 구간을 추정하는 방법을 구간추정(또는 신뢰구간추정)이라고 한다.
'self.statics' 카테고리의 다른 글
[statics] 전확률의 정리와 베이즈의 공식 Bayes' formula (0) | 2022.08.16 |
---|---|
[Statics] 사분위수와 상자그림 boxplot (0) | 2022.07.23 |
[Statics] 도수분포표와 히스토그램 (0) | 2022.07.20 |
[Statics] 표본평균의 분포 - 중심극한 정리 (0) | 2022.07.17 |
댓글