본문 바로가기

self.statics5

[Statics] 통계적 추론 - 추정에 대하여 통계적 추론 1. 추정에 대하여 통계적 추론은 모집단에 대해 파악하기 위해 표본을 보고 통계학을 이용하여 모집단을 추측해보는 것이다. 통계 조사의 주요 목적은 결국 모집단을 알고자 하는 것이고, 이것은 모집단의 특성을 결정짓는 상수 값들을 앎으로써 달성할 수 있다. 이런 상수들을 모수(population parameters)라고 부른다. 이 모수들의 값은 모집단 전체를 조사하지 않는 이상 100% 확신할 수는 없다. 하지만 전체를 조사하는 것은 모집단이 무한히 큰 경우나, 무한하지는 않더라도 많은 시간과 비용을 들여야 한다면 현실적으로 불가능하다고 할 수 있다. 그래서 모집단을 대표하는 일부인 표본을 사용하여 모수에 대응되는 값들을 구함으로써 모수와 모집단에 대한 정보를 얻으려고 하는 것이다. 이러한 통.. 2023. 5. 30.
[statics] 전확률의 정리와 베이즈의 공식 Bayes' formula 베이즈의 공식 Bayes' formula 베이즈(Bayes)의 공식은 영국의 수학자이며 장로 교회 목사였던 베이즈에 의해 만들어졌다. 베이즈의 공식은 예전에 파이썬으로 알고리즘 공부를 할 때 처음 들어보게 된 것이었는데 더 알아보자. 여러 대의 기계가 동일한 제품을 생산하는데, 이에 대한 불량률이 각 기계별로 주어져 있다고 가정하자. 만약 어떤 특정한 기계에서 생산된 제품 중 임의로 한 개의 제품을 뽑아내는 실험을 한다면, 우리의 관심은 특정한 기계가 선택되었다는 조건 아래에서 뽑은 제품이 불량품이 될 확률이다. 이러한 확률을 바로 그 기계에서 생산된 제품의 불량률이라고 할 수 있다. 베이즈의 공식은 이 반대의 문제를 해결하는데 도움을 줄 수 있다. 즉, 어느 기계에서 생산되었는지 모르는 한 제품을 임의.. 2022. 8. 16.
[Statics] 사분위수와 상자그림 boxplot 사분위수와 상자그림 boxplot 앞 글의 히스토그램에 이어 상자그림도 데이터 분석을 하면서 자주 그리게 되고, 자주 사용하게 되는 그래프이다. 이전에 seaborn 으로 그렸던 box plot이다. 이 그래프의 각 구성요소가 무엇을 의미하는지 상자그림에 대해서 공부해보자. 상자그림은 사분위수를 그래프로 표현한 것이다. 사분위수에 대해 말하기 전에 수치요약에 대해서 먼저 보면 five number summary 자료를 크기 순으로 나열 후 4등분 했을 때 경계가 되는 수치. 최소값, 첫 번째 4등분점(제 1분위수), 두 번째 4등분점, 세 번째 4등분점(제 3분위수), 최대값 이렇게 다섯개의 수치라서 다섯 수치요약이라고 한다. 두 번째 4등분점은 중위수 = median 이라고 하며 M으로 표시한다. 첫 .. 2022. 7. 23.
[Statics] 도수분포표와 히스토그램 도수분포표와 히스토그램 히스토그램은 데이터 분석을 함에 있어서 가장 기본으로, 그리고 많이 보는 그래프라고 생각한다. 그 히스토그램을 그리기 위해 필요한 데이터 표가 도수분포표이다. 도수분포표와 히스토그램에 대하여 공부해보자. 도수(frequency) 란? 자료를 크기순으로 배열했을 때 특정한 자료의 값이 몇 번 반복해서 나오는 경우, 그 값이 반복되는 횟수(빈도)를 말한다. [1, 3, 4, 2, 3, 3, 2, 5, 6 ] 이라는 데이터가 있을때 '2'의 도수는 2, '3'의 도수는 3이 된다. [M, XL, L, L, XXL, M] 이라는 데이터가 있을때 'M'의 도수는 2, 'XL'의 도수는 1이 된다. 이런 자료의 값과 도수를 정리한 표를 도수분포표(frequency table)라고 한다. 이 .. 2022. 7. 20.
[Statics] 표본평균의 분포 - 중심극한 정리 표본평균의 분포 - 중심극한 정리 중심극한 정리는 모집단의 분포를 몰라도 표본 샘플링만으로도 가설검정을 가능하게 하기 때문에 중요하다. 그리고 보통 데이터 수집을 할 때 전수조사를 하는 것은 어렵고, 샘플링 하여 데이터를 수집하는 경우가 많은데 그 샘플 데이터를 가지고 모집단을 추론하는 것이 중요하고 또 필요하다. 데이터 분석을 하는 이유가 결국 모집단에 대한 정보를 얻기 위함이기 때문이다. 그런 이유에서 중심극한 정리는 매우 중요하고 기본적인 내용이 될 수 있다고 생각하며 중심극한 정리에 대해서 공부해보자. 중심극한 정리란? central limit theorem, 평균이 μ 이고, 분산이 σ² 인 임의의 모집단에서 뽑은 확률표본(임의의 표본)의 평균의 분포는 표본의 크기가 크면 근사적으로 평균 μ, .. 2022. 7. 17.
반응형