본문 바로가기

통계공부4

[statics] 전확률의 정리와 베이즈의 공식 Bayes' formula 베이즈의 공식 Bayes' formula 베이즈(Bayes)의 공식은 영국의 수학자이며 장로 교회 목사였던 베이즈에 의해 만들어졌다. 베이즈의 공식은 예전에 파이썬으로 알고리즘 공부를 할 때 처음 들어보게 된 것이었는데 더 알아보자. 여러 대의 기계가 동일한 제품을 생산하는데, 이에 대한 불량률이 각 기계별로 주어져 있다고 가정하자. 만약 어떤 특정한 기계에서 생산된 제품 중 임의로 한 개의 제품을 뽑아내는 실험을 한다면, 우리의 관심은 특정한 기계가 선택되었다는 조건 아래에서 뽑은 제품이 불량품이 될 확률이다. 이러한 확률을 바로 그 기계에서 생산된 제품의 불량률이라고 할 수 있다. 베이즈의 공식은 이 반대의 문제를 해결하는데 도움을 줄 수 있다. 즉, 어느 기계에서 생산되었는지 모르는 한 제품을 임의.. 2022. 8. 16.
[Statics] 사분위수와 상자그림 boxplot 사분위수와 상자그림 boxplot 앞 글의 히스토그램에 이어 상자그림도 데이터 분석을 하면서 자주 그리게 되고, 자주 사용하게 되는 그래프이다. 이전에 seaborn 으로 그렸던 box plot이다. 이 그래프의 각 구성요소가 무엇을 의미하는지 상자그림에 대해서 공부해보자. 상자그림은 사분위수를 그래프로 표현한 것이다. 사분위수에 대해 말하기 전에 수치요약에 대해서 먼저 보면 five number summary 자료를 크기 순으로 나열 후 4등분 했을 때 경계가 되는 수치. 최소값, 첫 번째 4등분점(제 1분위수), 두 번째 4등분점, 세 번째 4등분점(제 3분위수), 최대값 이렇게 다섯개의 수치라서 다섯 수치요약이라고 한다. 두 번째 4등분점은 중위수 = median 이라고 하며 M으로 표시한다. 첫 .. 2022. 7. 23.
[Statics] 도수분포표와 히스토그램 도수분포표와 히스토그램 히스토그램은 데이터 분석을 함에 있어서 가장 기본으로, 그리고 많이 보는 그래프라고 생각한다. 그 히스토그램을 그리기 위해 필요한 데이터 표가 도수분포표이다. 도수분포표와 히스토그램에 대하여 공부해보자. 도수(frequency) 란? 자료를 크기순으로 배열했을 때 특정한 자료의 값이 몇 번 반복해서 나오는 경우, 그 값이 반복되는 횟수(빈도)를 말한다. [1, 3, 4, 2, 3, 3, 2, 5, 6 ] 이라는 데이터가 있을때 '2'의 도수는 2, '3'의 도수는 3이 된다. [M, XL, L, L, XXL, M] 이라는 데이터가 있을때 'M'의 도수는 2, 'XL'의 도수는 1이 된다. 이런 자료의 값과 도수를 정리한 표를 도수분포표(frequency table)라고 한다. 이 .. 2022. 7. 20.
[Statics] 표본평균의 분포 - 중심극한 정리 표본평균의 분포 - 중심극한 정리 중심극한 정리는 모집단의 분포를 몰라도 표본 샘플링만으로도 가설검정을 가능하게 하기 때문에 중요하다. 그리고 보통 데이터 수집을 할 때 전수조사를 하는 것은 어렵고, 샘플링 하여 데이터를 수집하는 경우가 많은데 그 샘플 데이터를 가지고 모집단을 추론하는 것이 중요하고 또 필요하다. 데이터 분석을 하는 이유가 결국 모집단에 대한 정보를 얻기 위함이기 때문이다. 그런 이유에서 중심극한 정리는 매우 중요하고 기본적인 내용이 될 수 있다고 생각하며 중심극한 정리에 대해서 공부해보자. 중심극한 정리란? central limit theorem, 평균이 μ 이고, 분산이 σ² 인 임의의 모집단에서 뽑은 확률표본(임의의 표본)의 평균의 분포는 표본의 크기가 크면 근사적으로 평균 μ, .. 2022. 7. 17.
반응형