수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.
이번 글에서는 통계학에서 중요한 개념인 신뢰구간을 설명한다.
1. 추론통계

모집단을 조사하기 위해서는 전수조사(기술통계)와 표본조사(추론통계)를 할 수 있다.
표본조사는 모집단을 확률분포로 보고 표본을 확률분포를 따르는 실현값으로 보면 된다.
즉, "얻은 실현값으로 이 값을 발생시킨 확률 분포를 추정한다"라는 의미이다.
현실세계 데이터를 수학적으로 이상적인 확률 분포(모형)로 근사함으로써 모집단의 추정을 용이하게 할 수 있는데
이것을 "modeling(모형화)"라고 한다.
2. sampling error(표본오차)

주사위의 평균값은 3.5이어야하지만 현실에서는 그 값보다 작거나 같은 값이 나오지 정확히 같은 값으로 나오지는 않는다. 이는 독립적으로 실현값이 발생하기 때문인데, 그 결과 모집단 평균보다는 크거나 작은 값으로 나타나 정확히 일치하지 않고 확률오차를 수반한다.
law of large numbers(큰 수의 법칙)
-> 표본크가 n이 커질수록 표본평균 x̄ 가 모집단 평균 μ 에 한없이 가까워진다는 법칙
큰수의 법칙에도 불구하고 정확히 표본평균 x̄ 가 모집단 평균 μ 이 정확히 일치하지는 않는다.
하지만, sampling error인 x̄ - μ 는 확률변수이기 때문에 확률분포를 구할 수 있다. sampling error의 확률분포를 알면 어느 정도 크기의 오차가, 어느 정도의 확률로 나타나는지 알 수 있다.(이 후에 신뢰구간으로 다시 설명하겠다.)
central limit theorem(중심극한정리)
-> 모집단이 어떤 분포이든 간에, 표본크기 n이 커질수록 x̄ 의 분포는 정규분포로 근사할 수 있다는 정리
중심극한정리를 사용하면 sampling error (x̄ - μ)의 분포를 쉽게 생각해볼 수 있다.
i) 표본평균 x̄ 분포의 평균은 모집단 평균인 μ 와 같기에 x̄ 는 μ 를 편향되지 않게 추정하는 비편향 추정량이다.
-> 따라서, 표본오차 x̄ - μ 의 분포의 평균은 0으로 나타낼 수 있다.
ii) 표본평균 x̄ 분포의 표준편차(SE)는 σ / √n 으로 나타내고 n이 커질수록 σ / √n 가 작아져서 추정의 정확도가 높아진다.
-> sampling error의 표준편차는 SE와 같다.
3. confidence interval(신뢰구간)
신뢰구간은 표본에서 구한 모집단 μ 의 추정값을 어느정도 신뢰할 수 있는지 설명을 해준다. 신뢰구간이 넓을수록 신뢰도는 낮다.

신뢰구간을 해석하는 방법은 아래와 같다.
-> 95%의 확률로 이 구간에 모집단평균 μ 가 있다.
-> 모집단에서 표본을 추출하여 95%신뢰구간을 구하는 작업을 100번 반복했을 때 평균적으로 그 구간에 μ 가 포함되는 것은 95번이다(대략 20번중 19번은 포함되고 1번은 포함되지 않음을 의미한다.)
4. t-분포

작은 표본으로 모집단 전체를 추정하고자 고안된 분포이다. 모집단이 정규분포라는 가정하에 x̄ - μ /s/ √n 이렇게 표준화한 값이 따르는 분포이다.
'Data Analysis > Statistics' 카테고리의 다른 글
| [통계학] 가설검정의 주의점 (0) | 2025.02.09 |
|---|---|
| [통계학] 통계 모형화 (0) | 2025.02.08 |
| [통계학] 상관과 회귀 (0) | 2025.02.01 |
| [통계학] 다양한 가설검정 (0) | 2025.01.29 |
| [통계학] 가설검정과 p값 (0) | 2025.01.29 |