수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.
재현성위기(replication crisis):
1. 재현성이 없어서 원래 논문을 통해 추시하였을 때, 같은 결과를 얻지 못한 것
2. 재현성(reproducibility, replicaiton): 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다.
3. 원인:
-실험 조건을 동일하게 조성하기 어려움
-가설검정 자체의 문제점
-가설검정 사용 방법에 따라 p값이 0.05보다 작아지게 조작하는 것(p-hacking)
가설검정 문제점:
미리 검출하고자 하는 효과크기(effect size)를 정하고, 설정한 α와 β에 따라 필요한 표본크기 n을 결정해야한다!!
표본크기 n이 크면 아주 약간의 차이라도 귀무가설을 기각해 버리게 되기 때문이다.
결과를 본 후에 n을 늘려서 p값을 조절하는 것은 p-해킹으로 이어지므로 적절하지 않다.
[표본 크기 n가 커질수록 신뢰구간의 폭이 좁아지는 이유]

n이 커지면 표준오차(SE)가 작아져서 신뢰구간 폭이 좁아짐
직관적인 설명:
- 표본 크기가 클수록 표본 평균이 모집단 평균에 더 가까워짐 → 변동성이 감소
- 표본의 대표성이 증가 → 표본 평균의 불확실성이 줄어듦
[표본 크기n가 커질수록 p값이 작아지는 이유]

p값의 정의가 귀무가설이 옳다고 가정할 때 현재 관찰된 통계량 이상으로 극단적인 값을 얻을 확률이다.
예를 들어, t검정의 경우 n이 커질수록 t값이 커지게 분포에서 양쪽 끝에 있는 값이 될 가능성이 커져되 p값이 작아진다.
효과크기-> 추가학습필요
p값으로 통계적으로 유의미한 차이가 있음을 알았다고 해도 얼마나 차이가 있는지 알 수 없기에 효과크기(effect size)도 함께 표기하는 것이 바람직하다.
p-해킹 :
의도하든, 의도하지 않든 p값을 원하느 방향(유의수준 미만이 되도록)으로 조작(실험 설계, 해석)하는 행위
HARKing (Hypothesis After the Results are known):
데이터를 얻어 결과를 보고 나서 가설을 만드는 행위
구체적으로는 많은 실험을 반복하거나 데이터의 다양한 변수를 이리저리 만져서 의미가 있을 듯한 결과만을 뽑아, 처음에 세운 가설인양 보고하는 것.
'Data Analysis > Statistics' 카테고리의 다른 글
| [통계학] 베이즈 통계 (0) | 2025.02.13 |
|---|---|
| [통계학] 통계 모형화 (0) | 2025.02.08 |
| [통계학] 상관과 회귀 (0) | 2025.02.01 |
| [통계학] 다양한 가설검정 (0) | 2025.01.29 |
| [통계학] 가설검정과 p값 (0) | 2025.01.29 |