[통계학] 가설검정의 주의점

Data Analysis/Statistics

[통계학] 가설검정의 주의점

Jiyeon's Desk 2025. 2. 9. 16:26

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.

재현성위기(replication crisis):

1. 재현성이 없어서 원래 논문을 통해 추시하였을 때, 같은 결과를 얻지 못한 것

2. 재현성(reproducibility, replicaiton): 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다.

3. 원인:

-실험 조건을 동일하게 조성하기 어려움

-가설검정 자체의 문제점

-가설검정 사용 방법에 따라 p값이 0.05보다 작아지게 조작하는 것(p-hacking)

가설검정 문제점:

미리 검출하고자 하는 효과크기(effect size)를 정하고, 설정한 α와 β에 따라 필요한 표본크기 n을 결정해야한다!!

표본크기 n이 크면 아주 약간의 차이라도 귀무가설을 기각해 버리게 되기 때문이다.

결과를 본 후에 n을 늘려서 p값을 조절하는 것은 p-해킹으로 이어지므로 적절하지 않다.

[표본 크기 n가 커질수록 신뢰구간의 폭이 좁아지는 이유]

n이 커지면 표준오차(SE)가 작아져서 신뢰구간 폭이 좁아짐

직관적인 설명:

표본 크기가 클수록 표본 평균이 모집단 평균에 더 가까워짐 → 변동성이 감소
표본의 대표성이 증가 → 표본 평균의 불확실성이 줄어듦

[표본 크기n가 커질수록 p값이 작아지는 이유]

p값의 정의가 귀무가설이 옳다고 가정할 때 현재 관찰된 통계량 이상으로 극단적인 값을 얻을 확률이다.

예를 들어, t검정의 경우 n이 커질수록 t값이 커지게 분포에서 양쪽 끝에 있는 값이 될 가능성이 커져되 p값이 작아진다.

효과크기-> 추가학습필요

p값으로 통계적으로 유의미한 차이가 있음을 알았다고 해도 얼마나 차이가 있는지 알 수 없기에 효과크기(effect size)도 함께 표기하는 것이 바람직하다.

p-해킹 :

의도하든, 의도하지 않든 p값을 원하느 방향(유의수준 미만이 되도록)으로 조작(실험 설계, 해석)하는 행위

HARKing (Hypothesis After the Results are known):

데이터를 얻어 결과를 보고 나서 가설을 만드는 행위

구체적으로는 많은 실험을 반복하거나 데이터의 다양한 변수를 이리저리 만져서 의미가 있을 듯한 결과만을 뽑아, 처음에 세운 가설인양 보고하는 것.

'Data Analysis > Statistics' 카테고리의 다른 글

[통계학] 베이즈 통계 (0)	2025.02.13
[통계학] 통계 모형화 (0)	2025.02.08
[통계학] 상관과 회귀 (0)	2025.02.01
[통계학] 다양한 가설검정 (0)	2025.01.29
[통계학] 가설검정과 p값 (0)	2025.01.29

현재글[통계학] 가설검정의 주의점

Notes on Learning Finance&Data Analytics

🚀 On a journey to become a financial data analyst

시사상식, 국비교육, 기업의 자금조달 방법, 금융빅데이터, CFA, k디지털트레이닝, 금융공부, epass, 증권분석, fsa, 한화에어로페이스, cfa level1 공부후기, 회계이슈, 디지털금융, 데이터분석, 엔지엔솔, 유비온디지털교육센터, 산업분석, cfa 1차, 투자,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Notes on Learning Finance&Data Analytics