[통계학] 상관과 회귀

Data Analysis/Statistics

[통계학] 상관과 회귀

Jiyeon's Desk 2025. 2. 1. 23:29

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.
그전에는 평균값 비교, 범주형 변수간 관계 가설검정 방법을 탐구했다면 이번에는 양적 변수 사이의 관계를 다뤄보겠다.

양적 변수 사이의 관계에서 알아야 하는 개념인 상관과 회귀 먼저 살펴보자.
상관은 2개 변수 사이의 관계성을 말하고, 회귀 y=f(x)함수를 통해 변수 사이의 관계를 공식화한 것으로 'x에서 y'라는 방향성이 존재한다.

변수 사이의 관계를 나타내는 상관계수를 알아보자.

1. 피어슨 상관계수(Pearson's correlation coefficient, r로 표기)
2개의 양적 변수 간 관계의 강도를 정량화하는 방법이다.

분자는 x_i와 y_i가 함께 연동하여 둘다 각각의 평균값보다 큰값 혹은 작은값을 취하면 (x_i-xbar)(y_i-ybar)가 양수로 나타난다. 한편 한쪽은 평균보다 크고 다른 한쪽은 평균보다 작으면 음수값이 된다.
분모는 r을 -1과 +1범위에 머무르게 함 ==>why?

0.7< ∣r∣<=1 : 강한 상관
0.4< ∣r∣<=0.7 : 중간정도
0.2< ∣r∣<0.4 : 약한 상관
0< ∣r∣<=0.2 :상관 거의 없음

피어슨 상관계수 사용시 주의점
1. '선형(직선)'관계성의 강도를 정량화한 것으로 이차함수나 사차함수(비선형관계)는 적절하게 정량화 하지못한다
2. 기울기는 강도와 관계가 없다
3. 같은 상관계수라도 다양한 산점도 패턴이 나타날 수 있으므로
=>상관계수를 계산하기 전에 산점도를 그려서 데이터가 어떻게 분포하는지 미리 확인하는 것이 좋음
4. 정규성 검사가 필요하다. x의 분포, y의 분포 모두 정규분포라고 가정하기에 이상값이 있는 데이터나 서로 상관없는 data는 r값이 이상하게 나타난다.
=>상관계수 계산 전에 x축과 y축에 있는 데이터 각각에 대해 샤피로-윌크 검정으로 정규성을 확인이 필요

하나라도 정규성이 없으면 비모수 상관계수를 이용해야 한다.
2. 비모수 상관계수
- 스피어만 순위상관계수( ρ, Spearman's rank correlation coefficient )
계산은 r과 거의 비슷하지만 순위로 변환한 값의 선형관계를 나타내어 이상값이 결과에 거의 영향을 주지 않는다.
- 켄달 순위 상관계수( τ, Kendall rank correlation coefficient)
표본 크기 n이 매우 작을때 유용하다(n<10)

3. 모수, 비모수 상관계수 사용시 주의점
1. x축에 X, y축에 Y/X (ex, 인구밀도, 인구 당 감염자의 수)둔 상관계수는 x와 y가 무상관이더라도 반비례 형태로 음의 상관계수가 나오므로 주의해야함.
=> x축과 y축 값이 개별 변수인 것과 나눗셈 등으로 변환하지 않았을 것을 사전에 확인작업이 필요하다
2. 표본크기가 큰 경우 p<0.05 라고 해서 곧바로 상관이 있다고 판단하는 것이 아니라 r값 자체에 눈을 돌려 그 크기를 해석해야 한다.

이번엔 선형 회귀에 대해 알아보자. 특정 평가기준에 따라 회귀의 '좋음(적합도)'을 평가하고 이 회귀계수의 값을 구체적으로 구하는 것이 회귀분석의 흐름이다.

1.회귀분석
-좋음(적합도)=> '데이터와 회귀식의 차이가 가능한 한 작은' => 최소제곱법 사용

-회귀계수=> 최량선형비편향추정량(by 가우스-마르코프 정리)

!외우자!
신뢰구간은 모형의 파라미터, 즉 모집단의 범위이고 예측구간은 데이터의 범위이다.

2. 결정계수( R^2 coefficient of determination, R-squared)

회귀 모델이 종속 변수(결과 변수)를 얼마나 잘 설명하는지를 나타내는 지표
=> 설명되지 않고 남아 있는 잔차의 비율

총 변동(Total Sum of Squares, SST)

설명된 변동(Regression Sum of Squares, SSR)

회귀 모델이 설명하지 못한 변동을 잔차 변동(Residual Sum of Squares, SSE)

-> 는 모델이 설명하지 못한 변동의 비율

Insight
1차 함수 선형회귀에서 최소제곱법을 사용한 경우에, R^2 은 r^2과 거의 같다. 따라서 r과 데이터 퍼짐정도를 감각적으로 알아두면 R^2로부터 얼마나 잘 들어맞는가를 대략적으로 알 수 있다.

설명변수의 갯수가 많아지면 R^2가 자연히 올라가는 문제로 인해 조정 결정계수를 사용한다(Adjusted R-squared)

*최소제곱법으로 구한 선형모형의 파라미터 대상으로 가설검정을 시행하려면 오차가 평균이 0이고 등분산성을 따라야 하는데 이떄 등분산성을 검정할때, 브루쉬-페이건 검정으로 사용한다.

'Data Analysis > Statistics' 카테고리의 다른 글

[통계학] 가설검정의 주의점 (0)	2025.02.09
[통계학] 통계 모형화 (0)	2025.02.08
[통계학] 다양한 가설검정 (0)	2025.01.29
[통계학] 가설검정과 p값 (0)	2025.01.29
[통계학] 추론통계와 신뢰구간 (0)	2025.01.25

현재글[통계학] 상관과 회귀

Notes on Learning Finance&Data Analytics

🚀 On a journey to become a financial data analyst

금융빅데이터, CFA, 디지털금융, cfa level1 공부후기, 기업의 자금조달 방법, 산업분석, 국비교육, 회계이슈, 증권분석, 금융공부, 한화에어로페이스, epass, 데이터분석, 시사상식, k디지털트레이닝, cfa 1차, fsa, 엔지엔솔, 유비온디지털교육센터, 투자,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Notes on Learning Finance&Data Analytics