수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.
기존의 빈도주의(frequent statistic) 통계는 모집단에서 표본을 추출할 때의 불확실성 p(x|θ)를 최대가능도 방법을 통해 구한다. 베이즈 통계(Bayesian statistic)에서는 확률을 얼마나 확신하는지, 데이터를 통해 확률을 업데이트하는 추론 방법이다.

베이즈 통계에서는 θ를 확률변수로 취급하여 θ의 확률분포를 궁금해 한다.
사전분포 p(θ)------->. 데이터. --------->사후분포 p(θ|x)
prior distribution posterior distribution
즉, 데이터 x, 통계모형 p(x|θ), 사전분포 p(θ) 를 통해 p(θ|x)를 얻기 위한 것이다.

p(θ) 를 해석자가 설정하기 주관적 판단이 개입된다는 비판이 있기도 하다. 대응책으로 p(θ)를 균등분포나 분산이 충분히 큰 정규분포라고 두기도 한다. 그치만 해석자가 파라미터에 대한 정보를 가지면 사전분포에 반영할 수 있다는 것이 베이즈 통계의 이점이다.
p(x|θ)를 통해 예측분포 p*(θ)를 얻는다.

베이즈 통계는 획득한 관찰 데이터와 실험자가 설정한 사전분포로부터 사후분포를 구해, 통계 모형의 파라미터가 어떤 분포인지를 아는 것이다. 그러나, 계산이 매우 복잡하기 때문에, 그 대신 MCMC방법(Markov Chain Monte Carlo method) 이라는 게산 알고리즘을 사용한다.
몬테카를로 방법 : 난수를 여러 개 발생시켜 시뮬레이션해 근사해를 얻는 방법
마르코프 연쇄 : 어떤 상태에서 다른 상태로 변화하는 현상을 확률로 표현한 모형의 일종으로 현재 상태에서 다음 시각으로 변화하는 확률이 과거가 아닌 현재 상태에만 의존한다는 특징을 지닌다.
아직 이해가 되지 않아 머신러닝 배울때 다시 돌아와서 공부해야겠다.
'Data Analysis > Statistics' 카테고리의 다른 글
| [통계학] 가설검정의 주의점 (0) | 2025.02.09 |
|---|---|
| [통계학] 통계 모형화 (0) | 2025.02.08 |
| [통계학] 상관과 회귀 (0) | 2025.02.01 |
| [통계학] 다양한 가설검정 (0) | 2025.01.29 |
| [통계학] 가설검정과 p값 (0) | 2025.01.29 |