Data Analysis/Statistics 7

[통계학] 베이즈 통계

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.기존의 빈도주의(frequent statistic) 통계는 모집단에서 표본을 추출할 때의 불확실성 p(x|θ)를 최대가능도 방법을 통해 구한다. 베이즈 통계(Bayesian statistic)에서는 확률을 얼마나 확신하는지, 데이터를 통해 확률을 업데이트하는 추론 방법이다.    베이즈 통계에서는 θ를 확률변수로 취급하여 θ의 확률분포를 궁금해 한다. 사전분포 p(θ)------->.  데이터.  --------->사후분포 p(θ|x)prior distribution                                     posterior distribution  즉, 데이터 x, 통계모형 p(x|θ)..

[통계학] 가설검정의 주의점

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다. 재현성위기(replication crisis):1. 재현성이 없어서 원래 논문을 통해 추시하였을 때, 같은 결과를 얻지 못한 것2. 재현성(reproducibility, replicaiton): 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다.3. 원인:-실험 조건을 동일하게 조성하기 어려움-가설검정 자체의 문제점-가설검정 사용 방법에 따라 p값이 0.05보다 작아지게 조작하는 것(p-hacking)  가설검정 문제점:미리 검출하고자 하는 효과크기(effect size)를 정하고, 설정한 α와 β에 따라 필요한 표본크기 n을 결정해야한다!!표본크기 n이 크면 아주 약간의 ..

[통계학] 통계 모형화

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.통계모형화는 데이터 성질을 고려하면서 확률 모형을 가정하고 파라미터를 추정하여 모형을 평가하는 일련의 작업이다.단순선형회귀 학습후 다중선형회귀, 일반화 선형모형으로 확장해서 학습해보자.  아래에 설명변수,모형형태, 반응변수 이렇게 3가지 측면으로 확장한다.1. 설명 변수 차원 다중회귀에서 결과를 읽는 방법- 편회귀계수와 p값(유의성)을 주목-편회귀계수 밑에 (괄호)는 표준편차를 의미함-> t값= 편회귀계수/표준편차 -데이터에 잘 들어맞는지 확인   -R^2   -F통계량에서 얻은 p값 모델 유의미하다고 판단 F-statistic-F-검정은 회귀모델이 전체적으로 유의한지 확인하는 지표-귀무가설을 모든 독립변수의 ..

[통계학] 상관과 회귀

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.그전에는 평균값 비교, 범주형 변수간 관계 가설검정 방법을 탐구했다면 이번에는 양적 변수 사이의 관계를 다뤄보겠다. 양적 변수 사이의 관계에서 알아야 하는 개념인 상관과 회귀 먼저 살펴보자.상관은 2개 변수 사이의 관계성을 말하고, 회귀 y=f(x)함수를 통해 변수 사이의 관계를 공식화한 것으로 'x에서 y'라는 방향성이 존재한다. 변수 사이의 관계를 나타내는 상관계수를 알아보자. 1. 피어슨 상관계수(Pearson's correlation coefficient, r로 표기)2개의 양적 변수 간 관계의 강도를 정량화하는 방법이다. 분자는 x_i와 y_i가 함께 연동하여 둘다 각각의 평균값보다 큰값 혹은 작은값을..

[통계학] 다양한 가설검정

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.데이터 유형, 표본의 수, 양적변수의 성질에 따라 가설검정 방법(어떤 분포를 선택할지)을 선택해야 한다. 모수검정(parametric test)이란모집단이 수학적으로 다룰 수 있는(파라미터로 설명할 수 있는지) 특정 분포를 따른다는 가정을 둔 가설검정이다. 예를 들어 모집단이 정규분포라고 가정을 하면 t-검정을 한다. 반대로는 비모수검정(non-parametric test)가 있다. 1. 모수검정의 평균값 비교-일표본 t검정 :  평균값 95% 신뢰구간 구하기와 같은 로직이다. 단, x̄를 기준으로 정리한다는 차이가 있다.-이표본 t검정 :  정규성과 등분산성을 가정하고, 등분산성을 만족하지 않을 때는 웰치의 ..

[통계학] 가설검정과 p값

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다. 자료분석 방법으로는 확증적 자료분석과 탐색적 자료분석이 있다. 이번 포스팅에서 살펴 볼 것은 미리 세운 가설을 검증하는 방식인 확증적 자료분석 방법(가설 검증형 데이터 분석)이다.   오늘의 목표1. 가설검정시 t분포를 이용하는 이유를 설명2. β 통제할 수 없는 이유와 영향을 주는 요인 설명3. α와 β의 상충관계 설명  1. 가설검정(hypothesis testing)밝히고자 하는 가설의 부정 명제를 귀무가설(null hypothesis), 밝히고 싶은 가설을 대립사설(alternative hypothesis)이라 한다. 가설검정에서 상정한 가설을 확인하고자 그 부정 명제인 귀무가설을 세우고 이 귀무가설이..

[통계학] 추론통계와 신뢰구간

수학적으로 도출하는 통계 공부보다는 뜻을 정확히 이해하고 사용하기 위해 시작한 통계 포스팅이다.이번 글에서는 통계학에서 중요한 개념인 신뢰구간을 설명한다. 1. 추론통계 모집단을 조사하기 위해서는 전수조사(기술통계)와 표본조사(추론통계)를 할 수 있다.표본조사는 모집단을 확률분포로 보고 표본을 확률분포를 따르는 실현값으로 보면 된다.즉, "얻은 실현값으로 이 값을 발생시킨 확률 분포를 추정한다"라는 의미이다. 현실세계 데이터를 수학적으로 이상적인 확률 분포(모형)로 근사함으로써 모집단의 추정을 용이하게 할 수 있는데이것을 "modeling(모형화)"라고 한다. 2. sampling error(표본오차) 주사위의 평균값은 3.5이어야하지만 현실에서는 그 값보다 작거나 같은 값이 나오지 정확히 같은 값으로 ..