Data Analysis/Machine Learning 4

[ISLP] Logistic Regression Lap

목적 : 주식 시장 데이터를 사용해서 다음날 주가가 오를지 내릴지 예측하는 로지스틱 회귀 모델을 학습 데이터는 다음과 같이 생겼다. 받은 데이터 셋에서는 Direction이 이미 있지만, 로지스틱 회귀 모델을 사용하여 예측한 Direction의 값의 정확성을 예측하기 위해 사용될 예정이다. First Step:allvars = Smarket.columns.drop(['Today', 'Direction', 'Year'])design =MS(allvars)X = design.fit_transform(Smarket)y = Smarket.Direction == 'Up'glm = sm.GLM(y,X, family=sm.families.Binomial())results = glm.fit()summarize(resu..

[ISLP] Logistic Regression 이론

로지스틱 회귀분석은 종속변수가 이진 또는 다항값을 가질 때, 그 확률을 예측하기 위한 통계적 모델이다. 선형 회귀와 달리 예측값을 확률로 변환하여 직접 예측할 수 있다.  Y값은 x값이 0.5보다 크면 1로 반환하고(lap: 'up'을 의미), 작으면 0으로 반환하다(lap: 'down'을 의미).  모델의 최적의 계수를 찾기 위해서는 최대 우도 추정법을 사용하고, 우도 함수를 그대로 사용하면 계산이 어려워서 로그 우도 함수를 사용한다. x가 한 단위 증가할 때, y가 1이 될 확률이 얼마나 변하하는지를 나타내는 값이다!! 계수는 로그 오즈를 얼마나 변화시키는지를 의미한다.예를 들어, beta = 0.7 -> e^0.7 =2.0138 이면 x가 한 단위 증가할 때, y=1이 될 오즈(확률)이 2배 증가한다.

[기계학습] 데이터 분석 입문

유비온 데이터 분석 입문 수업의 자료를 기준으로 chatgpt를 활용해 요약하고 복습하는 내용임.  과학적 사고의 과정문제 정의 → 2. 가설 설정 → 3. 실험과 관찰 → 4. 분석 및 결론 도출 → 5. 결과 발표 및 재검증 빅데이터 분석 과정분석 기획: 분석 목표 및 전략 설정.데이터 수집: 내부/외부 데이터 수집 및 확보.데이터 처리 및 저장: 전처리 및 저장 기술 활용.데이터 분석: 통계, 머신러닝, 텍스트 마이닝 기반 분석.결과 시각화: 그래프, 차트 등으로 정보 전달.의사결정 및 비즈니스 모델 개발: 분석 결과를 경영전략 및 의사결정에 반영 EDA (탐색적 데이터 분석)EDA는 데이터를 분석하기 전, 데이터의 구조와 특성을 이해하는 과정입니다. 주요 목표는 데이터의 분포, 이상치(Outlie..

[기계학습] 기초 지식(주성분, 비지도학습, 지도학습)

1. 주성분 분석과 인자분석 데이터 변수의 개수를 차원이라 부르고, 변수의 수를 줄이는 것을 차원 축소(dimension reduction)이라 한다. 차원을 축소하는 이유는 데이터 해석의 어려움과 차원의 저주가 있다.  다중회귀분석의 경우와 같이 설명변수끼리 강한 상관이 있는 상황을 다중공선성이라고 하며, 회귀계수 추정이 불안정해지는 문제가  발생한다. 표본크기 n이 충분하지 않은 상황이라면, 회귀계수를 올바르게 추정할 수 없는 문제를 '차원의 저주'라고 한다.  차원 축소에 사용하는 가장 기본적인 방법이 주성분 분석(PCA, principle component analysis)이다. 기본적인 아이디어는 상관이 있는 변수는 하나로 정리될 수 있다는 것이다. 각 주성분이 가진 정보(분산)의 비율을 기여율..