주식시장 에측에 사용될 변수만 남기고, MS를 통해 주어진 변수들을 사용하여 모델의 입력 데이터(설계 행렬, Design matrix)를 만든다. 즉, 모델이 학습할 데이터(X)를 만들었다. y를 up 값을 받으면 true, down을 받으면 false를 받는다(y는 0 또는 1 을 가지는 벡터가 됨) 로지스틱 회귀 모델을 사용하여 모델을 학습시킨다(fit). 즉, 최대우도추정 MLE를 사용하여 회귀 계수를 학습한다.
그 후, 학습된 모델을 사용하여 각 데이터 샘플에 대해서 주가가 상승할 확률을 계산한다. 계산한 값이 0.5보다 크면 up, 작으면 down이 되고 원래 데이터의 direction컬럼과 비교하는 작업을 수행한다.
52% 잘 예측한다.
Second Step:
first step에서는 같은 데이터 셋으로 학습도 하고, 테스트도 진행하여 과적합 현상이 일어난다. 과적합을 방지하기 위해서 데이터를 2005년이전을 트레이닝 데이터 세트, 그 후를 테스트 데이터 셋으로 설정한다. 결과를 해석할 때 모델이 예측한 값과 실제 dirction값을 비교하기 위해서 dirction컬럼도 train, test로 나눈다.