Linear Regression
데이터 분석
![]()
- feature의 수가 많아지면 overfitting: variance 증가
- feature의 수가 적어지면 underfitting: bias 증가
- \(R^2\)은 절대 나빠지지 않으나, Adj \(R^\)은 일정 수준 이후 감소함
subset selection
- Best: 모든 조합을 고려하여 가장 좋은 모델 선택: \(2^p\)
- p=0, 1, …, p개를 포함한 모델 중 가장 좋은 걸(\(R^2\)) 골라서, 다시 가장 좋은 모델(CV error) 선택
- Stepwise: \(1 + \frac{p(p+1){2}}\)
leaps패키지
regularization
- λ가 커질수록 variance 감소, bias 증가
- Ridge(\(L_2\)), Lasso(\(L_1\))
glmnet패키지- \(λ_{min}\): MSE가 최소가 되는 모델, \(λ_{1se}\): 더 단순한 모델
dimension redution
- multicolinearitiy: variance 증가와 예측 성능 저하를 유발하는 것
- VIF가 5-10을 넘어서면 다중공선성 의심
- 사실상 feature의 수는 줄어들지 않음. coefficient 값이 제한되는 효과만 가짐
pls패키지- 표준화 필요