Linear Regression

데이터 분석

공개

2026년 4월 11일

feature의 수가 많아지면 overfitting: variance 증가
feature의 수가 적어지면 underfitting: bias 증가
\(R^2\)은 절대 나빠지지 않으나, Adj \(R^\)은 일정 수준 이후 감소함

subset selection

Best: 모든 조합을 고려하여 가장 좋은 모델 선택: \(2^p\)
- p=0, 1, …, p개를 포함한 모델 중 가장 좋은 걸(\(R^2\)) 골라서, 다시 가장 좋은 모델(CV error) 선택
Stepwise: \(1 + \frac{p(p+1){2}}\)
leaps 패키지

regularization

λ가 커질수록 variance 감소, bias 증가
Ridge(\(L_2\)), Lasso(\(L_1\))
glmnet 패키지
\(λ_{min}\): MSE가 최소가 되는 모델, \(λ_{1se}\): 더 단순한 모델

dimension redution

multicolinearitiy: variance 증가와 예측 성능 저하를 유발하는 것
VIF가 5-10을 넘어서면 다중공선성 의심
사실상 feature의 수는 줄어들지 않음. coefficient 값이 제한되는 효과만 가짐
pls 패키지
표준화 필요