Linear Regression

데이터 분석
공개

2026년 4월 11일

subset selection

  • Best: 모든 조합을 고려하여 가장 좋은 모델 선택: \(2^p\)
    • p=0, 1, …, p개를 포함한 모델 중 가장 좋은 걸(\(R^2\)) 골라서, 다시 가장 좋은 모델(CV error) 선택
  • Stepwise: \(1 + \frac{p(p+1){2}}\)
  • leaps 패키지

regularization

  • λ가 커질수록 variance 감소, bias 증가
  • Ridge(\(L_2\)), Lasso(\(L_1\))
  • glmnet 패키지
  • \(λ_{min}\): MSE가 최소가 되는 모델, \(λ_{1se}\): 더 단순한 모델

dimension redution

  • multicolinearitiy: variance 증가와 예측 성능 저하를 유발하는 것
  • VIF가 5-10을 넘어서면 다중공선성 의심
  • 사실상 feature의 수는 줄어들지 않음. coefficient 값이 제한되는 효과만 가짐
  • pls 패키지
  • 표준화 필요
맨 위로