random forest

data mining
공개

2025년 6월 13일

  1. bootstrap sampling
  2. k개의 feature 중 랜덤하게 선택해서 노드를 추가
  3. 각 tree 학습
  4. 각 tree의 예측값을 투표하여 최종 예측값 결정
    • 분류: 다수결 투표
    • 회귀: 평균값

장점

  • Classification, Regression문제 모두 해결 가능
  • Accuracy, out-of-bag error에 우수한 결과
  • Validation을 위한 별도의 data set이 필요하지 않음
  • Built-in validation set
  • Overfitting이 없다
  • Outlier에 강함
  • Missing data를 잘 처리
  • 선처리 작업을 최소화
  • Feature의 선택을 자동처리
  • 변수 삭제 없이 수천 개의 입력 변수를 처리

단점

  • 속도가 느림
  • 해석이 어렵다
맨 위로