데이터 전처리

data mining

공개

2025년 6월 13일

scaling

hold out method: data를 train set과 test set으로 나누는 방법
- 어떤 데이터가 train, test set에 포함되는지에 따라 결과가 달라질 수 있다.
- → train set과 test set을 여러 번 나누어 모델을 학습하고 평가하는 방법이 필요하다.
cross validation: 데이터를 여러 번 나누어 모델을 학습하고 평가하는 방법
- k-fold cross validation: 데이터를 k개의 fold로 나누고, 각 fold를 test set으로 사용하여 모델을 학습하고 평가한다.
  - random하게 sampling할 수 있고, 안할 수도 있음
- leave-one-out cross validation: 데이터의 개수가 n개일 때, n-1개의 데이터를 train set으로 사용하고 1개의 데이터를 test set으로 사용하는 방법
- error는 각 train set, fold 에서 계산된 error의 평균으로 구한다.
bootstrap: 데이터를 중복을 허용하여 샘플링하는 방법
- 원본 데이터에서 n개의 데이터를 랜덤하게 선택하여 train set을 만들고, 나머지 데이터를 test set으로 사용한다.
- 여러 번 반복하여 모델을 학습하고 평가한다.
- 실제 오류 추정치의 편향과 분산 모두에 대한 정확한 측정값을 얻을 수 있다.