4 - 정형 데이터 마이닝
adp
데이터 마이닝 개요
데이터 마이닝 분석 방법
- 지도 학습
- 의사결정 나무
- 인공신경망
- 회귀 분석
- 사례기반 추론
- k-최근접 이웃
- 비지도 학습
- OLAP
- 연관성 규칙
- 군집 분석
- SOM
데이터 마이닝 추진 단계
- 목표 설정
- 데이터 준비
- 가공
- 기법 적용
- 검증
데이터 분할
구축용(추정용, 훈련용): 50%
검정용: 30%
시험용: 20%
fold-out
k-fold
leave-one-out
성과 분석
- 정분류율
- 오분류율
- 민감도(재현율): 실제 True인데 True라고 예측한 비율
- 특이도: 실제 False인데 False라고 예측한 비율
- 정밀도: True라고 예측했는데 True인 비율
- F1-score: \(\frac{정밀도 * 재현율}{정밀도 + 재현율}\)
앙상블 기법
- 여러 개의 분석 모델을 결합하여 하나의 모델을 구축하는 기법
배깅
- 여러 부트스트랩(복원 추출된 샘플)에 대해 동일한 모델을 독립적으로 학습시키고, 결과를 투표하여 최종 결과를 결정
부스팅
부트스트랩을 순차적으로 학습시키며, 이전 모델의 오차를 보완하는 방식
Gradient Boosting
XGBoost
LightGBM
분류 분석
- 지도학습. 데이터의 범주형 속성 값을 예측
의사결정 나무
- 이상치에 민감하지 않다.
- 대용량 데이터에 대해 적합하다.
- 과적합 문제 발생 가능성
- 성장
- 분리
- 이산형 변수
- 카이제곱량
- 지니지수: \(1 - \sum_{i=1}^{n} p_i^2\). 낮춰주는 변수 선택
- 엔트로피: \(-\sum_{i=1}^{n} p_i \log_2 p_i\). 낮춰주는 변수 선택
- 범주형 변수
- 분산
- F 통계량
- 이산형 변수
- 정지 기준: 의사경정 나무의 높이, 리프 노드의 최소 갯수
- 분리
- 가지치기
- 타당성 평가
- 예측
인공신경망 분석
SOM
- 고차원의 데이터를 이해하기 쉬운 저차원의 데이터로 변환
- 구성
- 입력층
- 경쟁층
군집 분석
- 사전정보가 없는 상태에서 관측값들의 거리 또는 유사성을 이용하여 군집을 형성하는 분석 방법
- 군집분석은 알고리즘에 따라 결과가 매번 다르고, 명확한 정답이나 정답을 찾기 위한 p-value가 없다.
- outlier에 민감하다.
계층적 군집 분석
군집의 갯수를 모를 때, 우선적으로 갯수를 정하기 위해 사용
가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 분리해 가는 방식
한 번 분류된 개체는 재분류되지 않음
계층적 군집분석 단계
- Distance Measure 결정
- 연속형 변수
- 유클리디안 거리
- 맨하탄 거리
- 민코우스키 거리: 유클리디안 거리(L2)와 맨하탄 거리(L1)의 일반화된 공식.
- 표준화 거리: 표준편차로 표준화된 길이의 유클리디안 거리
- 마할라노비스 거리: 공분산으로 표준화된 길이의 유클리디안 거리
- 체비셰프 거리: x 좌표 차이와 y 좌표 차이 중 최댓 값
- 캔버라 거리: 두 벡터의 각 차이의 비율
- 범주형 변수
- 자카드 거리: \(1 - \frac{A \cap B}{A \cup B}\)
- 코사인 거리: \(1 - \frac{A \cdot B}{||A|| \cdot ||B||}\)
- 연속형 변수
- Clustering Algorithm 결정
- 합병에 의한 방법: 가장 가까운 거리를 가진 두 군집을 합침
- 단일 연결법: 군집의 개체들 사이의 모든 거리 조합 중 최솟값 사용
- 완전 연결법: 군집의 개체들 사이의 모든 거리 조합 중 최댓값 사용
- 평균 연결법: 군집의 개체들 사이의 모든 거리 조합의 평균 사용
- 와드 연결법: ESS(군집 내 제곱합)의 증가량이 최소가 되는 두 군집을 합침
- 분할에 의한 방법
- 다이아나 연결법
- 합병에 의한 방법: 가장 가까운 거리를 가진 두 군집을 합침
- 군집의 갯수 결정: 1, 2번 단계에서 나온 dendrogram을 보고 알아서 결정
- 분석의 타당성 검토
- Distance Measure 결정
비계층적(분할적) 군집 분석
군집의 갯수를 알고 있을 때 사용
판정기준을 최적화 시키는 방법으로 군집을 나눔
한 번 분류된 개체도 재분류될 수 있음
k-means
- k개의 군집을 사전에 설정
- 군집의 초기 시작 포인트를 설정
- 각 군집의 중심을 계산하여, 개체들을 다시 가장 가까운 군집에 재할당
- 3 반복
혼합분포군집
- k-means와 비슷하지만, 군집의 형태가 원형이 아닐 때도 사용 가능
PAM
- k-means와 비슷하지만, 중심을 평균이 아닌 중앙값으로 설정
- 연속형이 아닌 여러 종류의 변수가 혼합된 경우에도 사용할 수 있음
타당성 지표
- silhouette
- Dunn index
연관 분석
- 지지도: \(\frac{A \cap B}{전체}\)
- 신뢰도: \(\frac{지지도}{A}\)
- 향상도: \(\frac{신뢰도}{B}\)