4 - 정형 데이터 마이닝

adp
공개

2025년 2월 20일

데이터 마이닝 개요

데이터 마이닝 분석 방법

  • 지도 학습
    • 의사결정 나무
    • 인공신경망
    • 회귀 분석
    • 사례기반 추론
    • k-최근접 이웃
  • 비지도 학습
    • OLAP
    • 연관성 규칙
    • 군집 분석
    • SOM

데이터 마이닝 추진 단계

  1. 목표 설정
  2. 데이터 준비
  3. 가공
  4. 기법 적용
  5. 검증

데이터 분할

  • 구축용(추정용, 훈련용): 50%

  • 검정용: 30%

  • 시험용: 20%

  • fold-out

  • k-fold

  • leave-one-out

성과 분석

  • 정분류율
  • 오분류율
  • 민감도(재현율): 실제 True인데 True라고 예측한 비율
  • 특이도: 실제 False인데 False라고 예측한 비율
  • 정밀도: True라고 예측했는데 True인 비율
  • F1-score: \(\frac{정밀도 * 재현율}{정밀도 + 재현율}\)

앙상블 기법

  • 여러 개의 분석 모델을 결합하여 하나의 모델을 구축하는 기법

배깅

  • 여러 부트스트랩(복원 추출된 샘플)에 대해 동일한 모델을 독립적으로 학습시키고, 결과를 투표하여 최종 결과를 결정

부스팅

  • 부트스트랩을 순차적으로 학습시키며, 이전 모델의 오차를 보완하는 방식

  • Gradient Boosting

  • XGBoost

  • LightGBM

분류 분석

  • 지도학습. 데이터의 범주형 속성 값을 예측

의사결정 나무

  • 이상치에 민감하지 않다.
  • 대용량 데이터에 대해 적합하다.
  • 과적합 문제 발생 가능성
  1. 성장
    • 분리
      • 이산형 변수
        • 카이제곱량
        • 지니지수: \(1 - \sum_{i=1}^{n} p_i^2\). 낮춰주는 변수 선택
        • 엔트로피: \(-\sum_{i=1}^{n} p_i \log_2 p_i\). 낮춰주는 변수 선택
      • 범주형 변수
        • 분산
        • F 통계량
    • 정지 기준: 의사경정 나무의 높이, 리프 노드의 최소 갯수
  2. 가지치기
  3. 타당성 평가
  4. 예측

인공신경망 분석

SOM

  • 고차원의 데이터를 이해하기 쉬운 저차원의 데이터로 변환
  • 구성
    1. 입력층
    2. 경쟁층

군집 분석

  • 사전정보가 없는 상태에서 관측값들의 거리 또는 유사성을 이용하여 군집을 형성하는 분석 방법
  • 군집분석은 알고리즘에 따라 결과가 매번 다르고, 명확한 정답이나 정답을 찾기 위한 p-value가 없다.
  • outlier에 민감하다.

계층적 군집 분석

  • 군집의 갯수를 모를 때, 우선적으로 갯수를 정하기 위해 사용

  • 가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 분리해 가는 방식

  • 한 번 분류된 개체는 재분류되지 않음

  • 계층적 군집분석 단계

    1. Distance Measure 결정
      • 연속형 변수
        • 유클리디안 거리
        • 맨하탄 거리
        • 민코우스키 거리: 유클리디안 거리(L2)와 맨하탄 거리(L1)의 일반화된 공식.
        • 표준화 거리: 표준편차로 표준화된 길이의 유클리디안 거리
        • 마할라노비스 거리: 공분산으로 표준화된 길이의 유클리디안 거리
        • 체비셰프 거리: x 좌표 차이와 y 좌표 차이 중 최댓 값
        • 캔버라 거리: 두 벡터의 각 차이의 비율
      • 범주형 변수
        • 자카드 거리: \(1 - \frac{A \cap B}{A \cup B}\)
        • 코사인 거리: \(1 - \frac{A \cdot B}{||A|| \cdot ||B||}\)
    2. Clustering Algorithm 결정
      • 합병에 의한 방법: 가장 가까운 거리를 가진 두 군집을 합침
        • 단일 연결법: 군집의 개체들 사이의 모든 거리 조합 중 최솟값 사용
        • 완전 연결법: 군집의 개체들 사이의 모든 거리 조합 중 최댓값 사용
        • 평균 연결법: 군집의 개체들 사이의 모든 거리 조합의 평균 사용
        • 와드 연결법: ESS(군집 내 제곱합)의 증가량이 최소가 되는 두 군집을 합침
      • 분할에 의한 방법
        • 다이아나 연결법
    3. 군집의 갯수 결정: 1, 2번 단계에서 나온 dendrogram을 보고 알아서 결정
    4. 분석의 타당성 검토

비계층적(분할적) 군집 분석

  • 군집의 갯수를 알고 있을 때 사용

  • 판정기준을 최적화 시키는 방법으로 군집을 나눔

  • 한 번 분류된 개체도 재분류될 수 있음

  • k-means

    1. k개의 군집을 사전에 설정
    2. 군집의 초기 시작 포인트를 설정
    3. 각 군집의 중심을 계산하여, 개체들을 다시 가장 가까운 군집에 재할당
    4. 3 반복
  • 혼합분포군집

    • k-means와 비슷하지만, 군집의 형태가 원형이 아닐 때도 사용 가능
  • PAM

    • k-means와 비슷하지만, 중심을 평균이 아닌 중앙값으로 설정
    • 연속형이 아닌 여러 종류의 변수가 혼합된 경우에도 사용할 수 있음

타당성 지표

  • silhouette
  • Dunn index

연관 분석

  • 지지도: \(\frac{A \cap B}{전체}\)
  • 신뢰도: \(\frac{지지도}{A}\)
  • 향상도: \(\frac{신뢰도}{B}\)
맨 위로