word2vec

deep learning
공개

2025년 8월 17일

Overview

  • 이전에 봤던 방법은 통계 기반 기법, 모든 학습 데이터를 한꺼번에 처리하는 방식
  • word2vec은 신경망 기반 기법, 미니배치 학습
import numpy as np

c = np.array([[1, 0, 0, 0, 0, 0, 0]])
W = np.random.randn(7, 3)
h = np.dot(c, W)
h
array([[ 0.7871821 ,  0.94388187, -1.51434548]])

CBOW 모델

  • 딥러닝 학습을 진행
    • 말뭉치로부터 목표하는 단어를 타깃으로, 그 주변 단어를 맥락으로 뽑아냄.
    • 맥락을 one hot 인코딩 해서 입력으로 사용, 타깃을 정답 레이블로 사용
  • 입력 측의 가중치(단어의 분산 표현)를 이용해서 예측을 진행
맨 위로