Word2Vec(FastText) 학습 모델링
개요
본 항목에서는 최종적인 최선의 Word2Vec 학습 모델이 완성되기 전까지의 기록 및 회고 등을 다루고 있다. 아래의 항목을 통해서 자세한 사항을 확인할 수 있다.
하이퍼 파라미터
파라미터 | Value | 명세 |
VEC_SIZE | 30 | 단어 벡터 차원수 |
WINDOWS | 10 | 연관 지을 주변 단어 윈도우 사이즈 |
MIN_COUNT | 50 | 최소 등장 횟수 제한 |
ITERATION | 1000 | 모델 학습 Epoch |
학습 코퍼스
학습에 사용될 데이터는 LDA 학습과 같은 전처리 데이터를 사용한다. 단, Word2Vec의 경우 전처리 과정에서 문서가 아닌 문장 별로 분류하여 학습을 수행한다. 또한 문장 단위의 학습이기 때문에 기존에 부적합했던 전처리 데이터들도 모두 포함된다.
Total Corpus: 238080
성능 평가
워드투벡터의 가장 큰 이슈는 성능을 객관적으로 평가하기 위한 보편적인 지표가 존재하지 않는다는 것이다. 이전에 모델 구현에 성공했던 LDA와 마찬가지로 비지도 학습이지만, 해당 모델의 경우, 완성도를 측정하는 지표가 거의 없다시피 하기 때문에 각 모델에 대한 테스트 셋을 따로 구분하여 측정할 필요가 있다.
단, 이러한 상황임에도 Word2Vec(FastText)의 기본적인 성능 자체가 뛰어나기 때문에 어느 정도 파라미터 조정에 시간을 투자하더라도 최선의 모델을 뽑아낼 만한 가치가 있다고 판단하였다.
Last updated