학습 모델 사전조사
본 프로젝트에 사용될 학습 모델 선정 및 각 학습 모델에 대한 사전조사 보고서이다.
본 프로젝트에 수행을 위해 구현해야 하는 모듈은 다음과 같다.
문서 주제 분류(Topic Modeling)
검색어 의미 분석(Word Embeding)
문서 주제 분류(Topic Modeling)
토픽(Topic)은 한국어로는 주제라고 한다. 토픽 모델링(Topic Modeling)이란 기계 학습 및 자연어 처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법이다.
SOOJLE은 세종대학교와 관련된 모든 웹 사이트, 플랫폼에 존재하는 문서를 수집한 후, 해당 문서들의 잠재 의미를 분석하여 각 문서들을 관련 토픽에 따라 Clustering을 수행해야 한다. 해당 요구 사항을 충족시키기 위한 모델 및 알고리즘은 다음과 같다.
LSA - 잠재 의미 분석LDA - 잠재 디리클레 할당검색어 의미 분석(Word Embeding)
Word2Vec - 워드투벡터FastText - 패스트텍스트Last updated