Document Term Matrix(DTM)

개요

각 문서에 대한 BoW 표현 방법을 기반으로, 문서에 대한 정보를 벡터, 행렬화하는 것이 가능해진다. 이를 통해 각 문서 간의 유사도를 판별할 수 있게 되기 때문에 자연어 처리를 하기 위한 전처리 과정으로 수행된다.

각 문서에 대한 DTM 표기 방식

DTM은 기본적으로 수집된 BoW를 기반으로 다수의 문서에 대한 각 단어의 빈도수를 통해 해당 문서를 행렬화시키는 과정이다. 기본적으로 아래와 같은 다수의 문서가 있다고 가정할 때 다음과 같이 DTM을 생성할 수 있다.

문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요

각 문서에서 등장한 단어의 빈도를 위와 같이 행렬의 값으로 표기할 수 있다. 이를 통해 서로 다른 문서들을 서로 비교할 수 있도록 수치화할 수 있게 되는 것이다.

Last updated