데이터 전처리 과정
개요
단어 토큰화(Word Tokenization)
고려 사항
구두점이나 특수 문자 단순 제외 X
줄임말과 단어 내에 띄어쓰기
한국어는 단어의 순서가 중요하지 않음
교착어
한국어는 띄어쓰기가 제대로 지켜지지 않음
정제(Cleaning) & 정규화(Normalization)
규칙에 기반한 표기가 다른 단어들의 통합
대소문자 통합
불용어(Noise Data) 제거
등장 빈도가 적은 단어
길이가 너무 짧거나 긴 단어
간단한 토크나이저 구현 예제

정수 인코딩(Integer Encoding)
Code
Output
Last updated
Was this helpful?