크롤러 정규화
Last updated
Last updated
해당 사이트를 크롤링을 할 때, 이후에 보다 좋은 값진 결과를 얻기 위 해서는 값어치가 있는 데이터들로만 구성되어야 할 필요가 있다.
사람이 직접 데이터를 추출할 경우, 값진 데이터를 얻을 수 있지만, 사람이 하기에는 너무나도 많은 데이터가 존재하므로, 크롤러를 보다 규격화 및 정규화를 시켜서 정보의 값어치가 높은 데이터를 추출할 필요가 있다. 이에 대해서 다음과 같이 함 수를 구성한다.
먼저 웹 크롤러를 통해서 게시글에 있는 텍스트를 수집하는 경우에 이 텍스트 들을 이용하기 위해서 규격화를 시킬 필요가 있다. 하나의 게시글에 대한 필수적인 규격은 다음과 같다.
_id(oid) : document 식별값
title(string) : 게시글 제목
date(datetime) : 게시글 게시 시간
post(string) : 게시글 본문 내용[200자까지만]
tag(:string) : 게시글을 태그 추출 함수로 뽑아낸 태그 리스트
img(string) : 게시글 내의 첫번째 이미지의 URL
url(string) : 게시글을 링크하기 위한 게시글 URL
info(string) : 게시판의 식별값
hashed(string) : 제목과 본문을 md5로 해시화한 게시글 식별값
view(int) : 조회 수
fav_cnt(int) : 좋아요 수
title_token(:string) : 제목을 공백으로 분리한 리스트
token(:string) : 게시글을 토크나이저로 추출한 토큰 리스트
login(int) : 현 게시물이 로그인 필요 유무
learn(int) : Machine Learning 학습 유무