크롤러 정규화

개요

해당 사이트를 크롤링을 할 때, 이후에 보다 좋은 값진 결과를 얻기 위 해서는 값어치가 있는 데이터들로만 구성되어야 할 필요가 있다.

사람이 직접 데이터를 추출할 경우, 값진 데이터를 얻을 수 있지만, 사람이 하기에는 너무나도 많은 데이터가 존재하므로, 크롤러를 보다 규격화 및 정규화를 시켜서 정보의 값어치가 높은 데이터를 추출할 필요가 있다. 이에 대해서 다음과 같이 함 수를 구성한다.

데이터 규격화

먼저 웹 크롤러를 통해서 게시글에 있는 텍스트를 수집하는 경우에 이 텍스트 들을 이용하기 위해서 규격화를 시킬 필요가 있다. 하나의 게시글에 대한 필수적인 규격은 다음과 같다.

  • _id(oid) : document 식별값

  • title(string) : 게시글 제목

  • date(datetime) : 게시글 게시 시간

  • post(string) : 게시글 본문 내용[200자까지만]

  • tag(:string) : 게시글을 태그 추출 함수로 뽑아낸 태그 리스트

  • img(string) : 게시글 내의 첫번째 이미지의 URL

  • url(string) : 게시글을 링크하기 위한 게시글 URL

  • info(string) : 게시판의 식별값

  • hashed(string) : 제목과 본문을 md5로 해시화한 게시글 식별값

  • view(int) : 조회 수

  • fav_cnt(int) : 좋아요 수

  • title_token(:string) : 제목을 공백으로 분리한 리스트

  • token(:string) : 게시글을 토크나이저로 추출한 토큰 리스트

  • login(int) : 현 게시물이 로그인 필요 유무

  • learn(int) : Machine Learning 학습 유무

Last updated