크롤러 정규화

개요

해당 사이트를 크롤링을 할 때, 이후에 보다 좋은 값진 결과를 얻기 위 해서는 값어치가 있는 데이터들로만 구성되어야 할 필요가 있다.

사람이 직접 데이터를 추출할 경우, 값진 데이터를 얻을 수 있지만, 사람이 하기에는 너무나도 많은 데이터가 존재하므로, 크롤러를 보다 규격화 및 정규화를 시켜서 정보의 값어치가 높은 데이터를 추출할 필요가 있다. 이에 대해서 다음과 같이 함 수를 구성한다.

먼저 웹 크롤러를 통해서 게시글에 있는 텍스트를 수집하는 경우에 이 텍스트 들을 이용하기 위해서 규격화를 시킬 필요가 있다. 하나의 게시글에 대한 필수적인 규격은 다음과 같다.

Last updated 6 years ago

Was this helpful?