데이터 수집 및 정규화
Last updated
Last updated
SOOJLE 서비스에 사용될 세종대학교 구성원들이 관심을 가질 만한 모든 정보를 수집하는 크롤러를 개발하는 과정이다.
세종대학교와 관련된 혹은 세종대학교 구성원들이 관심을 가질 만한 모든 주제에 대한 정보를 수집하기 위해, 적절한 웹 페이지들을 선정한다.
아래의 조건을 모두 만족할 경우, 해당 사이트에 올라오는 정보를 지속적으로 수집한다.
세종대학교 혹은 대학생 전반이 대상이 되는 관련 정보를 60% 이상 포함하고 있어야 한다.
가장 최근 게시물이 3년 이내에 작성된 것이여야 한다.
특정 재학생들에게 반드시 필요한 정보를 포함하고 있는 몇몇 사이트는, 상기의 조건을 충족하지 못하더라도 수집 대상에 포함시키도록 한다.
수집 대상이 되는 URL에는 내부 게시판의 정보를 지속적으로 수집하는 분류도 존재하지만, 해당 도메인 자체만 수집되는 대상도 포함하여야 한다.
위의 조건에 해당되는 사이트에서 정보를 수집하는 크롤러를 개발한다. 해당 크롤러는 정기적으로 대상 URL에 접속하여 지속적으로 새로운 정보를 수집하고 반영해야 한다. 데이터는 서비스의 성능에 영향을 끼치지 않는 선에서 최대치로 수집하도록 한다.
여러 플랫폼, 웹 사이트에 수집한 데이터는 각기 다른 유형의 정보를 포함하고 있는 비정형 데이터이다. 이를 하나의 통일된 형식으로 정규화하는 과정이 필요하다.