데이터 수집 및 정규화

간트 차트

SOOJLE 서비스에 사용될 세종대학교 구성원들이 관심을 가질 만한 모든 정보를 수집하는 크롤러를 개발하는 과정이다.

세종대학교와 관련된 혹은 세종대학교 구성원들이 관심을 가질 만한 모든 주제에 대한 정보를 수집하기 위해, 적절한 웹 페이지들을 선정한다.

아래의 조건을 모두 만족할 경우, 해당 사이트에 올라오는 정보를 지속적으로 수집한다.

위의 조건에 해당되는 사이트에서 정보를 수집하는 크롤러를 개발한다. 해당 크롤러는 정기적으로 대상 URL에 접속하여 지속적으로 새로운 정보를 수집하고 반영해야 한다. 데이터는 서비스의 성능에 영향을 끼치지 않는 선에서 최대치로 수집하도록 한다.

여러 플랫폼, 웹 사이트에 수집한 데이터는 각기 다른 유형의 정보를 포함하고 있는 비정형 데이터이다. 이를 하나의 통일된 형식으로 정규화하는 과정이 필요하다.

Last updated 6 years ago

Was this helpful?