SOOJLE
1.0.0
1.0.0
  • SOOJLE Document
  • 프로젝트 요약
  • 프로젝트 개요
    • 프로젝트 소개
    • 추진 배경 및 필요성
    • 프로젝트 내용
      • 기능적 요구사항
      • 비기능적 요구사항
    • 개발환경 및 팀 구성
    • 워크플로우
      • 계획 수립 & 설계
      • 데이터 수집 및 정규화
      • 인공지능 개발
      • 서비스 모듈 개발
      • 성능 평가 및 보고
    • 프로젝트 예산 내역
  • 사전조사 & 의사결정
    • 사전조사
      • 재학생 대상 사전조사
      • 수집 URL 대상 목록
        • 세종대학교 직할
        • 세종대학교 학과
        • 공식 공지사항
        • 세종대 평생교육원
        • 외부 웹사이트
      • 학습 모델 사전조사
        • LSA - 잠재 의미 분석
        • LDA - 잠재 디리클레 할당
        • Word2Vec - 워드투벡터
        • FastText - 패스트텍스트
    • 의사결정
      • 사용자 인증 방식 의사결정
      • 데이터베이스 의사결정
        • MySQL vs MongoDB 성능 분석
      • 토픽별 의사결정
      • 부가 기능 의사 결정
  • 프로젝트 설계
    • 시스템 구조 설계
    • 핵심 기능 설계
      • 데이터 크롤러 설계
      • 게시물 토픽 정의 및 분류
      • 사용자 관심분야 측정
      • 뉴스피드 설계
        • 사용자-문서 유사도(Recommendation Score)
        • FaS (관심 분야 및 유사도 측정 - 추가)
        • 토픽 뉴스피드 목록
      • 검색 알고리즘 설계
        • 검색 알고리즘 1차 설계
        • 검색 알고리즘 1차 개선안
        • 검색 알고리즘 2차 설계
    • 요구사항 목록
      • DB 요구사항
      • 기능 요구사항
      • 품질 요구사항
      • 관리 요구사항
  • DB
    • 구조 설계
    • 테이블 명세
  • 데이터 크롤러
    • 데이터 크롤러 개요
    • 크롤링 URL 선정
    • 크롤러 구현을 위한 사전조사
    • 크롤러 개발 과정
      • 크롤러 프로그램 설계
      • 크롤러 규격화
      • 크롤러 정규화
      • 데이터 정제 과정
      • 에러 핸들러 구현
      • 배포 환경 이식을 위한 Porting
    • Issue & Exception
    • 결과 보고
  • 인공지능 개발
    • 인공지능 개발 개요
    • NLP 스터디
      • Bag of Words(BoW)
      • Document Term Matrix(DTM)
      • TF-IDF(Term Frequency-Inverse Document Frequency)
      • 문서 유사도(Document Similarity)
    • 데이터 전처리 과정
    • 개발 과정
      • 토크나이저 구현
      • LDA 모델 학습 및 구현
    • LDA 학습 모델링
      • 1차 파라미터 튜닝 결과 (NUM_TOPICS)
      • 2차 파라미터 튜닝 결과 (NUM_TOPICS)
      • 3차 파라미터 튜닝 결과 (NUM_TOPICS)
      • NUM_TOPICS 파라미터 의사결정
      • 4차 파라미터 튜닝 결과 (PASESS, ITERATION)
      • 최종 학습 모델 명세
    • Word2Vec(FastText) 학습 모델링
    • Issue & Exception
    • 성능 분석 결과
  • BackEnd
    • 서버 구축 및 배포
      • SOOJLE 서버 구조
      • 상용 서버 (UWSGI + NGINX) 구축
      • HTTPS 서버 구현
    • API 문서 개요
    • API 목록
      • Analysis
      • Auth API
      • Newsfeed API
      • Post API
      • Search API
      • Admin API
    • 세종 Auth API
    • 통계 기능 설계
    • Issue & Exception
    • 성능 분석 결과
  • FRONTEND
    • 프론트엔드 설계 개요
    • 디자인 설계 의사결정
      • 디자인 컨셉 및 기능 정의
      • 컴포넌트 디자인
      • Logo Variation
    • 화면 흐름도
    • 페이지 UI 명세
      • Main Page
      • Header
      • Footer
      • Mobile Control Bar
      • Login Page
      • Timeline Page
      • Menu Page
      • Hyperlink Icons Page
      • Search Component & Mobile Search Modal
      • Search Page
      • Post Block
      • Snackbar
  • 프로그램 배포
    • 프로그램 개요
    • 시스템 아키텍쳐
    • 주요 기능 및 명세
    • 프로그램 테스트
    • 구현 결과물 배포
  • 마무리
    • References
  • SOOJLE AI
  • SEJONG AUTH
  • IML Tokenizer
  • SOOJLE Crawler
  • SOOJLE Frontend
  • SOOJLE Backend
Powered by GitBook
On this page
  • 크롤링 URL 목록
  • URL 선정 조건
  • URL 목록
  • 세종대학교 직할 40개
  • 세종대학교 외부 - 57개 학과 공식사이트
  • 학과 외부 카페
  • 대표 도메인 – 145개

Was this helpful?

  1. 데이터 크롤러

크롤링 URL 선정

Previous데이터 크롤러 개요Next크롤러 구현을 위한 사전조사

Last updated 5 years ago

Was this helpful?

크롤링 URL 목록

URL 선정 조건

아래의 조건을 모두 만족할 경우, 해당 사이트에 올라오는 정보를 지속적으로 수집한다.

  • 세종대학교 혹은 대학생 전반이 대상이 되는 관련 정보를 60% 이상 포함하고 있어야 한다.

  • 가장 최근 게시물이 3년 이내에 작성된 것이어야 한다.

  • 특정 재학생들에게 반드시 필요한 정보를 포함하고 있는 몇몇 사이트는, 상기의 조건을 충족하지 못하더라도 수집 대상에 포함시키도록 한다.

  • 수집 대상이 되는 URL에는 내부 게시판의 정보를 지속적으로 수집하는 분류도 존재하지만, 해당 도메인 자체만 수집되는 대상도 포함하여야 한다.

URL 목록

  • 세종대학교 직할 : 세종대학교 본교에 소속된 관련 직할 사이트

  • 세종대학교 학과 : 세종대학교에 소속된 모든 학과 사이트

  • 세종대학교 외부 : 세종대학교 관련 타 플랫폼 웹사이트

  • 외부 웹사이트 : 세종대학교 구성원들에게 도움이 되는 정보를 가지고

    있는 타 플랫폼 웹사이트

세종대학교 직할 40개

  • 교내 공지 (12개)

  • 학생경력개발시스템 (4개)

  • 학술정보원 (3개)

  • 홍보원 (6개)

  • 대양휴머니티칼리지 (5개)

  • 학생생활상담소 (2개)

  • SKBS (5개)

  • 행복기숙사 (1개)

  • 두드림 (2개)

세종대학교 외부 - 57개 학과 공식사이트

  • 중국통상학과 (2개)

  • 역사학과 (2개)

  • 경제통상학과 (2개)

  • 행정학과 (1개)

  • 경영학부 (2개)

  • 호텔관광대학 (1개)

  • 소프트웨어학과 (1개)

  • 전자정보통신공학과 (2개)

  • 정보보호학과 (2개)

  • 에너지자원공학과 (1개)

  • 나노신소재공학과 (3개)

  • 국방시스템공학과 (1개)

  • 산업디자인학과 (2개)

  • 디자인이노베이션 (3개)

  • 만화애니메이션학과 (1개)

  • 체육학과 (2개)

  • 무용학과 (2개)

  • 법학부 (1개)

  • 물리학과 (1개)

  • 일어일문학과 (1개)

  • 건축학과 (2개)

  • 컴퓨터공학과 (3개)

  • 지능기전공학부 (3개)

학과 외부 카페

  • 음악과 (1개)

  • 만화애니메이션학과 (1개)

  • 수학통계학부 (1개)

  • 국어국문학과 (1개)

  • 환경에너지공간융합학과 (1개)

  • 화학과 (1개)

  • 전자정보공학대학 (1개)

  • 지능기전공학부 (1개)

    학교 외부 사이트

  • 국제 교환학생 (1개)

  • 세종나누리 (1개)

  • 동아리&모임 (1개)

  • 세종알리 (1개)

  • 총학생회 (3개)

  • 전자도서관 (1개)

    외부 웹사이트 – 38개

  • 세종대백과 (1개)

  • 에브리타임 (2개)

  • 씽굿 (1개)

  • 캠퍼스픽 (7개)

  • 세종대역 (13개)

  • 전자도서관 (1개)

  • 데티즌 (2개)

  • 잡코리아 (3개)

  • 세종대공기밥 (1개)

  • 이공계인력중계센터 (1개)

  • 세종대 잡솔루션 (4개)

  • 인디드 (1개)

  • 세종대갤러리 (1개)

대표 도메인 – 145개

세종대학교에 관련한 사이트 또는 세종대학교 구성원에게 도움이 될 것 같은 사이트를 선정하여서 크롤링 대상뿐만 아니라, 이렇게 도메인으로도 리스트를 확보하였다.