SOOJLE
1.0.0
1.0.0
  • SOOJLE Document
  • 프로젝트 요약
  • 프로젝트 개요
    • 프로젝트 소개
    • 추진 배경 및 필요성
    • 프로젝트 내용
      • 기능적 요구사항
      • 비기능적 요구사항
    • 개발환경 및 팀 구성
    • 워크플로우
      • 계획 수립 & 설계
      • 데이터 수집 및 정규화
      • 인공지능 개발
      • 서비스 모듈 개발
      • 성능 평가 및 보고
    • 프로젝트 예산 내역
  • 사전조사 & 의사결정
    • 사전조사
      • 재학생 대상 사전조사
      • 수집 URL 대상 목록
        • 세종대학교 직할
        • 세종대학교 학과
        • 공식 공지사항
        • 세종대 평생교육원
        • 외부 웹사이트
      • 학습 모델 사전조사
        • LSA - 잠재 의미 분석
        • LDA - 잠재 디리클레 할당
        • Word2Vec - 워드투벡터
        • FastText - 패스트텍스트
    • 의사결정
      • 사용자 인증 방식 의사결정
      • 데이터베이스 의사결정
        • MySQL vs MongoDB 성능 분석
      • 토픽별 의사결정
      • 부가 기능 의사 결정
  • 프로젝트 설계
    • 시스템 구조 설계
    • 핵심 기능 설계
      • 데이터 크롤러 설계
      • 게시물 토픽 정의 및 분류
      • 사용자 관심분야 측정
      • 뉴스피드 설계
        • 사용자-문서 유사도(Recommendation Score)
        • FaS (관심 분야 및 유사도 측정 - 추가)
        • 토픽 뉴스피드 목록
      • 검색 알고리즘 설계
        • 검색 알고리즘 1차 설계
        • 검색 알고리즘 1차 개선안
        • 검색 알고리즘 2차 설계
    • 요구사항 목록
      • DB 요구사항
      • 기능 요구사항
      • 품질 요구사항
      • 관리 요구사항
  • DB
    • 구조 설계
    • 테이블 명세
  • 데이터 크롤러
    • 데이터 크롤러 개요
    • 크롤링 URL 선정
    • 크롤러 구현을 위한 사전조사
    • 크롤러 개발 과정
      • 크롤러 프로그램 설계
      • 크롤러 규격화
      • 크롤러 정규화
      • 데이터 정제 과정
      • 에러 핸들러 구현
      • 배포 환경 이식을 위한 Porting
    • Issue & Exception
    • 결과 보고
  • 인공지능 개발
    • 인공지능 개발 개요
    • NLP 스터디
      • Bag of Words(BoW)
      • Document Term Matrix(DTM)
      • TF-IDF(Term Frequency-Inverse Document Frequency)
      • 문서 유사도(Document Similarity)
    • 데이터 전처리 과정
    • 개발 과정
      • 토크나이저 구현
      • LDA 모델 학습 및 구현
    • LDA 학습 모델링
      • 1차 파라미터 튜닝 결과 (NUM_TOPICS)
      • 2차 파라미터 튜닝 결과 (NUM_TOPICS)
      • 3차 파라미터 튜닝 결과 (NUM_TOPICS)
      • NUM_TOPICS 파라미터 의사결정
      • 4차 파라미터 튜닝 결과 (PASESS, ITERATION)
      • 최종 학습 모델 명세
    • Word2Vec(FastText) 학습 모델링
    • Issue & Exception
    • 성능 분석 결과
  • BackEnd
    • 서버 구축 및 배포
      • SOOJLE 서버 구조
      • 상용 서버 (UWSGI + NGINX) 구축
      • HTTPS 서버 구현
    • API 문서 개요
    • API 목록
      • Analysis
      • Auth API
      • Newsfeed API
      • Post API
      • Search API
      • Admin API
    • 세종 Auth API
    • 통계 기능 설계
    • Issue & Exception
    • 성능 분석 결과
  • FRONTEND
    • 프론트엔드 설계 개요
    • 디자인 설계 의사결정
      • 디자인 컨셉 및 기능 정의
      • 컴포넌트 디자인
      • Logo Variation
    • 화면 흐름도
    • 페이지 UI 명세
      • Main Page
      • Header
      • Footer
      • Mobile Control Bar
      • Login Page
      • Timeline Page
      • Menu Page
      • Hyperlink Icons Page
      • Search Component & Mobile Search Modal
      • Search Page
      • Post Block
      • Snackbar
  • 프로그램 배포
    • 프로그램 개요
    • 시스템 아키텍쳐
    • 주요 기능 및 명세
    • 프로그램 테스트
    • 구현 결과물 배포
  • 마무리
    • References
  • SOOJLE AI
  • SEJONG AUTH
  • IML Tokenizer
  • SOOJLE Crawler
  • SOOJLE Frontend
  • SOOJLE Backend
Powered by GitBook
On this page
  • LDA 성능 평가
  • Coherence: -2.4954, Perplexity: -8.6283
  • Topic 리스트
  • 토픽 분석 예시
  • Word2Vec(FastText) 성능 평가
  • Visualization
  • 유사 단어 측정 예시

Was this helpful?

  1. 인공지능 개발

성능 분석 결과

PreviousIssue & ExceptionNext서버 구축 및 배포

Last updated 5 years ago

Was this helpful?

LDA 성능 평가

수치로 평가되는 Coherence 및 Perplexity 지표는 다음과 같다.

Coherence: -2.4954, Perplexity: -8.6283

해당 모델의 토픽을 시각화하여 나타낸 그래프이다.

Topic 리스트

>> Topic_list
(0, '0.077*"학점" + 0.054*"전공" + 0.050*"신청" + 0.042*"학기" ,...
(1, '0.027*"공모전" + 0.024*"작품" + 0.021*"접수" + 0.020*"영상",...
(2, '0.081*"영어" + 0.071*"시험" + 0.040*"토익" + 0.033*"공부",...
(3, '0.038*"취업" + 0.029*"지원" + 0.026*"기업" + 0.023*"교육" ,...
(4, '0.028*"세종대" + 0.018*"연구" + 0.016*"교수" + 0.015*"학생" ,...
(5, '0.347*"커뮤니티" + 0.189*"자유" + 0.040*"새내기" ,...
(6, '0.024*"총학생회" + 0.019*"학술" + 0.017*"정보원" + 0.015*"학생" ,...
(7, '0.032*"university" + 0.028*"파견" + 0.022*"학생" +,...
(8, '0.033*"점검" + 0.026*"음악" + 0.024*"장터" + 0.020*"공연" ,...
(9, '0.058*"기숙사" + 0.031*"학생" + 0.029*"신청" + 0.029*"입사" +,...
(10, '0.083*"교수" + 0.056*"교양" + 0.042*"학과" + 0.037*"학부",...
(11, '0.056*"정보 산업" + 0.026*"스포츠" + 0.021*"운동" + 0.017*"서울시",..
(12, '0.010*"일본" + 0.008*"한국" + 0.007*"여행" + 0.006*"노력",...
(13, '0.091*"신청" + 0.059*"수강" + 0.055*"학기" + 0.040*"과목" ,...
(14, '0.011*"기말" + 0.011*"korea" + 0.008*"students" ,...
(15, '0.068*"추천" + 0.052*"공지" + 0.043*"학생" + 0.032*"설명회" + ,...
(16, '0.067*"봉사" + 0.051*"활동" + 0.037*"세종" + 0.029*"학생" ,...
(17, '0.113*"면접" + 0.038*"질문" + 0.022*"면접관" + 0.019*"지원자" ,...
(18, '0.031*"소식" + 0.031*"서울" + 0.029*"방송국" + 0.028*"news",...
(19, '0.072*"대회" + 0.042*"독서" + 0.038*"고전" + 0.024*"인증" ,...
(20, '0.072*"모집" + 0.047*"동아리" + 0.035*"동아리&모임" + 0.033*"활동" ,..
(21, '0.041*"호텔" + 0.040*"경영" + 0.038*"관광" + 0.031*"네이버카페",...
(22, '0.018*"철회" + 0.017*"사물함" + 0.016*"신청" + 0.015*"강철" ,...
(23, '0.044*"근무" + 0.032*"지원" + 0.032*"경력" + 0.028*"기업" ,...
(24, '0.060*"장학금" + 0.056*"학생" + 0.051*"학기" + 0.033*"장학",...
(25, '0.065*"제출" + 0.049*"서류" + 0.047*"지원" + 0.030*"휴학" ,...

토픽 분석 예시

>>> get_topics("아 장학금 받고 싶다 ㅠㅠ")
array([0.01923082, 0.01923082, 0.01923082, 0.01923082, 0.01923082,
       0.01923082, 0.01923082, 0.01923082, 0.01923082, 0.01923082,
       0.01923082, 0.01923082, 0.01923082, 0.01923082, 0.01923082,
       0.01923082, 0.01923082, 0.01923082, 0.01923082, 0.01923082,
       0.01923082, 0.01923082, 0.01923082, 0.01923082, 0.51922953,
       0.01923082])
>>> get_topics(doc)
array([0.        , 0.        , 0.        , 0.        , 0.        ,     "
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.04859713, 0.        , 0.        , 0.05291525,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.86571997, 0.        ,
       0.        ])

Word2Vec(FastText) 성능 평가

워드투벡터의 경우, 수치로서 표현되는 결과가 존재하지 않기 때문에 모델의 시각화 및 각 단어별 케이스 테스트를 실시하여 성능을 확인하였다.

Visualization

유사 단어 측정 예시

Keyword: 파이썬

Keyword: 덮밥