SOOJLE
1.0.0
1.0.0
  • SOOJLE Document
  • 프로젝트 요약
  • 프로젝트 개요
    • 프로젝트 소개
    • 추진 배경 및 필요성
    • 프로젝트 내용
      • 기능적 요구사항
      • 비기능적 요구사항
    • 개발환경 및 팀 구성
    • 워크플로우
      • 계획 수립 & 설계
      • 데이터 수집 및 정규화
      • 인공지능 개발
      • 서비스 모듈 개발
      • 성능 평가 및 보고
    • 프로젝트 예산 내역
  • 사전조사 & 의사결정
    • 사전조사
      • 재학생 대상 사전조사
      • 수집 URL 대상 목록
        • 세종대학교 직할
        • 세종대학교 학과
        • 공식 공지사항
        • 세종대 평생교육원
        • 외부 웹사이트
      • 학습 모델 사전조사
        • LSA - 잠재 의미 분석
        • LDA - 잠재 디리클레 할당
        • Word2Vec - 워드투벡터
        • FastText - 패스트텍스트
    • 의사결정
      • 사용자 인증 방식 의사결정
      • 데이터베이스 의사결정
        • MySQL vs MongoDB 성능 분석
      • 토픽별 의사결정
      • 부가 기능 의사 결정
  • 프로젝트 설계
    • 시스템 구조 설계
    • 핵심 기능 설계
      • 데이터 크롤러 설계
      • 게시물 토픽 정의 및 분류
      • 사용자 관심분야 측정
      • 뉴스피드 설계
        • 사용자-문서 유사도(Recommendation Score)
        • FaS (관심 분야 및 유사도 측정 - 추가)
        • 토픽 뉴스피드 목록
      • 검색 알고리즘 설계
        • 검색 알고리즘 1차 설계
        • 검색 알고리즘 1차 개선안
        • 검색 알고리즘 2차 설계
    • 요구사항 목록
      • DB 요구사항
      • 기능 요구사항
      • 품질 요구사항
      • 관리 요구사항
  • DB
    • 구조 설계
    • 테이블 명세
  • 데이터 크롤러
    • 데이터 크롤러 개요
    • 크롤링 URL 선정
    • 크롤러 구현을 위한 사전조사
    • 크롤러 개발 과정
      • 크롤러 프로그램 설계
      • 크롤러 규격화
      • 크롤러 정규화
      • 데이터 정제 과정
      • 에러 핸들러 구현
      • 배포 환경 이식을 위한 Porting
    • Issue & Exception
    • 결과 보고
  • 인공지능 개발
    • 인공지능 개발 개요
    • NLP 스터디
      • Bag of Words(BoW)
      • Document Term Matrix(DTM)
      • TF-IDF(Term Frequency-Inverse Document Frequency)
      • 문서 유사도(Document Similarity)
    • 데이터 전처리 과정
    • 개발 과정
      • 토크나이저 구현
      • LDA 모델 학습 및 구현
    • LDA 학습 모델링
      • 1차 파라미터 튜닝 결과 (NUM_TOPICS)
      • 2차 파라미터 튜닝 결과 (NUM_TOPICS)
      • 3차 파라미터 튜닝 결과 (NUM_TOPICS)
      • NUM_TOPICS 파라미터 의사결정
      • 4차 파라미터 튜닝 결과 (PASESS, ITERATION)
      • 최종 학습 모델 명세
    • Word2Vec(FastText) 학습 모델링
    • Issue & Exception
    • 성능 분석 결과
  • BackEnd
    • 서버 구축 및 배포
      • SOOJLE 서버 구조
      • 상용 서버 (UWSGI + NGINX) 구축
      • HTTPS 서버 구현
    • API 문서 개요
    • API 목록
      • Analysis
      • Auth API
      • Newsfeed API
      • Post API
      • Search API
      • Admin API
    • 세종 Auth API
    • 통계 기능 설계
    • Issue & Exception
    • 성능 분석 결과
  • FRONTEND
    • 프론트엔드 설계 개요
    • 디자인 설계 의사결정
      • 디자인 컨셉 및 기능 정의
      • 컴포넌트 디자인
      • Logo Variation
    • 화면 흐름도
    • 페이지 UI 명세
      • Main Page
      • Header
      • Footer
      • Mobile Control Bar
      • Login Page
      • Timeline Page
      • Menu Page
      • Hyperlink Icons Page
      • Search Component & Mobile Search Modal
      • Search Page
      • Post Block
      • Snackbar
  • 프로그램 배포
    • 프로그램 개요
    • 시스템 아키텍쳐
    • 주요 기능 및 명세
    • 프로그램 테스트
    • 구현 결과물 배포
  • 마무리
    • References
  • SOOJLE AI
  • SEJONG AUTH
  • IML Tokenizer
  • SOOJLE Crawler
  • SOOJLE Frontend
  • SOOJLE Backend
Powered by GitBook
On this page
  • 개요
  • USER
  • POSTS
  • NEWSFFED_OF_TOPIC
  • DOMAIN
  • URL
  • POST_INFO
  • DATE
  • LASTLY_POST
  • TAG_INFO
  • LOG
  • SEARCH_LOG
  • SEARCH_REALTIME
  • VARIABLE
  • ================================================
  • posts 테이블
  • users 테이블
  • url 테이블
  • domain 테이블
  • lastly_post 테이블
  • tag_info 테이블
  • ex_url 테이블
  • variable 테이블

Was this helpful?

  1. DB

테이블 명세

구조 설계를 바탕으로 실제 DBMS에서 구현할 쿼리를 작성한다.

Previous구조 설계Next데이터 크롤러 개요

Last updated 5 years ago

Was this helpful?

개요

이를 통해 실제로 DBMS 내에 구현할 해당 테이블에 대하여 설명한다.

USER

POSTS

NEWSFFED_OF_TOPIC

DOMAIN

URL

POST_INFO

DATE

LASTLY_POST

TAG_INFO

LOG

SEARCH_LOG

SEARCH_REALTIME

VARIABLE

자세한 테이블 구조는 아래 링크 참고

================================================

posts 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

title

글 제목

200자 제한

string

title_token

제목 토큰

(공백으로 스플릿시킨 리스트)

<list:string>

author

작성자

string

0

post

글 내용

200자 제한

string

tag

관여 태그

<list:string>

O

[ ]

img

게시물의 첫 이미지

string

0

url

게시물 URL

string

hashed

게시물 해쉬

(제목 + 내용 + 작성자)

md5 hash (약 32자)

string

info

게시물 출처 식별명

string

O

view

조회수

int

0

fav_cnt

좋아요 수

int

0

token

형태소 분석한 토큰 리스트

<list:string>

O

[ ]

date

작성/수집 날짜

date

now()

end_date

만료 날짜(공모전 등 한정)

date

O

login

로그인 유무

로그인을 해야함: 1

로그인을 안해도 됨: 0

int

topic

게시물의 LDA 토픽

[0.X, 0.X, ...]

<list:float>

인덱스 적용 칼럼

용도

hashed

게시물 중복 검사

date

게시물 시간순 정렬

users 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

user_id

사용자 학번/아이디

string

user_pw

사용자 비밀번호 해쉬

string

user_name

사용자 이름

string

user_major

사용자 직책/학과

string

O

topic

사용자의 LDA 토픽

[0.X, 0.X, ...]

<list:float>

tag

사용자 관심도 태그

사용자가 가장관심을 준 TOP X개 태그 리스트

<list:string>

O

[ ]

fav_list

사용자가 좋아요 누른 게시물

(해당 게시물의 토픽, 태그를 그대로 가져옴)

최대 X개

<list>{

_id:<oid>, topic:<list>,

tag:<list>,

}

O

[ ]

view_list

사용자가 접근한 게시물

최대 X개

<list>{

_id:<oid>, topic:<list>, tag:<list>

}

O

[ ]

search_list

사용자가 검색한 키워드

최대 X개

<list:string>

O

[ ]

newsfeed_list

사용자가 접근한 뉴스피드 리스트 및 빈도수

<list>{

newsfeed_id: <oid>, topic:<list>, tag:<list>, count:<int>,

}

O

[ ]

인덱스 적용 칼럼

용도

user_id

로그인 성능 향상

url 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

url

수집 대상 url

string

info

수집 대상 식별 정보

string

title_tag

수집 대상 정적 태그 리스트

<list:string>

login

로그인 필요 여부

필요: 1

필요X: 0

int

crawling

수집 여부

True: 수집 가능

False: 수집 불가

boolean

O

stay_cnt

몇 사이클동안 쉴지 결정하는 횟수

int

O

10

domain 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

title

도메인 제목

string

title_token

제목 토큰

(띄어쓰기로 스플릿)

<list:string>

date

수집 날짜

date

post

도메인 설명

string

img

도메인 첫 이미지

string

url

도메인 URL

string

tag

관여 태그 리스트

<list:string>

[ "사이트", ]

login

로그인 여부

1: 로그인 필수

0: 로그인 불필요

int

0

view

조회

int

fav_cnt

좋아요 수

int

0

token

형태소 분석 태그

<list:string>

lastly_post 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

info_id

타겟 사이트 식별 값

string

title

가장 최근 게시물 제목

string

인덱스 적용 칼럼

용도

title

갱신 검사 성능 향상

tag_info 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

tag_id

태그 명칭

string

tag_string

해당 태그를 갖는 조건별 단어

<list:string>

인덱스 적용 칼럼

용도

tag_id

검사 성능

ex_url 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

domain

수집된 외부 도메인

(해당 도메인은 타 테이블에 등록된 URL이 아니여야 함)

string

inter_url

해당 도메인 내부의 URL

<list:string>

variable 테이블

칼럼명

칼럼 설명

Type

Null

Default

_id

PK

oid

key

식별

string

value

데이터

<object>

USER Collection
POST Collection
NEWSFFED_OF_TOPIC Collection
DOMAIN Collection
URL Collection
POST_INFO Collection
DATE Collection
LASTLY_POST Collection
TAG_INFO Collection
LOG Collection
SEARCH_LOG Collection
SEARCH_REALTIME Collection
VARIABLE Collection
https://ovenapp.io/view/5MmXO863ZwaeNOJbWfs57F1S4qwDBTHq/GX1br