3.2차 중간 보고

  •                  종합설계 프로젝트 2차 중간보고서 요약

팀명

NLP A

제출일

2012 5 3

프로젝트 제목

Travel Information Service with crawler and text-mining technique

설계프로젝트 개요

프로젝트 수행 내용 및 중간 결과

프로젝트 요약문

여행을 다녀온 사람들이 작성해 놓은 여러 여행기를 가지고 각 문서마다 다녀온 장소를 추출하여 각 문서마다 나온 장소를 가지고 사이트에서 지역을 검색한 사람에게 그 지역의 여행기에서 장소를 순위별로 보여주어 사용자에게 다른 여행사이트와 달리 여행기에 대한 정보를 보여주며 시스템의 기능 중 크롤러, DB, 형태소 분석, UI기 능들을 나누어 각각을 구현하였다.

마일스톤 수행 내용

수집 모듈

  • API 쿼리문 작성
  • API로부터 URL 목록 받아오기
  • URL목록으로부터 HTML 문서 수집하기
  • DB에 등록
UI
  • 지도 플래시 검색
  • 장소 텍스트 아코디언 표로의 표현
  • 아코디언 표에서의 클릭 시 위치로의 이동
DB 구조
전체적인 DB구조를 구현
  • 문서 테이블
  • 지역 테이블
  • 방문 테이블
  • 장소 테이블
  • 탐색 테이블
형태소 분석기와 DB의 연동
  • 1차 추출된 장소를 지역 검색 API를 통해 2차 추출
  • 탐색 테이블을 이용한 빠른 검색 활용
  • 장소를 DB에 저장하여 테이블, 장소 테이블을 형성
DB와 클라이언트의 연동
  • 사용자가 지역검색 시 DB에 저장되어 있던 장소 정보를 방문 테이블과 장소 테이블을 통해서 가져와 지도에 출력한다.
UTF-8문서의 변환
  • 수집 모듈 결과 텍스트 정보가 UTF-8이 었던 것을 형태소 분석기에서 활용하고자 euc-kr로 변환

동영상

2차 중간보고 영상

다음 마일스톤 일정

수집 모듈

  • 수집 모듈의 콘솔 프로그램화
  • 수집 텍스트의 쓰레기 값 처리
  • 다양한 소스의 텍스트 수집 구현
  • DB트랜잭션 처리
  • 로그 파일 작성 기능 추가
형태소 분석기 & DB
  • tf-idf를 이용한 장소의 정확성 검사
  • 장소 검색시에 대한 결과 표현
  • 시간 주기로의 갱신
  • 장소에 대한 정보 추출
UI
  • 장소 정보 표현
  • 장소 검색 연동
  • 디자인 정리
문서 분류
  • 여러 여행기를 지역별로 분류하는 작업