한국과학기술정보연구원 Korea Institute of Science and Technology Information
Publication Year
2012-12
Description
funder : 교육과학기술부 agency : 한국과학기술정보연구원 agency : Korea Institute of Science and Technology Information
Abstract
Ⅲ. 연구개발의 내용 및 범위
○ 내용 정보 추출 기술 개발
- 문장 및 단어 복원 관련 기존 기술 고도화
○ 형식 정보 추출 기술 개발
- PDF 문헌의 형태적 보존을 위한 원문 스타일링 기술 개발
○ 구조 정보 추출 기술 개발
- 원문 내의 구조적 정보(장, 절, 항)에 대한 자동 인식 및 추출 변환 기술 개발
Ⅲ. The contents and scope of research and development
○ Semantic Information Extraction
- Development of an advanced reconstruction technique for the splitted sentences and words.
○ Format Information Extraction
- Development of a recognition and extraction technique for the given PDF text style.
○ Sentence Discourse Role Recognition
- Development of a discourse role recognition technique for sentences in PDF texts.
Keyword
Word reconstruction; Sentence reconstruction; PDF processing; Sentence discourse role detection; Natural Language Processing