본 연구 사업은 개방형 국내외 협동연구과제로서 (1) Virtual Science Brain(VSB) 구축과 응용을 위한 원천 기술 연구와 (2) 국제협력을 통한 탈추격형 연구체제 수립을 목표로 연구를 수행하였다. 전문가 수준의 다차원 지식(multifaceted knowledge)을 자동 추출하고 활용·공유할 수 있는 대규모 학술적 과학 지식 메모리(Virtual Scientific Knowledge Memory) 자동 구축을 위한 기반 연구와 함께, 학술적 과학 지식 메모리 기반의 심층지식 제공을 위한 서비스 프로토타입을 개발하였다.
또한 국제 협력 연구를 통한 과학기술지식처리 분야에서의 탈추격형 연구체계를 수립하기 위해서 세계적 수준의 연구 역량을 확보하고 있는 일본 동경대학교 Tsujii 연구실와의 원천/응용 기술 상호교류를 추진하고, 국제적 수준급의 원천 기술을 확보하고 있는 한국과학기술원 IRNLP 연구실과의 국내 협력 연구 체계를 수립하여, 중장기적 글로벌 공동연구체제 확립을 위한 노력을 경주하였다.
○ Qualitative results
1. Fundamental technology transfer for extracting deep domain knowledge from literature
■ Biological ontology-based technical term recognition engine
■ High level syntactic parsing engine for Biological texts
■ Generalized Concordance Lists (GCL) query processing engine for efficient knowledge extraction
2. System Construction for utilizing and share fundamental language resources that play an important role to recognize and extract SDK.
3. Development of natural language analysis tools to recognize and extract SDK.
4. Development of Machine Learning-based deep domain knowledge analyzer.
5. Development of sentence classification technology based on research purpose and methodology using SDA(Structured Digital Abstract).
6. Development of procedural knowledge modeling technology
7. Corpus construction for recognizing procedural knowledge
8. Design of a SDK-based massive academic scientific knowledge memory.
9. Development of the SDK and DDK service model and application.
■ Slide navigation search
■ Dynamic triple analysis browsing
■ Dynamic table-based search
■ Deep domain knowledge navigation
○ Quantitative results
1. Localizing MEDIE DB that includes information of biological terms and their relations from 19,000,000 biological abstracts.
2. Performance of automatic sentence classification based on the research purpose and the methodology
■ Research purpose : 87% F1-measure
■ Research methodology : 79% F1-measure
3. Corpus construction for extracting Procedural Knowledge
■ Spinal disease domain : 1,309 abstracts
■ Gastric cancer domain : 360 abstracts
4. Performance of extracting Procedural Knowledge
(Overall precision: 60%)
Keyword
텍스트 마이닝; 지식 추출; 바이오 인포매틱스; 자연어처리; 정보검색; Text Mining; Knowledge Acquisition; Bioinformatics; Natural Language Processing; Information Retrieval