Park, Jin-Seo; No, Gyeong-Ran; Lee, Jun-Yeong; An, Se-Jeong; Lee, Bang-Rae; Gwon, O-Jin; Gang, Jong-Seok; Gu, Yeong-Deok; Park, Jong-Gyu; Son, Eun-Su; Park, Jun-Hwan
Publisher
한국과학기술정보연구원 Korea Institute of Science and Technology Information
Publication Year
2015-12
Description
funder : 미래창조과학부 funder : KA agency : 한국과학기술정보연구원 agency : Korea Institute of Science and Technology Information
Abstract
□ 연구개발의 목표
○ 한글과 영문 데이터 전처리 기능을 확장하고 사용자 편의성을 극대화함으로써 빅데이터 시대에 보통의 지식 수준을 보유한 일반인이 활용할 수 있는 정보분석솔루션의 개발
□ 연구내용
○ 한글 및 영문 자연어처리를 통한 동시발생행렬 생성과 오픈 S/W와 연계되는 정보분석툴 개발
∙ KnowledgeMatrix는 영어뿐만아니라 한글 자연어처리 및 데이터 전처리 기능을 지원함으로써 논문 및 특허 DB 이외에도 다양한 비정형텍스트의 데이터 전처리 기능을 지원
○ 2014년 파일럿으로 개발한 KnowledgeMatrix Plus의 기능 개선
∙ 2014년 파일럿으로 개발한 KnowledgeMatrix 성능테스트를 통해 2015년 기능 개선항목(에러, 보완, 신규로 구분)을 점검하고 올해 사업에 반영
○ KnowledgeMatrix 활용 매뉴얼 작성
□ 연구결과
○ 주요 성능개선
∙ Web of Science 데이터 2,864건(텍스트 파일, 17.1MB)을 대상으로 import, export, 네트워크 분석을 위한 행렬 생성으로 구분하여 작년에 파일럿으로 개발한 KnowledgeMatrix 2014년 버전과 현재 성능개선 중인 2015년 버전의 성능 측정을 수행
○ 2-mode 및 1-mode matrix 정의 및 시스템 구현
∙ KnolwedgeMatrix에서는 전통적인 raw record 기반의 1-mode 행렬 생성뿐만 아니라 최근 관심이 증가하고 있는 2-mode 행렬(행과 열이 다른 필드)과 raw record 이외의 특정 필드 기준의 1-mode 행렬 생성 기능을 추가
○ Pajek, VOSviewr, Gephi 연계 분석 구현
∙ 기존에는 raw record 기반의 1-mode 동시출현 분석만 가능하였으나, 2015년 행렬 계산 기능 개선을 통해 다음 예시와 같이 raw record 이외의 다른 필드 기반 1-mode, 다양한 2-mode 네트워크 분석도 지원
∙ 이와 함께 기존에는 제공하지 않았던 1-mode network에서 노드의 속성(레코드 수)과 2-mode network에서 노드의 집단까지 동시 출력
Ⅳ. Research & Development Outcomes
○ Improvement of processing speed for co-occurrence matrix calculation and export function.
○ Definition of 1-mode matrix and 2-mode matrix and implementation of KnowledgeMatrix.
○ Realization of exporting to Pajek, VOSviewer, Gephi in KnowledgeMatrix.
Keyword
Information analysis system; natural language processing; matrix; bibliometrics; visualization