교차언어검색 및 자동분류 테스트컬렉션 구축과 평가
Development and Evaluation of Test Collections for Cross Language Information Retrieval and Automatic Categorization
Lee, Seok-Hoon; Maeng, Seong-Hyun; Woo, Hee-Seon; Kim, Pyung; Lee, Bu-Il; Jang, Joong-Hyuk; Gwak, Min-Sin; Jo, Sook-Hyun; Kim, Woon; Bak, Hyun-Wook; Yoon, Yeo-Joon
Korea Institute of Science and Technology Information
funder : 국무조정실
Ⅱ. 연구개발의 목적 및 중요성
국제적으로 위상을 굳혀가고 있는 NTCIR의 제3차 Workshop에 교차언어 검색분야에 실행위원자격의 파트너로 참여하여 국제적인 협업의 정보검색/분류시스템 평가체제를 공동 구축한 것은 보다 현실적이고 국제적으로 공인된 평가를 수행할 수 있는 환경을 구축하는 것이다. 또한 한글문서에 대한 국제적인 관심을 외국으로부터 유도하여 한글문서 정보검색/분류시스템의 개발을 촉진시킨다. 아울러 교차언어검색 및 자동분류 기능을 강화하여 HANTEC의 확장과 품질향상을 기할 수 있다.
Ⅲ. 연구개발의 내용 및 범위
한글문서로 결정된 1994년도 한국경제신문을 대상으로 30개의 질의와 1998~1999년도 대만문서(중국어판, 영어판)과 일본문서(일본어판, 영어판)를 대상으로 50개 질의를 생성하고, 이들 질의의 각 국가별 번역작업과 한글문서에 대한 30개 질의의 적합성을 판정하였고 적합성 판정결과에 대한 종합․ 정리발표를 하였다. 또한 판정결과에 대한 통계분석 및 평가를 실시하여 한글문서 테스트 컬렉션의 특성을 조사하고, 2001년에 실험적으로 구축된 한글문서 정보분류시스템을 위한 테스트 컬렉션의 분류체계 세분화 및 특성조사를 위한 기술적인 내용을 다루었다.
Ⅳ. 연구개발결과
CLIR의 한글문서 정보검색시스템 평가를 위한 테스트 컬렉션 및 한글문서 자동분류시스템 평가를 위한 테스트 컬렉션과 특성분석결과로써 부록과 CD를 참조한다.
Ⅴ. 연구개발의 활용 계획
본 과제를 통해 구축된 CLIR 테스트 컬렉션 중에서 한글문서에 관한 결과는 정보검색 분야의 연구자 및 개발자에게 배포되어 정보검색시스템의 신뢰도 측정목적으로 사용될 수 있으며, 학술대회에서의 한글문서에 대한 연구결과 발표, 또는 제품비교 등의 목적으로 활용될 것이며 국내적으로 뿐만아니라 NTCIR에 참여했던 국제적인 기관의 한글문서 검색에 대한 관심도를 진작시킴으로써 국제적인 활용도가 증가할 것으로 기대된다.
한글문서 정보분류시스템의 평가체제를 위한 소규모 테스트 컬렉션과 그에 대한 특성은 본격적인 테스트컬렉션으로서 역할을 수행하기 시작할 것이고,국내적으로는 HANTEC과 더불어 한글문서 정보검색 및 분류시스템을 평가할 수 있는 환경이 조성되는데 큰 공헌을 하게 될 것이다.

Ⅱ. Objective of the study and its importance
Our major purposes of the research are the follows : The one is development and evaluation of test collections for cross-language retrieval and automatic categorization, and the other is establishment of the international cooperation network in developing the evaluation system for the information retrieval related fields. Through these purposes, we can get involved in a very influential network which makes the information retrieval people around the world interested in korean documents as well as we can have more expanded korean test collection HANTEC with providing domestic researchers with advanced evaluation systems.
Ⅲ. Content and scope of the study
We created 30 topics for the korean document set of 1994 Korean Economy Newspaper and 50 topics for the Taiwanese and Japanese documents set of 1998 ~ 1999 Newspapers of both countries, and translated into other languages to have the topics of 4 language-versions. We carried out the relevance judgment of the documents pooled from the runs submitted by the organizations who tried to retrieve korean documents and reported the NTCIR Workshop 3. We analyzed the relevance judgment results for the korean documents set to find the characteristics of the koran test collection with respect to the exhaustibility of relevance documents, topic characteristics in terms of difficulty and others.
Also we modified and refined the korean test collection experimentally constructed in 2001 for the evaluation of korean document automatic classification systems and exploited the characteristics in terms of the similarity measure and correct classification rate.
Ⅳ. Result of the study
The Hangual test collection for the Cross Language Information Retrieval Systems and the Hangual test collection for the automatic information document classification systems are provided with the exploited characteristics.
Ⅴ. Application schemes
These test collections are distributed to the information retrieval system developers or researchers in not only korea but also the overseas so that they can use them as an evaluation test bed for their researches and these will be used as an official evaluation systems for comparing the retrieval systems in the conference or even in the market. After all, this research results lead to the development of the information retrieval system or information classification system for korean language document.
교차언어; 테스트컬렉션; 적합성 판정; 질의; 검색시스템 순위; 자동분류; Cross Language; Test Collection; Relevance Judgment; Topic; System Ranks; Automatic Categorization
