한국과학기술정보연구원 Korea Institute of Science and Technology Information
Publication Year
1996-05
Description
funder : 국무조정실 agency : 한국과학기술정보연구원 agency : Korea Institute of Science and Technology Information
Abstract
자동색인 이론은 구미어를 중심으로 발달되어 왔다. 그러나 굴절어인 구미어에 비해 한글은 특성상 단어의 개념이 애매하고, 접사가 발달되어 있어 이들 이론을 그대로 적용하는 것은 많은 문제를 안고 있다.한글 자동색인 문제는 체언어절의 선별, 체언어절에서 조사부분 제거 그리고 복합명사 처리의 문제를 포함한다. 본 연구에서는 체언어절 선별과 조사부분 제거를 위하여 기능어에 촛점 두어 은닉 마르코프 모델에 기반한 태거를 이용하며, 복합명사 분석을 위하여 정보이론의 상대 엔트로피를 이용한 모델을 제안하고 실험한다.1,000건의 문서를 대상으로 한 검색실험을 통하여 본 연구에서 제안한 방법이 검색 성능 면에서 개선을 보이고 있으며, 복합명사를 bigram등 어절 길이에 기반한 방법보다 잘 분석함을 보인다.