1. 제목
문서 압축 복원기 원형 개발에 관한 연구
2. 연구의 목적 및 필요성
최근의 컴퓨터의 발달은 여러 분야에 영향을 미치고 있다. 가장 시장의 규모가 크고 가장 빠른 시간 내에 확산되고 있는 멀티미디어분야와 초고속 통신 분야에서의 발달은 그야말로 지구를 하나의 가족으로 묶는 중요한 징검다리 역할을 한다고 아니 할 수 없다. 그러나 이러한 분야의 급속한 발전에 비하여 정보검색 분야의 발전은 그렇게 눈에 띄지 않고 있다. 그 이유는 워낙 방대한 양을 데이터를 처리해야 하고 또 처리한다 할지라도 처리시간이 짧아야 하며 처리되어, 나온 결과 또한 사용자의 요구에 맞는 것인지를 확인하여야 한다. 이러한 정보검색 분야의 대상은 문학에서부터 과학, 철학에 이르기까지 수백만 건의 문헌을 저장하고 있는 데이터베이스를 사용하고 있으며, 차후 사무자동화나 소프트웨어공학과 같은 정보공학분야와 결합한 자동화분야와, 다양한 데이터를 위한 멀티미디어 정보검색을 위한 시스템으로 점차 방향을 바꾸어 가고 있다. 최근에는 인터넷의 확산에 힘입어 HTML 문서의 검색 및 저장이 날로 보편화되어 가고 있다. 즉 정보 검색의 응용 범위가 확대되고 사용자가 늘어감에 따라 검색하여야할 정보의 양이 기하 급수적으로 늘어나고 있다.
이와 같은 요구에 부응하여 병렬 처리에 기초한 병렬 컴퓨터에서의 정보 검색 시스템이 선을 보이고 있으며 많은 양의 정보를 저장하고 읽을 수 있는 디스크 시스템도 속도의 향상 및 가격이 많이 낮아지고 있다. 그러나 아무리 대용량의 디스크 시스템이 개발되어도 지금과 같이 응용 분야가 확대된다면 많은 양의 데이터를 수용할 수 없을 것이다. 한 시스템이 가질 수 있는 디스크 시스템의 용량이 한정되어 있고 한 문서가 가지는 데이터의 크기가 점점 커지기 때문에 이를 한 디스크 시스템에서 처리할 수 없다면 아무리 컴퓨터의 처리 속도가 빨라지고 하부 구조를 개선한다고 할 지라도 디스크 입출력에 대한 부담 때문에 원하는 만큼의 성능을 기대할 수 없다.
정보 검색 시스템이 타 데이터 처리 시스템과 다른 점은 데이터가 한 번 기록되면 그 데이터에 대한 갱신이 거의 일어나지 않는다. 그리고 정보 검색에 필요한 데이터가 이미 색인에 모두 입력되어 있기 때문에 질의어 처리시 원 문서를 메모리에 적재하여 사용할 필요도 없다. 따라서 검색을 위한 모든 준비가 완료된 후에의 원 문서는 사용자에게 제공할 문서로 존재하는 것 외에는 별다른 의미가 없다. 그러므로 원 문서로부터 검색에 필요한 모든 데이터가 준비된 후에는 이를 손실이 없는 방법으로 압축하여 저장하고 그 문서가 사용자가 필요한 문서일 경우 마지막 단계에서 복원하여 제공하여 준다면 디스크 용량의 절약 및 전체 시스템의 성능 향상에도 많은 도움을 줄 수 있다.
앞에서도 언급한 바와 같이 최근의 정보 검색 시스템은 중앙 집중 방법에 의한 검색이 아니라 거의 대부분이 인터넷을 통한 원거리에서의 검색 시스템이다. 인터넷에서의 병목 현상은 주로 데이터의 양에 의하여 결정된다. 정보 검색 시스템을 통한 데이터는 항상 타 시스템과 비교하여 대용량의 데이터가 전송되기 때문에 이를 압축하여 보내고 받는다면 전체 네트웍의 성능 향상 뿐만이 아니라 많은 양의 데이터를 받는 동안에 시스템의 불안정으로 인하여 중도에 데이터의 전송이 중단되는 경우로 인한 시간과 자원의 낭비를 줄일 수 있을 것이다.
정보검색분야에서 처리속도를 빠르게 할 수 있는 전략으로서는 정보저장소의 하부구조를 효율적으로 접근하고, 저장할 수 있는 저장시스템을 만든다든가, 혹은 자료의 연결방법의 효율성을 제고한 인덱싱 방법 그리고 정보의 전문성에 기초하여 효율적인 접근경로를 만들던가 하는 방법 등이 있다. 그러나 이러한 방법들은 어떠한 방법이든 간에 언제나 장단점이 존재하기 마련이며, 데이터의 구축, 시스템의 구현 및 테스트하는데 시간과 경비가 많이 드는 단점이 있다.
우리 나라에서 사용하고 있는 대부분의 문서는 외국의 경우와는 달리 한글, 한자, 영어, 일본어 등이 혼합하여 사용되는 경우가 많다. 영어에 대한 문서 압축 및 복원 기술은 거의 50% 정도까지 압축 복원할 수 있는 기술까지 접근하였으나 한글을 포함하여 여러 언어가 혼합된 문서에서의 문서 압축 복원 기술은 여러 가지 언어의 특성을 고려하여야 한다. 국내에서의 지금까지의 정보 검색 시스템에 대한 연구는 주로 시스템의 구축 및 질의어에 대한 연구가 주를 이루었다. KRISTAL-II 등의 국내에서 개발한 시스템이 안정을 보임에 따라 이제는 네트웍에서의 검색 속도 및 시스템의 성능을 내적인 것에 의한 것 보다는 환경을 개선하여 향상시키는 것도 중요한 연구 분야중의 하나로 떠오르고 있다. 이러한 요구에 부응하여 우리말의 특성과 기타 언어의 특성을 분석하여 효율적으로 데이터를 압축하여 저장하고 복원할 수 있는 기술을 개발하여 보급한다면 경제적인 측면 뿐만이 아니라 사회/문화적으로도 컴퓨터에 대한 신뢰 및 정보 문화의 확산에 일조가 될 수 있을 것으로 생각된다
3. 연구의 내용 및 범위
본 연구에서는 기존에 개발되어 사용되고 있는 문서 압축 복원기의 알고리즘을 분석하여 한국어/영어/일본어/한자 등이 포함되어 있는 문서에 적용되어 가장 효율이 높은 알고리즘을 선택 또는 개발하는 것으로서 그 연구 내용은
(1) 기존 알고리즘의 분석
(2) 한국어/영어/일본어/한자가 포함된 문서의 특성 분석
(3) 문서 압축 복원 알고리즘 개발
(4) 문서 압축 복원기 원형을 개발하여 최소한 70% 이상의 압축율을 얻도록 한다.
4. 연구 결과
가. 중간 보고서
나. 최종 보고서
5. 활용에 관한 건의
본 연구의 결과는 이미 운영 또는 개발 중인 정보 검색 시스템의 문서 압축 복원기에 적용되어 시스템의 용량을 줄이고 검색 시간을 단축 시킬 수 있는 시스템 개발에 사용될 수 있다.
6, 기대 효과
본 연구의 결과로서 기대되는 효과는 다음과 같다.
가. 기술적 측면
압축/복원 기술의 개발로 정보 검색 시스템의 안정성 확보
작은 용량에 많은 양의 데이터를 저장함으로서 시스템의 활용도 증가 및 검색 시간 단축
네트웍을 통한 데이터 전송 시간 단축
나. 경제/산업적 측면
디스크 시스템의 활용 증대로 인한 비용 절감
전송 속도의 단축으로 인한 네트웍 비용 절감
시스템의 안정을 통한 정보 검색 시스템의 신뢰도 향상
dc.publisher
한국과학기술정보연구원
dc.publisher
Korea Institute of Science and Technology Information