KRISTAL-2000 기반 분산 데이터베이스에서의 분산검색 엔진 개발 연구
Development of a Distributed Retrieval Engine for Distributed Database Based on KRISTAL-2000
Nam, Young-Gwang; Kim, Tae-Hoon; Hwang, Jae-Moon; Jung, Young-Gi; Kim, Jae-Gon; Ree, Hye-Ran
Korea Institute of Science and Technology Information
funder : 국무조정실
I. 제목
KRISTAL- 2000 기반 분산 데이터베이스에서의 분산검색 엔진 개발 연구

II. 연구개발의 목적 및 중요성
1. 연구의 목적
기존의 KRISTAL- 2000에서 100GB 이상의 수천만 건에 이르는 대용량 정보를 하나의 플랫폼 상에서 서비스하는 것은 검색 속도를 저하시킬 수 있고 데이터 관리 및 확장이 어려울 가능성이 있다. 또한 현재의 시스템에서는 서로 구조가 상이한 데이터에 대해서는 모두 하나의 구조로 통일해야만 검색이 가능하기 때
문에 자료의 중복 및 시스템의 속도 저하 문제가 야기된다. 이러한 문제를 해결하기 위해서는 분산된 하드웨어 상에서 데이터를 분산 구축한 후 분산 검색을 수행하는 것이 바람직하며, 다양한 데이터 구조를 가진 다양한 시스템에서 분산된 데이터베이스를 효과적으로 통합 검색하는 방안이 필요하다. 이를 위해 기 개발된 KRISTAL- 2000에 모듈을 추가하여 동일 스키마 또는 두 가지 이상의 스키마를 갖는 분산된 시스템에서의 데이터베이스 검색 방법을 구현하는 것이 필요하다.
2. 연구의 중요성
본 연구의 분산 통합 검색 엔진은 하나 이상의 스키마를 가지는 분산된 데이터베이스 상에서 메타정보관리기를 기반으로 하여 대용량, 이기종 및 이구조의 데이터베이스를 하나의 시스템에서 검색하는 것과 같은 효과를 가져올 수 있도록 관리할 수 있으며, 분산 데이터베이스용 질의어 처리기를 개발하여 분산 문서
에 대한 검색을 수행 할 수 있어 타 시스템과의 연결 시 활용할 수 있다, 또한 적재된 데이터베이스의 구조를 메타데이터 관리기와 연계하여 파싱을 통한 재정의 후 계층적인 네비게이션이 가능하도록 시스템을 개발했다는 점에 본 연구의 중요성이 있다.
개발된 본 시스템을 이용하면 사용자는 어떠한 자료가 어디에 있는지에 관한 정보를 알 필요 없이 마치 모든 데이터베이스에 접속하여 검색하는 것과 같은 효과를 얻을 수 있다.
또한 본 연구는 메타데이터를 이용하여 개발하였기 때문에 앞으로 새로 등록되는 자료의 구축 및 생성이 메타데이터 레지스트리를 통하여 이루어지게 될 경우 국가적인 자료의 통합 검색 시스템의 개발이 용이하다.

III. 연구개발의 내용 및 범위
본 연구는 분산 데이터베이스를 위한 KRISTAL- 2000 통합 검색 엔진을 개발하는 것으로, 분산된 데이터베이스를 하나의 검색 엔진으로 통합해주는 메타데이터 관리기, 분산 데이터베이스 질의 처리기, 분산 데이터 셋 관리기, 히스토리 관리기 및 계층적 정보 검색기로 이루어 졌으며, 세부 내용은 다음과 같다.
1. 다중 분산 데이터베이스를 위한 메타데이터 관리기(Metadata Manager : MDM) 개발
- 하나 이상의 분산된 스키마 관리 모듈 개발
- GUI 메타데이터 입력/수정/삭제 관리기 개발
- 메타데이터 관리기와 ROSE와의 인터페이스 개발
- 메타데이터 관리기와 질의처리기와의 인터페이스 개발
2. KRISTAL- 2000 시스템에 적합한 분산 데이터베이스용 질의 처리기 (Distributed Query Processor : DQP) 개발
- KRISTAL- 2000을 위한 분산 데이터베이스용 질의어 설계
- 분산 데이터베이스 스키마를 포함하는 질의 파서 개발
- 분산 데이터베이스를 위한 질의어 설계 및 처리기 개발
- 질의어와 메타정보와의 인터페이스 개발
3. 분산 데이터 셋 관리기(Distributed Data Set Manager : DDSM) 개발
- KRISTAL- 2000시스템에서의 저장장치 ROSE 수정
- 데이터 셋 관리기 수정
- 검색엔진 FIRE 수정
- 질의처리기와 FIRE와의 인터페이스 개발
4. 히스토리 관리기(History Manager) 개발
- 가공된 데이터베이스별 질의어 생성
- 질의어 히스토리 셋 저장 및 검색
- 검색 결과 셋 저장 및 검색
5. 계층적 정보 검색기(Hierarchical Navigator) 개발
- 하나 이상의 스키마를 갖는 분산된 데이터베이스 상에서의 계층적 검색 후 제시 방법 정의
- 동일 하드웨어 내에서의 분산된 데이터베이스 통합 검색 기능 개발

IV. 연구개발결과
1. 최종 보고서
2. 프로그램 소스

V. 연구개발의 활용 계획
본 연구의 분산 검색 엔진은, 같은 내용이면서 다른 구조를 가진 문서의 저장 및 검색 시스템 구축에 활용할 수 있으며, 이기종 분산 관계형 데이터베이스에서의 검색 엔진 개발에 적용할 수 있다. 또한 개발된 다중 스키마 검색용 질의처리기를 이용해 대용량, 이구조 XML 검색 엔진 개발에 활용할 수 있을 것이다.

VI. 기대 효과
본 연구의 결과로 KRISTAL- 2000에서 분산 이기종 데이터베이스에서의 검색이 가능하며, 이로 인한 시스템의 성능 향상을 기대할 수 있다. 또한 다중 스키마에서의 문서 검색이 가능하므로 KRISTAL- 2000 시스템 사용자의 편리성이 증대될 것으로 예상된다. 기존 문서에 대해서도 문서 검색을 할 수 있도록 하여 검색 엔진의 활용도를 높이고, 분산 XML 기술 방법인 XML 문서 자동변환 및 메타데이터 레지스트리 관리 기술을 활용하여 향후 시스템 확장 및 구조 변경 시 적용이 가능하다. 본 시스템을 메타데이터 레지스트리 시스템과 연관하여 개발할 경우 국내에 있는 모든 정보에 대한 통합 관리가 가능할 것으로 판단된다.

I. Title
Development of a Distributed Retrieval Engine for Distributed Database Based on KRISTAL- 2000

II. Objective of the study and its importance
In KRISTAL- 2000 system, it may cause difficulties for retrieving data when the data size is more than 100GB and more than 10 millions data collections. When the data size is getting bigger, the same data may exist on the different systems. Even worse, if there are sites with different structures for the same contents, users should visit each site for retrieving data. Then it might be very inconvenient for users to visit each site to get the correct information.
In order to solve those problems, KRISTAL- 2000 system should provide the functions which can retrieve data from distributed systems and different structures. The necessary modules for stributed KRISTAL- 2000 systems are metadata manager, distributed query processor, and distributed data set managers. Furthermore, the hierarchical data navigation function, which allows
users navigating up, down, left, right and sibling of the current answer, would be provide a great convenience for users.

III. Content and scope of the study
Develop or modify the following modules in KRISTAL- 2000 system
- Distributed query processor
- Distributed data set manager
- Metadata manager
- History manager
- Hierarchical navigator

IV. Result of the study
In this project, we have modified and developed KRISTAL- 2000 system for retrieving data from distributed systems and heterogeneous systems so that users can retrieve data without knowing which data is in which site. DQP, MDM, DDSM, Distributed History Manager and Hierarchical navigator has been successfully developed and integrated in KRISTAL- 2000 system.

V. Application schemes
We believe that this project will be the base for integrating nationwide information retrieval system by archiving standard through ISO 11179 Metadata Registry in the near future.

VI. Anticipation of effectiveness
This system provides transparency for users, i. e., users do not need know which data are located in which site. That means, if users enter query in the Web browser, then the system will get all correct answers across the distributed system which is registered in metadata table.
분산 검색 정보; 메타데이터; 데이터베이스; Distributed Retrieval Information; Metadata; Database
