download0 view83
twitter facebook

공공누리This item is licensed Korea Open Government License

Title
SGML 문서를 기반으로 하는 정보 서비스에 관한 연구
Publisher
한국과학기술정보연구원
Korea Institute of Science and Technology Information
Publication Year
1997-12
Abstract
I. 제 목
SGML 문서를 기반으로 하는 정보 서비스에 관한 연구
II. 연구개발의 목적 및 중요성
다가오는 21세기는 고도화된 정보화 사회가 될 것이다. 이러한 고도의 정보화 추세에 가장 필수적인 요소가 기존 및 앞으로 발생되는 문서 정보를 전자문서로 만들고 관리하는 작업이다. 이러한 측면이 가장 극명하게 나타나는 것이 공공기관의 각종 서류 및 자료, 기업에서 처리되는 각종 서류등이 현재는 기존 프린트된 문서들로 서로 교환하고 사용하기에 그 시간적 비용적인 손실이 매우 컸다. 따라서 각 공공기관이나 기업에서는 이러한 비효율성을 감소시키고자 효율적이고 비용 절감할 수 있는 방안으로 모든 문서 처리의 전산화를 서둘러 실시하고 있는 실정이다.
또한 전자 문서들은 텍스트 타입의 데이터 뿐만 아니라 다양한 미디어 타입 즉, 이미지나 그래픽, 오디오, 비디오 타입까지도 포함할 수 있는데 최근 들어, OIS(Office Information System), 디지탈 도서관(Digital Library), WWW(World-Wide Web) 등 멀티미디어 문서 정보 처리를 요구하는 다양한 응용 분야의 출현으로 대량의 멀티미디어 문서 정보를 효율적으로 저장하고, 처리하며, 검색할 수 있는 정보 서비스가 요구되고 있다.
SGML(Standard Generalized Markup Language)은 문서 정보를 체계적으로 조직하고, 생성하고, 전송하기 위한 문서 표준으로서 문서를 교환하기 위한 응용과는 독립적인 교환 포맷을 제공하며 문서의 적절한 구조가 유지되도록 문서 구조를 표현하는데 사용할 수 있다. 이러한 문서 형태로 표현된 정보에서는 기존의 파일 형태의 정보에 비해 의미적인 정보의 단위를 구조(structure)로서 표현하며, 이 구조 정보를 이용해 문서의 관리 및 검색, 저장에 이용할 수 있는 장점이 있다.
따라서, 기술적인 측면에서 볼 때, SGML 문서를 기반으로 하는 정보 서비스를 제공할 수 있는 데이타베이스 시스템이 필요하다고 할 수 있으며, 이때 요구되는 핵심 요소 기술들이 개발됨으로 인해서 현실적으로 대량의 멀티미디어 문서 정보들을 신속하고 효율적으로 이용할 수 있는 경제적 측면과 정보 서비스의 대중화를 실현할 수 있는 사회 문화적 측면에서의 파급 효과를 꾀할 수 있다.
III. 연구개발의 내용 및 범위
SGML 문서의 다중 구조 정보 모델링
SGML을 기반으로 하는 멀티미디어 문서는 논리적인 구조뿐만 아니라, 하이퍼링크 네트워크, 공간적/시간적 배치 구조등의 복잡한 다중 구조 특성을 지니고 있다. 따라서 이와 같은 멀티미디어 문서를 효율적으로 저장하고 검색, 관리하기 위해서는 다중 구조 특성을 고려한 구조 정보의 모델링이 요구된다. 본 연구에서는 문서에 내재된 구조 정보를 객체 지향 기법을 이용하여 모델링하고 있다. 특히 멀티미디어 문서의 논리적인 구조 정보를 표현하기 위해 SGML을 이용하여 문서의 계층적 구조를 복합 객체로 표현하고 있으며, HyTime을 참조하여 하이퍼링크 네트워크와 시간적 배치 구조 정보를 표현하고 있다. 또한 본 연구에서는 DSSSL을 참조하여 멀티미디어 문서에 대한 공간적 배치 구조 정보도 표현할 수 있도록 하고 있다. 본 연구에서는 이와 같이 SGML 프레임웍을 기반으로한 멀티미디어 문서의 다중 구조 정보를 모델링 하였다.
다중 구조 멀티미디어 정보의 타입 계층 구조
본 연구에서는 멀티미디어 정보의 다중 구조를 지원하기 위해 객체 타입 계층 구조를 설계하였다. 각 타입은 멀티미디어 문서의 종류를 나타내는 타입과 논리적 구조, 공간적 배치구조, 시간적 배치구조, 하이퍼링크 네트워크 구조를 나타내는 타입들, 그리고 각 구조의 엘리먼트들을 나타내는 타입 등이 제공된다. 또한 본 연구에서는 멀티미디어 정보를 구성하는데 필요한 다양한 미디어 데이터 타입들도 지원한다. 본 연구에서는 설계된 각 타입을 SQL3의 구문에 맞추어 정의하고 있다.
계층성 표현 메카니즘
멀? 각 엘리먼트간의 계층성을 효과적으로 표현하는 것이 필요하다. 본 연구에서는 구조 정보 질의를 위해 새로운 방법인 HEID(hierarchical element identifier)를 고안하여 어떤 엘리먼트의 조상이나 후손 엘리먼트를 추가 정보의 접근 없이 간단한 계산으로 즉시 접근할 수 있도록 하였다.
멀티미디어 데이터의 저장 구조 모델
논리적 구조, 공간적/시간적 배치구조, 하이퍼링크 네트워크 구조의 각 복합 객체에서 실제 데이터를 가지고 있어야 하는 엘리먼트들은 단말 엘리먼트들이다. 하지만, 이 단말 엘리먼트들이 실제 데이터를 가지도록 하면 여러 가지 문제가 야기된다. 따라서 본 연구에서는 각 구조의 단말 엘리먼트들이 실제 데이터를 갖는 대신, 이들 엘리먼트들의 데이터를 모아서 한꺼번에 blob 형태로 저장하여 같은 내용의 데이터에 대한 공유가 가능하도록 하고 있다. 이와 같은 방법을 통해 우리는 데이터의 중복을 없애고, 각 구조 사이에 데이터를 공유할 수 있으며, 문서 전체 정보의 프리젠테이션 성능을 향상시킬 수 있는 장점을 얻을 수 있다.
SGML 구조 정보를 위한 확장된 데이터베이스 질의어 설계
본 연구에서는 멀티미디어 정보의 구조나 내용, 하이퍼링크를 지원하기 위해 3가지 질의 식을 확장하였다. 확장된 질의 표현 식은 상하위 어느 레벨의 구조 엘리먼트를 접근할 수 있도록 하는 component연산과 하이퍼링크를 앞뒤로 항해(navigate)할 수 있는 follow연산, LIST로 정의된 엘리먼트 리스트의 각 개별 엘리먼트를 접근할 수 있는 리스트 연산을 추가하였다. 이렇게 추가된 질의 연산자를 이용하여 논리적, 공간적/시간적 배치구조는 물론 하이퍼링크를 통한 질의를 지원할 수 있다.
구조 정보의 효율적인 인덱싱 기법 설계
본 연구에서는 구조 질의를 효율적으로 처리하면서도 인덱스가 차지하는 저장 오버헤드도 상당히 줄일 수 있는 새로운 인덱싱 방법을 설계하였다. 한 노드의 자식 노드들은 공통 인덱스 텀을 가질 수 있다는 사실로부터 구조화된 문서에 대하여 최적화시킨 인덱스를 구성하는 것이다. 이와 같은 최적화된 역 인덱스와 본 연구의 계층성 표현 메카니즘을 이용하면 훨씬 적은 인덱스 공간을 가지고서도 문서 구조 내에 있는 어떤 요소들도 쉽게 접근할 수 있다. 따라서 다중 구조를 기반으로 한 질의에 대해 빠른 접근 시간을 제공할 수 있는 장점이 있다.
IV. 연구개발결과 및 활용에 관한 건의
요사이 미래 정보 시스템으로서 연구가 활발한 디지털 도서관(Digital Library)을 구축하는 중심 시스템으로 사용될 수 있으며,
인터넷 정보 자원을 데이터베이스화 하여 서비스하는 정보 서비스 도구로서 활용할 수 있으며,
현재 WWW상에서 이용되는 HTML형식의 문서에 대한 비판이 높은데, 그 이유는 HTML에서 본 연구에서 다루고 있는 구조 정보를 제대로 활용하지 못하고 있기 때문이다. 요사이 추세는 HTML을 계속 향상시켜 궁극적으로는 일반적인 SGML정도의 수준을 가지도록 발전되고 있으므로, 본 연구의 결과를 WWW의 정보 관리에 사용할 수 있을 것이며,
전자 우편(electronic mail)에도 음성, 이미지 등의 멀티미디어 데이터의 활용이 일반화되고 있는 추세이므로, 멀티미디어 전자 우편을 관리해 주는 시스템으로서의 역할을 담당할 수 있으며,
비디오 데이터베이스, 음악 데이터베이스, 지리 정보 시스템 등 각 미디어별 전문화된 데이터베이스 시스템 구축 연구에 발판이 될 것으로 기대된다.


SGML(Standard Generalized Markup Language) provides the standard for the exchange of documents. SGML documents consist of logical structure of information. Multimedia document has complex multi-structural characteristic such as hyperlink networks and spatial/temporal layout structures as well as logical structures. In order to store, retrieve, and manage multimedia documents efficiently, document systems should be able to handle the multi-structure information of documents, and to provide various query types based on this information. In our research, we provide the modeling scheme for the logical structure information of documents by using SGML, and for the hyperlink network and temporal layout structure information of those by referring to HyTime(Hypermedia/ Time-based Structuring Language). By referring to DSSSL(Document Style Semantics and Specification Language), our modeling scheme can also represent the spatial layout structure information of documents. We also designed the type hierarchy for multi-structural inforamtion. In order to support efficient retrieval of structure elements, we propose a new scheme which uses specially designed Hierarchical Element Identifiers(HEID) for structure elements access. Multimedia data are duplicated if we store the actual data in every leaf node of each structure. In order to solve the problem, we share multimedia data between multiple structures. Therefore, we can enhance the performance in retrieving the whole content of multimedia information. In this research, we propose a query language for retrieving multimedia document elements based on the content and multiple complex structures. By using HEID and indexing scheme which exploits multi-structures, we can process queries efficiently with minimal storage overhead for maintaining structure information.
Files in This Item:
There are no files associated with this item.
Appears in Collections:
7. KISTI 연구성과 > 연구보고서 > 1997
URI
https://repository.kisti.re.kr/handle/10580/10496
http://www.ndsl.kr/ndsl/search/detail/report/reportSearchResultDetail.do?cn=TRKO200500060188
Export
RIS (EndNote)
XLS (Excel)
XML

Browse