단백질 서열 정보 데이터베이스 관리시스템 개발
Developing a Management System for Protein Sequence Information
Ryu, Geun-Ho; Bak, Seong-Hee; Kim, Sang-Ho; Jung, Gwang-Soo; Sin, Hyun-Ho; Lee, Yong-Mee
Korea Institute of Science and Technology Information
funder : 국무조정실
연구의 목적:
XML기반의 단백질 서열 정보 데이터베이스 자동 갱신시스템을 구축 개발하여 사 XML
용자에게 기반의 최신의 단백질 서열 정보 서비스를 제공함에 있다 .
연구의 내용:
. PIR-PSD 플랫 파일 및 스키마 구조 분석
- PIR- PSD 플랫파일 분석
- PIR- PSD 의 XML DTD 와 XML 파일 분석
- PIR- PSD 스키마 분석
- PIR 의 단백질 서열 관리 및 갱신 정보 분석
. 단백질 서열 정보 데이터베이스 자동 갱신 시스템 구축
- PIR-PSD 갱신 플랫 파일 및 XML 파일 주기적 자동 다운로드 모듈 구현
- 갱신을 위한 PIR-PSD XML 파일 파싱 모듈
- 데이터베이스 갱신 모듈 및 갱신 데이터베이스 구축
. XML 기반의 단백질 서열 정보 서비스 시스템 개발
- PIR-PSD 단백질 서열의 XML 표현
- 검색 결과의 XML 및 FASTA 포맷 생성 모듈 구현
. 사용자 인터페이스 구현 및 시스템 통합

연구 기대효과: 최신의 변경된 정보를 반영한 단백질 서열 데이터베이스를 제공함으로써 생물학분야에서 서열 분석 결과의 정확성을 높일 수 있다.

1. Contents
The proposed system composes a web based sequence search system providing a XML format of sequence information and a update system. The web based sequence search system provides XML and FASTA format of search results for users through internet. A XML generation module in the system creates a XML document to retrieved sequence information by a sequence search module of a repository management component. A FASTA generation module extracts sequence and several fields from the created XML document and then generates FASTA file format. Finally, the XML or the FASTA file are downloaded into client systems if there is on demand.
The update system consists of a download module, which downloads periodically new released flat files from PIR ftp site and a XML document parsing module, and a execution module of database update operations.
The XML document parsing module parses XML document, extracts element and attribute values, and manipulates them to be compatible types with types of schema in a protein sequence database.
The system record update information and errors occurring update operations into a update log file and a error log file.

2. Scope
0 Analysis of PIR-PSD database and sequence management systems
- We analyze PIR-PSD codata format and XML DTD
- We analyze PIR-PSD database schema
- We investigate protein sequence management for PIR
0 Development of a protein sequence update system
- We modify and design PIR- PSD database schema
- We design mapping information between XML DTD and database schema
- We develope a download module to new released flat files of PIR-PSD
- We develope a parsing module to parse XML document and preprocess the parsed information
- We develope a database update operation module
0 Development of a sequence search system supporting XML format
- We define XML and FASTA fotmats
- We implement XML and FASTA generation modules
- We implement a web based sequence search system
0 Implementation of user interface and integration of systems
- We implement user interface
- We integrate the systems and evaluate performance
서열 갱신; 서열 버전; 갱신시스템; 단백질 서열; 서열 데이터베이스; sequence update; sequence version; update system; protein sequence; sequence database
