국무조정실
Ⅰ. 제 목
기상연구 및 학제간 연구를 위한 가상연구실 시범구축
Ⅱ. 연구개발의 목적 및 중요성
현재 구성되어 있는 기존의 연구환경은 근본적으로 폐쇄적이고 정보교환 및 전달의 수준이 미흡하여 21세기 정보화시대의 효율적인 과학기술창달을 위해 필수적인 정보공유 및 자원공유에 제약요인으로 부상하고 있다. 이에 새로운 연구개발 패러다임인 e-Science는 학제간 경계를 초월하여 과학연구 분야에서 자원공유 및 협력 기반을 구축하는 것으로서, 국가가 현재 최우선 발전 목표로 삼고 있는 새로운 첨단기술 분야인 6T (IT, BT, NT, ET, CT, ST)의 개발에 핵심적인 도구로 작용할 것이다.
기상분야는 IT산업기술의 최신기술의 접목이 가장 신속하게 이루어지는 분야로서 IT 기반의 고도 기술집약적인 특성을 지니고 있어 계산그리드 (Computational Grid: CG), 자료그리드 (Data Grid: DG), 협업그리드 (Access Grid: AG) 등 그리드 핵심기술을 통합하는 하이브리드 그리드 (Hybrid Grid) 구축에 가장 적합함으로 e-Science적인 연구실험이 용이하다. 이는 국내 기상관련 기관과 대학에서는 이미 그리드 기술의 핵심요소인 계산그리드와 자료그리드, 협업그리드와 관련된 다양한 IT기술에 대한 많은 설치, 운영 경험과 활용방법에 관한 기술들이 상당 축적되어 있으며, 그리드 구성의 근간인 슈퍼컴퓨터, 클러스터,
초고속네트웍 등 다양한 하드웨어적인 기술 또한 많은 경험과 기술들을 보유하고 있기 때문이다.
본 연구는 우선적으로 기상분야에서 그리드 체계를 기반으로 한 협업연구 체계를 실현하고자 함에 있어서 기상분야의 독특한 학문적, 사회적 특성을 반영 하고자 한다. 또한 그리드 기반의 고성능 컴퓨팅 시스템 개발을 통해 기존에 산재되어 있던 HPC (High Performance Computing: 클러스터), 워크스테이션, 슈
퍼컴퓨터의 운용에 있어 계산그리드를 통해 누구나 사용 가능한 저렴한 가격의 슈퍼컴퓨팅자원 지원체계를 구성 하고자 하며, 특히 기상분야에 있어서는 그리드 시스템을 통해 수치모델의 수행에 필요한 수요자중심의 새로운 전산시스템을 운영하고자 한다. 이로부터 더욱 상세화 되어진 지역기후모델의 운용이나 슈퍼앙상블 기법의 실현과 같이 그 동안 단일 계산시스템 보유자들에게는 실현가능성이 낮았던 고용량 자료와 초고속 컴퓨팅 자원을 요구하는 작업의 수행이 가능하게 되며, 또한 그리드 시스템상의 자료그리드를 적절히 활용하게 된다면 각 기관별 공통자료의 추출에서부터 특이자료의 공유에 이르기까지 그 동안의 자료보유과정에 소비해 왔던 시간과 자원들을 훨씬 효율적으로 활용할 수 있게 될 것이다.
Ⅲ. 연구개발의 내용 및 범위
본 연구개발의 주 내용은 사용자를 중심으로 한 기상연구 및 학제간 연구를 위한 가상 연구실을 구축하여 시범적으로 운영하는 것으로, 일반적인 연구환경에서 연구이외에 시간이 많이 소요되는 프로그램코드의 순차적 개발환경, 자료의 수집, 컴퓨팅 자원의 통합활용을 효율적이고 투명하게 처리함으로써 연구개발
능률을 향상시키기 위한 것이다. 이를 위해 수요자 중심의 기상자료 수집응용체계를 구축하고, 지역적으로 분산된 프로그램 개발환경을 병렬적으로 통합하는 협업 환경을 구축하며, 이를 Grid 상의 컴퓨팅 자원을 활용하는 수치예보모델 현업 운영환경 모형을 구축하는 것이다. 이에 다른 세부 내용은 다음과 같다.
1. 고용량 기상정보 공유 및 활용 시스템 구축
- 실시간 고용량 기상자료 공유 인터페이스 개발
- 그리드기술을 이용한 고용량 기상자료 가상스토리지 구축
- 3D, VR기반 대용량 기상정보 원격표출시스템 활용기술 개발
2. 수치예보모델 협업개발환경 구축
- 그리드 서비스 기반의 협업연구그리드 체계구축
- 병렬수치예보모델의 모듈별 실행과 통합 및 성능향상
3. 실시간 수요응답형 상세 수치모의시스템 구축
- 국가 그리드 테스트 환경에서 초고속 네트워크 운용 시범
- 계산그리드를 활용한 전산자원의 실시간 분배 및 모델 운영?는 2003년 정보통신연구진흥원 지원의 기상연구 및 학제간 연구를 위한 가상연구실 시범 구축 사업에 관한 연구를 하였다. 주요 내용은 사용자를 중심으로 한 기상연구 및 학제간 연구를 위한 가상 연구실을 구축하여 시범적으로 운영하는 것으로, 수요자 중심의 기상자료 수집응용체계를 구축하고, 지역적으로 분산된 프로그램 개발환경을 병렬적으로 통합하는 협업 환경을 구축하며, 이를 Grid 상의 컴퓨팅 자원을 활용하는 수치예보모델이 이식된 현업 운영환경 모형을 구축하고자 시도하였다.
(1) 기상정보자료의 공유를 위한 자료그리드 구축
서울대학교 기후환경시스템연구센터(Climate Environmental System, CES)에서 보유하고 있는 데이터스토리지 시스템으로 글로버스 하에서 원격 서버간의 인증을 통해 localhost의 자원뿐만 아니라 원격서버의 자원도 이용 가능하게 되었다.
Data grid의 기본이 되는 데이터전송에 관하여 성공적인 테스트를 마쳤으며, gsincftp 프로그램을 이용하여 Globus2.4에서 향상된 목록관리자(Replica Catalog Management)를 시험 운영하였다. 데이터의 관리 tool로 개발된 globus replica는 물리적으로 떨어진 지역과 로컬지역사이의 파일들의 수집에 대한 매핑을 관리하며, 낮은 수준의 복제목록 (Low-level replica catalog, globus_replica_catalog library, 복제목록의 조작)과 높은 수준의 복제목록 (High-level replica catalog, globus_replica_manager library )등으로 구성하였다. 이상의 과정에서 cdldata 서버는 listCollectionNamesFile의 생성과 location 정보의 생성 등이 모두 성공적으로 실행되었다. 하지만 다른 서버의 경우 location의 생성에서 에러가 발생하였으
나, 현재 문제점을 해결하여 성공적인 자료의 탐색 및 공유 시스템을 운영하고 있다.
(2) AG기반 협업개발환경 구축
u-Meteo-K 협업그리드는 정식 협업그리드 노드 구축과 비교하여 구성비용이나 공간상 제약 등의 문제점들이 있기 때문에 연구실규모의 소규모 작업그룹 에서의 적절한 협업그리드 규모로 실현 가능한 ersonal Interface to the AG(PIG) 방식으로 환경을 구축하였다. PIG방식을 통한 협업그리드 구성 시에는 정식 협업그리드 노드에 비해 1/10 이하의 비용이 소요되며 저가의 장비를 통해서도 소규모 연구실 내 2~3명 정도의 구성원이 실시간 영상회의를 통한 정보 공유 및 협의 등은 원활히 진행할 수 있었다. 현재는 유니캐스팅 네트웍과 멀티캐스팅 네트웍의 혼합형태로 현재까지의 협업그리드 시스템에는 완전한 AG 시스템 구축을 위해 필요한 개선점들이 많이 있다.
협업그리드 운영에 있어 무엇보다 중요한 것은 양질의 대화전달 및 가시화 되는 정보의 교환이다. PIG 기반의 유니캐스팅 네트웍 협업그리드는 비용 면에서의 경쟁력은 확보하고 있으나 질적 경쟁력은 협업그리드 본래의 구성보다 떨어지는 문제점을 가지고 있다. 이 중 음성전달 과정 중 발생하는 하울링이나 에코 등은 협업그리드의 원활한 수행을 저해하는 요소로 시급히 해결해야 할 문제이다. 또한 가시화 화면의 인지공간이 사용자 친화적이지 못하다는 것과 준비과정의 지연 등 협업시스템 기반 프로그램과 관련된 기술적 문제점 또한 해결해야 할 것이다. 그리고 앞서 설명한 멀티캐스팅 네트웍의 지원과 같은 하드웨어적 문
제 또한 본 연구수행을 위해 반드시 해결해야 할 당면과제이다.
그리고 다자간 화상회의 시스템인 협업그리드에 관하여서는 작업신호의 송신 측 IP와 수신 측 IP의 상호통신을 위한 직접연결 가능성을 확인하였으며, 수차례에 걸친 시험결과 안정적이고 효율적인 이용이 가능하였다. 그러나, 동일 작업수행에도 화상의 노이즈 발생이나 분절현상 등의 문제점이 발생하는 등 개선의 여지를 남기고 있으며, 특히 본 연구 참여기관의 안정적인 협업그리드 시험을 위한 독작적인 Venue서버의 설치에 대한 필요성이 증대되었다.
(3) 실시간 컴퓨팅 자원 지원을 위한 계산그리드 구축
본 연구팀은 부경대학교에?인 testbed를 구성하였다. 부경대학교에서 보 4 1.7Ghz, RAM은 1G, HDD는 GB로 구성되어 있으며, Linux kernel 2.4.18이 각 노드에 설치되어 있다.
그리드 기반에 대한 지역기후 모델 수행 사례는 모델의 병렬화 구조와 계산 시 요구되는 초기자료의 원활한 재배치 과정을 통해 만족할 만한 수준의 수행결과를 나타내고 있으며 이는 특정 클러스터만을 사용하였을 때와 모델 수행시간과 글로버스 기반의 분산 병렬화 과정을 사용하였을 때 소요된 모델 수행시간 비교를 통해 확인할 수 있다. 단일 호스트에서의 병렬화 작업처리인 MPICH를 사용하여 기상모델로 1시간 후의 일기를 계산하였을 때에는 35초가 소요되었으며, 그리드 환경에서의 병렬화 작업처리인 MPICH-G2를 사용한 기상모델 수행에는 42초가 소요되었으며, MPICH 병렬화 작업에 비해 시간이 20% 정도 더 소모되는 경향이 있다. 하지만 계산그리드 내에서 각 노드간 네트웍 연결 거리와 병렬화 작업 수행을 위한 각 노드 간 상호 통신량을 고려한다면, MPICH-G2를 통한 기상모델의 병렬화 작업 시에 추가적으로 소요된 20%의 시간도 충분히 만족할 만한 성과이며, 이는 새로이 운용 될 차기 고속 네트웍을 통해 일정부분 해결 될 문제라 생각된다. 실제적으로 병렬화 작업을 시작하기 위한 노드 간 인증 및 상태 파악을 위해 지연시간이 평균적으로 24초가 더 소요되는 경향을 가지고 있다.
Ⅴ. 기 대 효 과
기상분야는 차세대 인터넷기술인 GRID 기술을 가장 효과적으로 활용할 수 있는 분야로서 미국과 유럽 등에서도 e-Science의 Pilot 프로젝트로 추진 중이며, IT기술의 고도 집약적인 특성을 지니고 있어 계산그리드, 자료그리드, 협업그리드 등 핵심기술을 통합하여 e-Science를 대표하는 초기 핵심국가 프로젝트로 구현이 가능하다.
국내 기상관련 기관/대학에서는 그리드 기술의 근간이 되는 슈퍼컴, 클러스터, 초고속네트워크, 원격화상회의 등의 설치 운영 경험 등 관련 핵심기술에 대한 많은 경험이 축적되어 있으며, 기상은 공익성이 매우 높은 국가단위 서비스사업으로 각 산업분야의 경제활동 및 국민의 삶 등에 대한 파급효과가 매우 클 뿐
아니라, 지구온난화 등과 관련하여 환경보전을 위해서도 필수적인 국가의 자원정보이다. 이에 향후 새로운 개념의 e-Business 정책에 따른 수익모델의 개발을 지원하기 위한 기반 구축으로 고부가 경제적 가치를 창출하는데 기여할 것으로 기대되며, 상대적으로 열악한 국내 기상기술수준 및 연구개발환경을 획기적으로 발전시키는데 필요한 국가 과학기술 인프라 구축에 일조 할 것이며, 이를 바탕으로 선진기상기술 보유국 진입 및 국제사회에 관련 기술 및 하부구조를 지원하는 한편 관련 국제협력에 주도적으로 참여함으로써 자국의 국제사회에서의 위상제공에 기여할 것이다. 또한, 한국의 세계 최고의 IT 인프라의 기상분야 활용으로 대기과학 연구개발환경 혁신, 분산된 연구 자원의 공유를 통한 지방연구개발 혁신 역량 강화, 기상과 응용기술과의 연계를 통한 학제간 협업 연구체계 기반 구축으로 각 분야별 시너지효과, Grid를 통한 세계적 수준의 연구개발성과 생산성 향상, 첨단 과학기술 경쟁력 확보 방안 제시, 글로벌 연구개발체제 구축, R&D 능력 향상을 통한 산업 경쟁력 확보 기여, 지식정보기반으로 산업 고도화 추진, 첨단 연구장비 등에 대한 공동 활용을 통한 연구개발비용의 획기적 절감, 국가 연구 기반 프로젝트의 개발성과 활용으로 투자효과 극대화, 중장기 거대과학기술개발의 토대를 마련할 것으로 기대된다.
This study has been conducted to establish the Prototype Virtual Laboratory for Meteorological Research and Interdisciplinary Studies being supported by KISTI in 2003. The key subject is to demonstrate the operation of user-oriented virtual laboratory for meteorological research and development, in which framework the collaborative development systems for numerical weather prediction models, the communication of vast amount of data on a near-real time basis for model validation and operation, and the efficient use of computing resources through the integration
of available high performance computing resource are pioneered under grid-enabled environment.
The prototype of the operational research environment for meteorology was proposed by demonstrating user-oriented data archival and application system, collaborative working environment for distributed programming resources, and grid-enabled operational NWP models.
Data grid for Meteorological data sharing At Climate Environmental System (CES) of SNU, Data storage system is equipped to accomodate meteorological observation and prediction data of terabytes, which consists of Linux-based Intel dual server, a Disk RAID with 10-16 IDE disks linked
with HOT SWAP and RAID Level 5. Based on this storage system, it was possible to make data resources at remotely located servers available through Certificate Authentication between
servers using Globus. Successful test was completed on data transfer that is an essential element of Data Grid under the above Globus environment. In addition, Replica Catalog Management (RCM) was also established using gsincftp as a client under Globus2.4 that includes enhanced functions of RCM. Globus replica developed as a data management tool plays a role of mapping management for file archival between remotely located data resources. It consists of two levels of
catalog, low and high level. During this trial, one server was successful in generating list Collection Names File and location information, but the other server issued an error that is still unidentified in its source. Any solution to this unknown problem should be identified for successful test on data replication between data resources under Globus environment.
Collaborative development environment based on Access Grid AG of uMeteo-K, not yet comparable with the full specification of Access Grid because of costs and space allowed, exposed a couple of serious problems in its performance. Due to this unavoidable disadvantages, AG of uMeteo-K was molded to fit into small scale laboratory as a Personal Interface to the AG (PIG). Nevertheless, though PIG costed only one tenth of the full scale AG, it was proven to be useful in accommodating simultaneous video conference with small groups of participants
without any serious problems in its operational stability and quality of video and audio. In order to get better quality in audio and video of PIG, there still needs improvements in many aspects, e.g. mixed conferencing between unicasting and multicasting network via tentative Bridging system.
The most critical thing in Access Grid will be high quality communication and visualization of information. While PIG on unicasting network proved to have an advantage in terms of cost-benefit, its quality cannot be comparable with original specification of Access Grid. In particular, howling and echo being produced during audio transmission looks most embarrassing and serious barriers for high quality performance of AG. Furthermore, video display is not so user-friendly as expected
and time consuming preparation should be considered together with other technical problems such hardware related problems as non-multicasting networks.
Hybrid type PIG using Polycom and AG technique showed its potential in simultaneous direct communication via Internet Protocol between multiple sites. Despite its efficiency and stability in operation, noise production and clogging phenomena needs further improvement for better use of Hybrid type PIG. In the future, the establishment of independent Venue server will be critical factor for successful collaborations among research members and institutions.
Computational grid for on-demand Computing Resource Allocation Bench-marking on the performance of RCM on Grid-enabled Linux clusters showed expected results after reallocation of initial data due to parallel model structure when compared integration time of a NWP model between sole Cluster based environment and Globus enabled distributed environment.
On single host environment with Linux cluster, it took 35 seconds to run 1 hour integration of Model using MPICH, while using MPICH-G2 it took 42 seconds to do the same job with the result of 20 % more time consumption. Considering physical networking distance between nodes and higher loads in communication between nodes for parallel computing in NWP model, this problem can be partially solved employing high performance network in the future. In practice, it has been known that on average it took 24 seconds more in the preparation of parallel computation to authenticate the certificates of each nodes and identify current job status to run similar models.
Korea Institute of Science and Technology Information
기상연구 및 학제간 연구를 위한 가상연구실 시범구축
Study on the Proto-type Virtual Lab. for the Meteorological Research and Interdisciplinary Studies
Oh, Jae-Ho
Lee, Byung-Ryul
Bang, Young-Chul
초고속 선도망
