This item is licensed Korea Open Government License
dc.contributor.author
윤진혁
dc.contributor.author
김영진
dc.date.accessioned
2019-11-12T00:53:02Z
dc.date.available
2019-11-12T00:53:02Z
dc.date.issued
2018-11-30
dc.identifier.isbn
978-89-294-1075-9 93500
dc.identifier.uri
https://repository.kisti.re.kr/handle/10580/15324
dc.description
GitHub는 대표적인 온라인 소스코드 보관 서비스이자 개발자들의 커뮤니티이다. GitHub가 2008년에 출발한 이후 커뮤니티의 사이즈는 점점 커져 현재 2800만 명의 개발자들이 8,500만 개의 Repository에서 개발활동을 하고 있다. 이러한 GitHub는 단순히 개발자들의 커뮤니티를 넘어 Python, Docker, Android, TensorFlow등 주요 오픈소스 프로젝트들의 생태계를 관리한다. 이러한 오픈소스 활동은 현재 초기의 Apache와 같은 비영리 재단의 활동을 넘어서 Microsoft(MS), Google, Facebook, Apple, IBM, Intel등 주요 기술 기업이 함께 동참하고 있다. 즉, GitHub내에서 이들 간의 관계를 분석하는 것은 현재의 IT 기술 발전을 이해하는데 필수적이다.
본고는 GitHub 내의 유저 활동 분석을 통해 오픈소스 활동에 대해 분석하였다. 우리는 이를 위해 먼저 GitHub에서 제공하는 REST API 및 GraphQL API를 통해 데이터를 수집하였다. 또한 데이터의 분량 문제로 이미 구축되어 있는 GH Archive 및 GH Torrent Data를 이용하여 GitHub 내의 이벤트 기록을 추가적으로 수집하였다. 먼저 우리는 위 데이터 상의 이벤트 기록 중 push event를 통해 각 사용자의 연도별 commit 횟수를 추출하여 repository와 사용자의 이분 네트워크(bipartite network)를 구축하였다. 이렇게 구축된 commit data는 각 사용자의 특정 기관에 대한 기여도를 평가할 수 있는 지표로 쓸 수 있다. 그 이후 분석을 위해 개별 repository의 기록을 기관별로 병합하여 기관-사용자 이분 네트워크를 구축하였으며, 두 기관의 관계를 분석하기 위해 factional count 방식으로 기관-사용자 이분 네트워크를 기관-기관 사이의 단일네트워크로 영사(projection)하였다.
본고에서는 네트워크를 기반으로 각 기관들의 오픈소스 기여에 대하여 분석하였다. 구축된 네트워크는 기관들 사이의 오픈소스 생태계 구조를 잘 표현해주며, 이 네트워크 내에서의 중심성지수(centrality) 측정을 통해 오픈소스에 중요하게 기여하는 기관들을 구분할 수 있었다. 이를 통해 현재 오픈소스의 중심이 점점 비영리 재단에서 IT기업으로 옮겨가는 것을 확인할 수 있었으며, 오픈소스 및 오픈 이노베이션이 점점 대중화되어가고 있다는 사실도 확인할 수 있었다.