실시간 이슈 분석을 위해서는 실시간으로 생성되는 대량의 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집 및 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 정성 및 정량 평가 방법을 모두 사용하였다. 그 결과, 정성 평가에서 군집 및 요약 성능은 각각 평균 66%, 요약 성능은 평균 92%를 얻었으며, 정량 평가에서 군집 성능은 평균 53.95%, 요약 성능은 ROUGE-1: 0.2269, ROUGE-2: 0.1018, ROUGE-L: 0.1689의 결과를 얻었다.
Keyword
이슈 분석; 점증적 군집화; 계층적 군집화; 다중 문서 요약; issue analysis; incremental clustering; hierarchical clustering; multi-document summarization