'신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사' 발간
언론진흥재단, 빅데이터 통한 분석 웹진 ‘NAI’ 발간
150만 건 기사의 뉴스 빅데이터로 본 신문의 역사
지난 26년간 언론에서 가장 논쟁적인 정보원은 누구였을까? 어떤 해에 어떤 주제가 쟁점이 됐을까? 어떤 주장이 나왔고, 어떻게 반박됐을까? 이제 이러한 궁금증을 상당 부분 자동으로 풀 수 있게 됐다. 기계학습, 자연어처리, 의미연결망 분석 등 다양한 뉴스 빅데이터 분석 방법을 적용한 시스템 '빅 카인즈'를 통해서다.
한국언론진흥재단(이사장 김병호) 미디어연구센터 연구팀은 18일 다양한 사회적 의제에 대한 뉴스를 빅데이터 분석을 이용해 대규모로 살펴보는 뉴스 빅데이터 분석 전문보고서 'News Big Data Analytics & Insights'(뉴스 빅데이터 애널리틱스 앤 인사이트, NAI)를 창간했다. 분석을 위한 기초 데이터는 재단의 뉴스 빅데이터 시스템인 '빅 카인즈'를 통해 얻었다.
◆ NAI 창간호, 26년치 150만 건 기사 뉴스 빅데이터 분석
창간호에서는 1990년부터 2015년까지 26년간 8개 중앙지 및 그 자매지의 정치면, 사회면, 경제면에 보도된 기사 약 150만 건의 기사의 정보원과 인용문 주제를 분석했다. 국내 뉴스 빅데이터 분석 규모로는 최대다. 분석 매체는 경향신문, 국민일보, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레신문, 한국일보 등 '빅 카인즈'에서 서비스 예정인 주요 전국일간지 8개로, 디지털화된 종이신문 기사는 물론 이들 신문이 언론사 닷컴에 게재한 인터넷신문, 잡지 등의 기사를 모두 분석했다.
데이터 시각화 전문기업 <비주얼다이브>(www.visualdive.com, 대표 은종진)와 함께 뉴스 빅데이터를 효과적으로 보여주기 위한 사이트(http://goo.gl/I7PZdp)도 만들었다. 사이트는 핑거프레스, 차트 다이브 솔루션을 이용해 구현됐다. 사이트에선 경제지 4개와 문화면을 더해 310만여 건의 기사의 정보원연결망과 기관연결망, 주제연결망을 연도별, 매체별, 지면별로 선택해 볼 수 있다.