• 인사말
  • 공지사항
  • 회원게시판
  • 포토갤러리

Home > 커뮤니티 > 공지사항

tit

제목 [뉴스] [조사뉴스] 뉴스 빅데이터로 본 26년 신문의 역사는 어떨까? 등록일 2016.04.19 18:02
글쓴이 취재팀 조회 3182

'신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사' 발간
언론진흥재단, 빅데이터 통한 분석 웹진 ‘NAI’ 발간

150만 건 기사의 뉴스 빅데이터로 본 신문의 역사
지난 26년간 언론에서 가장 논쟁적인 정보원은 누구였을까? 어떤 해에 어떤 주제가 쟁점이 됐을까? 어떤 주장이 나왔고, 어떻게 반박됐을까? 이제 이러한 궁금증을 상당 부분 자동으로 풀 수 있게 됐다. 기계학습, 자연어처리, 의미연결망 분석 등 다양한 뉴스 빅데이터 분석 방법을 적용한 시스템 '빅 카인즈'를 통해서다.


한국언론진흥재단(이사장 김병호) 미디어연구센터 연구팀은 18일 다양한 사회적 의제에 대한 뉴스를 빅데이터 분석을 이용해 대규모로 살펴보는 뉴스 빅데이터 분석 전문보고서 'News Big Data Analytics & Insights'(뉴스 빅데이터 애널리틱스 앤 인사이트, NAI)를 창간했다. 분석을 위한 기초 데이터는 재단의 뉴스 빅데이터 시스템인 '빅 카인즈'를 통해 얻었다.

◆ NAI 창간호, 26년치 150만 건 기사 뉴스 빅데이터 분석

창간호에서는 1990년부터 2015년까지 26년간 8개 중앙지 및 그 자매지의 정치면, 사회면, 경제면에 보도된 기사 약 150만 건의 기사의 정보원과 인용문 주제를 분석했다. 국내 뉴스 빅데이터 분석 규모로는 최대다. 분석 매체는 경향신문, 국민일보, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레신문, 한국일보 등 '빅 카인즈'에서 서비스 예정인 주요 전국일간지 8개로, 디지털화된 종이신문 기사는 물론 이들 신문이 언론사 닷컴에 게재한 인터넷신문, 잡지 등의 기사를 모두 분석했다.


데이터 시각화 전문기업 <비주얼다이브>(www.visualdive.com, 대표 은종진)와 함께 뉴스 빅데이터를 효과적으로 보여주기 위한 사이트(http://goo.gl/I7PZdp)도 만들었다. 사이트는 핑거프레스, 차트 다이브 솔루션을 이용해 구현됐다. 사이트에선 경제지 4개와 문화면을 더해 310만여 건의 기사의 정보원연결망과 기관연결망, 주제연결망을 연도별, 매체별, 지면별로 선택해 볼 수 있다.

그림 1 <신문 26년> 시각화 사이트 초기화면

◆ 정치면 중요도 1위 정보원, 야당 대변인에서 대통령으로… 주제는 ‘미국’ 등 주변국 중시

가장 중요한 정보원을 분석한 결과 정치면은 야당 대변인의 시대에서 대통령의 시대로, 사회면은 정치인의 시대에서 교육부의 시대로 넘어갔다. 이러한 변화는 대체로 1999년부터 2000년대 초 사이에 이뤄졌으며 매체 간 차이는 거의 없었다.

<그림 2>는 기사 공동인용 정보원 수 기준으로 변인과 대통령의 중요도가 가장 높았던 1995년 세계일보의 박지원 대변인 중심의 정보원연결망과 2003년 서울신문의 노무현 대통령 중심의 정보원연결망을 비교한 것이다. 1995년은 새정치국민회의가 창당한 해, 2003년은 노무현 대통령이 취임한 해다. 박지원은 162명과, 노무현은 271명과 공동인용됐다.


사회면은 2000년 전후로 중요 정보원이 바뀌었다. 2000년 이전엔 국회의원 등 정치인의 비중이 높았다. 특히 검찰 출입 기자가 정치인에 대한 각종 수사를 취재하고 이에 대해 정치인들의 멘트를 받아 실는 경우가 많았다.
경제면의 경우 대부분의 시기에 재정과 금융 관료조직이 중시됐다. 다만 2000년대 초중반엔 주식이나 부동산 투자 등 재태크 관련 애널리스트나 컨설턴트가 부각됐다.

그림 2 정치면의 뉴스 정보원연결망 비교


◆ 경제면 주제는 ‘중소기업’과 ‘미국’에서 ‘소비자’와 ‘중국’으로

인용문 주제 분석으로 살펴보면 우선 정치는 ‘미국’ 등 주변국을 중요한 주
제로 다뤘다. 또 1990년대엔 ‘민자당’ 등 보수정당이 가장 논쟁적인 화두로 던져졌다. 언뜻 앞서 야당 대변인이 중시된 정보원 분석 결과와 모순된다고 생각할 수 있지만, 이는 야당 대변인 역시 보수정당에 대한 비판을 주로 가했기 때문이다.


경제면의 주요 주제는 특히1998년 외환위기와 2008년 금융위기를 계기로 급변했다. 과거엔 ‘미국’과 ‘중소기업’이 주된 화두였지만, 금융위기 이후 ‘중국’과 ‘소비자’가 논쟁의 중심으로 부상한 것이다. 시기적으로 보면, 1990년대엔 ‘중소기업’, 외환위기 이후 3년간은 ‘구조조정’, 이후 ‘미국’ 주제가 중심이 됐고, 금융위기 후 ‘중국’과 ‘소비자’가 부각됐다. ‘소비자’가 중시된 건 홍보성 기사가 많아졌기 때문이다.

사회면은 다른 경우와 달리 매체간 차이가 눈에 띄었다. 한겨레사신문은 ‘노동자’를, 서울신문은 ‘공무원’을 특별히 중시했다. 가장 논쟁적인 주제는 2015년 ‘메르스’였다. 이밖에 ‘수사’ ‘피고인’ ‘피해자’ 등 경찰이나 검찰 관련 주제가 많았다. ‘서울’, ‘교육부’, ‘서울대’ 등 서울시나 교육 담당 출입기자가 다뤘을 만한 주제도 중시됐다.

◆ 기사 대폭 늘었지만 기사당 정보원과 주제는 감소
결측이나 미분류 기사가 있긴 하지만 추세만 보면, 26년간 기사가 매체별로 많게는 18배 가량 급증했다. 이는 전체적으론 종이신문의 지면 수도 늘어났으며, 인터넷 신문 등 자매매체도 많아졌기 때문이다. 이와 함께 정보원 수와 주제 수 또한 매체에 따라선 많게는 약 11배가 늘었다. 즉 인터넷 등장으로 절대적인 다양성은 더 커졌다. 그러나 기사당 정보원 수와 주제 수는 감소했다. 기사는 많이 쓰지만, 그만큼 정보원이나 주제를 발굴하진 못한 셈이다.

그림 3 기사당 정보원 수

◆ 오늘 뉴스 빅데이터 시스템 <빅 카인즈> 공개
NAI는 PDF 파일 형식의 웹진 형태로 배포되며 격월로 연 6회 발간될 예정이다. 연도별, 매체별, 지면별 뉴스 정보원 연결망 등을 시각화한 사이트도 함께 공개될 계획이다. NAI는 창간호 <신문 26년>을 비롯해, <인공지능 26년>, <황사 26년>, <한류 26년>, <SNS의 역사> 등을 다룰 예정이다 .
자료는 한국언론진흥재단의 뉴스 빅데이터 분석 시스템인 <빅 카인즈(Big KINDS, big.kinds.or.kr)>를 활용하여 수집한다. 한국언론진흥재단은 오늘 오후 2시 서울 광화문 프레스센터 20층 국제회의장에서 출범행사를 열고  <빅 카인즈>를 언론 및 학계와 정부, 기업 등 관계자에 정식으로 공개했다.
(=한국조사기자협회 취재팀 press@josa.or.kr)