한국조사기자협회 since 1987

Home > 주요사업 > 세미나

제목	제49차 정기세미나 토론 요약문	등록일	2016.03.11 17:52
글쓴이	사무국	조회	2367
제49회 (사)한국조사기자협회 정기 세미나 -저널리즘의 미래, 데이터 저널리즘- 세미나 종합 토론 요약문 ■ 토론자: 연합뉴스 백종호, 디지털조선 황현준, 동아일보 구미애, 한국경제 김재순, MBN 오상길 ■ 주제발표자: 다음소프트 최재원 이사, 최성필 경기대 문헌정보학과 교수, 최용수 성결대 멀티미디어공학부 교수, YTN 유영식 차장 연합뉴스 백종호 = 다음소프트의 뉴스사건 추출 시스템은 익숙치 않은데요. 혹시 어느 언론사에 적용해 본 적이 있는 것인가요? 이것을 통해 언론사는 어떠한 형태의 콘텐츠를 재생산할 수 있는지요? 다음소프트 최재원 이사 = 연합뉴스에 계시는데 모르셨군요. 오늘 발표 PPT에서 소개한 뉴스 사건추출 시스템은 연합뉴스에서 파일럿으로 진행하고 있는 시스템입니다. 예를 들어 열차사고가 발생했던 과거의 기사를 리스트업 하려면 기존에는 일일이 기사검색을 해서 일자별로 구성해야 했습니다. 그렇지만 이 시스템을 사용하게 되면 과거에서 현재까지 시간순으로 리스트업이 가능해집니다. 기사검색을 하게 되면 누락이 되는 경우도 있지만, 이것은 그렇지가 않게 됩니다. 이러한 시스템은 언론사 뿐만 아니라, 일반인들에게 더 유용하게 사용이 될 수 있습니다. 예를들어 ‘베트남 중고차 판매’를 검색하게 되면, 쏘나타는 몇 대, 아반떼는 몇 대를 베트남에 수출했는지 한눈에 쭉 검색결과로 받아 볼 수 있게 되는 것입니다. 디지털조선 황현준 = 예전에 NewsML 분류분과위원회에서 제안했던 내용과 변화된 것이 있지만, 가장 핵심은 카테고리 주제 분류였습니다. 다른 인명이나 지명은 분류화가 자동적으로 하는 것은 어렵지 않았지만, 주제별 카테고리 분류를 자동적으로 시스템으로 분류하는 것은 어려웠습니다. 이 시스템은 정확도 수준이 어느정도 일까요? 다음소프트 최재원 이사 = 여기 계신 조사기자들이 더 잘 아시겠지만, 과거 분류체계는 언론사의 기사 관리를 위한 분류를 했었더라면, 지금은 활용을 위한 분류로 바뀌고 있고, 언론사에서도 그러한 분류를 원하고 있다고 생각합니다. 연합뉴스에서 시스템을 적용할 때 439개의 분류를 사용하게 되었는데요, 사건형태별 분류를 정확하게 하기 위해 개체명 업데이트를 개체명 사전을 통해 내부적으로 구축한 것을 사용하게 되어 정확성이 이전의 형태보다 진일보 했다고 생각합니다. 연합뉴스 백종호 = 그래도 예전의 자동분류 시스템을 보면 언론사에서 채택할 만큼 정확치 않았는데요? 실제 연합뉴스의 반응은 어떠했습니까? 다음소프트 최재원 이사 = 연합뉴스의 경우 주제분류의 결과에 대해서 시스템을 반영시키기 전에 일선 기자들에게 컨펌을 받았습니다. 잘못된 분류가 더 큰 문제를 발생시키기 때문에 잘못된 분류가 생성되지 않았는지에 대해서 다시 한번 확인을 하고, 그 오류를 개체명 사전을 통해서 정확성을 높였습니다. 어찌되었건 이 시스템의 핵심은 개체명과 분류를 정확하게 매핑하는 것이기 때문에 전문가의 컨펌이라든지 수정오류는 당연한 과정이 될 것입니다. 아직 파일럿이기 때문에 반응과 만족도는 아직 이른 것 같습니다. 동아일보 구미애 = 현재 네이버의 뉴스콘텐츠 유통 독점이 심한데요, 이에 대한 대응책으로 언론사의 대응과 오늘 교수님이 발표하신 것과 어떤 유의미한 연관이 있을까요? 경기대 최성필 교수 = 네이버가 200억을 들여서 동아일보, 경향신문, 매일경제, 한겨레신문 등을 창간시점부터 1999년까지 발간한 신문기사를 모두 디지털화 하는데 약 200억원인 넘게 소요되었습니다. 왜 네이버가 이러한 사업을 시작했을까요? 신문 기사는 정제된 형태의 가장 중요한 과거를 대표하는 콘텐츠이기 때문입니다. 트위터 분석 너무 많고 지저분합니다. 클렌징(정제)하는데 매우 힘듭니다. 그러나 뉴스 기사는 품질이 아직 우수한 아주 정제된 형태로 존재합니다. 이것을 네이버가 과거의 콘텐츠를 가지고 미래를 예측하는데 사용하려는 의도가 있다고 저는 생각합니다. 그렇기 때문에 언론사가 매일 싼가격에 네이버에 판매를 해야 하나 마나를 걱정하는 것보다 자신의 콘텐츠의 중요성을 인식하지 못하는 게 더 큰 문제라고 생각합니다. 이러한 지식 베이스 시스템이 언론사가 자신의 콘텐츠의 중요성을 인식하고, 보다 효과적으로 콘텐츠의 부가가치를 높이는 쪽으로 이동했으면 합니다. 한국경제 김재순 = 뉴스기사 지식베이스라는 개념과 시스템에 교수님의 핵심으로 주석달기 (Annotation)인데요, 이것은 과거 NewsML의 한국형 뉴스코드가 핵심이라고 하셨습니다. 예전에도 추진하다가 중단되었는데요. 이것은 협회에서도 주목하고 있는 일이라 매우 반갑습니다. 이러한 일이 단순히 아이디어에서 출발해서 꽃피우기 까지 많은 시간과 비용이 수반되어야 하는데, 어떻게 예측하고 계십니까? 경기대 최성필 교수 = 저는 이 지식 베이스 시스템이 완결되는데 약 13년이 소요된다고 추정합니다. 지식베이스가 지속적으로 스스로 진화하고, 변화하는데 그만큼의 시간이 소요됩니다. 초기 지식베이스 플랫폼을 만드는데 약 5년이 소요됩니다. 뉴스코드라는 사전을 지속적으로 확대하고 정형화해야 하고, 오류의 문제를 해결하는데 시간이 소요됩니다. 지식구축 방법은 초기에는 견고한 수동 프로세스를 구동함으로써 즉시성 있는 가시적 성과는 물론 높은 수준의 저널리즘 지식 구축 인력의 양성이 도모 되어야 합니다. 지식베이스 구축에 전문가의 손길이 필요하기 때문입니다. MBN 오상길 = 그렇다면 이것은 여기 계신 조사기자의 직업적 몫이라고 생각하는데요? 경기대 최성필 교수 = 네 그렇습니다. 여기계신 분들의 역할이 중요합니다. 지식구축에 지식베이스, 뉴스코드 사전, 온톨리지 등을 기반으로 해야 하기 때문입니다. 그리고 지속적인 평가를 하고, 튜닝을 위해서 전문가가 필요하게 됩니다. 저는 안정화된 엔진을 기반으로 자동화 수준을 수작업 대비 자동화 비율을 자동 40: 수동 60으로 봅니다. 처음부터 개발부터 불완전하기 때문에 전문가라는 사람이 들어가야 합니다. 기술을 키우는 교육과정이 수반되어야 합니다. 소프트웨어 지식구축에 누가 키워야 합니까? 알반, 초딩입니까? 콘텐츠 전문인력이 키워야 하지 않습니까? 디지털조선 황현준 = 그런데 이런 지식화 서비스가 언론산업에 어떠한 영향을 끼칠까요? 경기대 최성필 교수 = 결국 콘텐츠가 답이라고 생각합니다. 기술보다는 콘텐츠에 대해서 집중해야 합니다. 언론이 이러한 뉴스기사 지식베이스를 어떻게 활용할 건지도 고민이 되어야 하겠다고 생각됩니다. 구글이 관심있는 것은 콘텐츠입니다. 콘텐츠가 쌓여서 기술과 합쳐서 오늘날에 이르게 된 것입니다. 여러분들의 콘텐츠를 어떻게 쌓고, 어떻게 활용할 것인지, 네이버와 같은 포털에 싼 값으로 양질의 콘텐츠를 주고 마는 우를 범하지 않았으면 합니다. 한국경제 김재순 = 유영식 차장님께서는 언론사의 조사기자가 이제 바뀌어야 한다는 말씀인데, 구체적으로 어떻게 해야 할까요? YTN 유영식 차장 = 오늘 발표에서 얘기했듯이 언론사에서의 조사기자의 역할이 너무나 다릅니다. 사자성어로 ‘각자도생’이라고 했듯이 각 사에서 그림 그리기는 한결 같을 수가 없습니다. 언론사란 조직이 어떻게 방향을 틀고 있는지 알아야 하고, 그에 맞게 우리 조사기자는, 우리 팀은 어떻게 이에 발맞출 것인지 생각해야 합니다. SLA(세계전문도서관협회) 혁신보고서에서 눈에 띄는 단어가 ‘Silo’란 단어였습니다. 번역을 하면 고립, 조직안에서 성이나 담을 쌓고 외부와 소통하지 않는 것을 말합니다.

제목

제49차 정기세미나 토론 요약문

등록일

2016.03.11 17:52

글쓴이

사무국

조회

2367

제49회 (사)한국조사기자협회 정기 세미나

-저널리즘의 미래, 데이터 저널리즘-

세미나 종합 토론 요약문

■ 토론자: 연합뉴스 백종호, 디지털조선 황현준, 동아일보 구미애, 한국경제 김재순,

MBN 오상길

■ 주제발표자: 다음소프트 최재원 이사, 최성필 경기대 문헌정보학과 교수,

최용수 성결대 멀티미디어공학부 교수, YTN 유영식 차장

연합뉴스 백종호 = 다음소프트의 뉴스사건 추출 시스템은 익숙치 않은데요. 혹시 어느 언론사에 적용해 본 적이 있는 것인가요? 이것을 통해 언론사는 어떠한 형태의 콘텐츠를 재생산할 수 있는지요?

다음소프트 최재원 이사 = 연합뉴스에 계시는데 모르셨군요. 오늘 발표 PPT에서 소개한 뉴스 사건추출 시스템은 연합뉴스에서 파일럿으로 진행하고 있는 시스템입니다. 예를 들어 열차사고가 발생했던 과거의 기사를 리스트업 하려면 기존에는 일일이 기사검색을 해서 일자별로 구성해야 했습니다. 그렇지만 이 시스템을 사용하게 되면 과거에서 현재까지 시간순으로 리스트업이 가능해집니다. 기사검색을 하게 되면 누락이 되는 경우도 있지만, 이것은 그렇지가 않게 됩니다.

이러한 시스템은 언론사 뿐만 아니라, 일반인들에게 더 유용하게 사용이 될 수 있습니다. 예를들어 ‘베트남 중고차 판매’를 검색하게 되면, 쏘나타는 몇 대, 아반떼는 몇 대를 베트남에 수출했는지 한눈에 쭉 검색결과로 받아 볼 수 있게 되는 것입니다.

디지털조선 황현준 = 예전에 NewsML 분류분과위원회에서 제안했던 내용과 변화된 것이 있지만, 가장 핵심은 카테고리 주제 분류였습니다. 다른 인명이나 지명은 분류화가 자동적으로 하는 것은 어렵지 않았지만, 주제별 카테고리 분류를 자동적으로 시스템으로 분류하는 것은 어려웠습니다. 이 시스템은 정확도 수준이 어느정도 일까요?

다음소프트 최재원 이사 = 여기 계신 조사기자들이 더 잘 아시겠지만, 과거 분류체계는 언론사의 기사 관리를 위한 분류를 했었더라면, 지금은 활용을 위한 분류로 바뀌고 있고, 언론사에서도 그러한 분류를 원하고 있다고 생각합니다. 연합뉴스에서 시스템을 적용할 때 439개의 분류를 사용하게 되었는데요, 사건형태별 분류를 정확하게 하기 위해 개체명 업데이트를 개체명 사전을 통해 내부적으로 구축한 것을 사용하게 되어 정확성이 이전의 형태보다 진일보 했다고 생각합니다.

연합뉴스 백종호 = 그래도 예전의 자동분류 시스템을 보면 언론사에서 채택할 만큼 정확치 않았는데요? 실제 연합뉴스의 반응은 어떠했습니까?

다음소프트 최재원 이사 = 연합뉴스의 경우 주제분류의 결과에 대해서 시스템을 반영시키기 전에 일선 기자들에게 컨펌을 받았습니다. 잘못된 분류가 더 큰 문제를 발생시키기 때문에 잘못된 분류가 생성되지 않았는지에 대해서 다시 한번 확인을 하고, 그 오류를 개체명 사전을 통해서 정확성을 높였습니다. 어찌되었건 이 시스템의 핵심은 개체명과 분류를 정확하게 매핑하는 것이기 때문에 전문가의 컨펌이라든지 수정오류는 당연한 과정이 될 것입니다. 아직 파일럿이기 때문에 반응과 만족도는 아직 이른 것 같습니다.

동아일보 구미애 = 현재 네이버의 뉴스콘텐츠 유통 독점이 심한데요, 이에 대한 대응책으로 언론사의 대응과 오늘 교수님이 발표하신 것과 어떤 유의미한 연관이 있을까요?

경기대 최성필 교수 = 네이버가 200억을 들여서 동아일보, 경향신문, 매일경제, 한겨레신문 등을 창간시점부터 1999년까지 발간한 신문기사를 모두 디지털화 하는데 약 200억원인 넘게 소요되었습니다. 왜 네이버가 이러한 사업을 시작했을까요? 신문 기사는 정제된 형태의 가장 중요한 과거를 대표하는 콘텐츠이기 때문입니다.

트위터 분석 너무 많고 지저분합니다. 클렌징(정제)하는데 매우 힘듭니다. 그러나 뉴스 기사는 품질이 아직 우수한 아주 정제된 형태로 존재합니다. 이것을 네이버가 과거의 콘텐츠를 가지고 미래를 예측하는데 사용하려는 의도가 있다고 저는 생각합니다. 그렇기 때문에 언론사가 매일 싼가격에 네이버에 판매를 해야 하나 마나를 걱정하는 것보다 자신의 콘텐츠의 중요성을 인식하지 못하는 게 더 큰 문제라고 생각합니다. 이러한 지식 베이스 시스템이 언론사가 자신의 콘텐츠의 중요성을 인식하고, 보다 효과적으로 콘텐츠의 부가가치를 높이는 쪽으로 이동했으면 합니다.

한국경제 김재순 = 뉴스기사 지식베이스라는 개념과 시스템에 교수님의 핵심으로 주석달기 (Annotation)인데요, 이것은 과거 NewsML의 한국형 뉴스코드가 핵심이라고 하셨습니다. 예전에도 추진하다가 중단되었는데요. 이것은 협회에서도 주목하고 있는 일이라 매우 반갑습니다. 이러한 일이 단순히 아이디어에서 출발해서 꽃피우기 까지 많은 시간과 비용이 수반되어야 하는데, 어떻게 예측하고 계십니까?

경기대 최성필 교수 = 저는 이 지식 베이스 시스템이 완결되는데 약 13년이 소요된다고 추정합니다. 지식베이스가 지속적으로 스스로 진화하고, 변화하는데 그만큼의 시간이 소요됩니다. 초기 지식베이스 플랫폼을 만드는데 약 5년이 소요됩니다. 뉴스코드라는 사전을 지속적으로 확대하고 정형화해야 하고, 오류의 문제를 해결하는데 시간이 소요됩니다. 지식구축 방법은 초기에는 견고한 수동 프로세스를 구동함으로써 즉시성 있는 가시적 성과는 물론 높은 수준의 저널리즘 지식 구축 인력의 양성이 도모 되어야 합니다. 지식베이스 구축에 전문가의 손길이 필요하기 때문입니다.

MBN 오상길 = 그렇다면 이것은 여기 계신 조사기자의 직업적 몫이라고 생각하는데요?

경기대 최성필 교수 = 네 그렇습니다. 여기계신 분들의 역할이 중요합니다. 지식구축에 지식베이스, 뉴스코드 사전, 온톨리지 등을 기반으로 해야 하기 때문입니다. 그리고 지속적인 평가를 하고, 튜닝을 위해서 전문가가 필요하게 됩니다. 저는 안정화된 엔진을 기반으로 자동화 수준을 수작업 대비 자동화 비율을 자동 40: 수동 60으로 봅니다.

처음부터 개발부터 불완전하기 때문에 전문가라는 사람이 들어가야 합니다. 기술을 키우는 교육과정이 수반되어야 합니다. 소프트웨어 지식구축에 누가 키워야 합니까? 알반, 초딩입니까? 콘텐츠 전문인력이 키워야 하지 않습니까?

디지털조선 황현준 = 그런데 이런 지식화 서비스가 언론산업에 어떠한 영향을 끼칠까요?

경기대 최성필 교수 = 결국 콘텐츠가 답이라고 생각합니다. 기술보다는 콘텐츠에 대해서 집중해야 합니다. 언론이 이러한 뉴스기사 지식베이스를 어떻게 활용할 건지도 고민이 되어야 하겠다고 생각됩니다.

구글이 관심있는 것은 콘텐츠입니다. 콘텐츠가 쌓여서 기술과 합쳐서 오늘날에 이르게 된 것입니다. 여러분들의 콘텐츠를 어떻게 쌓고, 어떻게 활용할 것인지, 네이버와 같은 포털에 싼 값으로 양질의 콘텐츠를 주고 마는 우를 범하지 않았으면 합니다.

한국경제 김재순 = 유영식 차장님께서는 언론사의 조사기자가 이제 바뀌어야 한다는 말씀인데, 구체적으로 어떻게 해야 할까요?

YTN 유영식 차장 = 오늘 발표에서 얘기했듯이 언론사에서의 조사기자의 역할이 너무나 다릅니다. 사자성어로 ‘각자도생’이라고 했듯이 각 사에서 그림 그리기는 한결 같을 수가 없습니다. 언론사란 조직이 어떻게 방향을 틀고 있는지 알아야 하고, 그에 맞게 우리 조사기자는, 우리 팀은 어떻게 이에 발맞출 것인지 생각해야 합니다. SLA(세계전문도서관협회) 혁신보고서에서 눈에 띄는 단어가 ‘Silo’란 단어였습니다. 번역을 하면 고립, 조직안에서 성이나 담을 쌓고 외부와 소통하지 않는 것을 말합니다.

다음글 | 제12차 해외워크숍 참가 안내입니다.

이전글 | 제49차 정기세미나 발표 자료집 FILE