바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

[AI기획]로봇뉴스 시대, 챗봇이 맞춤형 뉴스 전한다

인공지능의 콘텐츠 적용 현황과 전망

2017-02-19도강호 기자

 

미국의 온라인 콘텐츠 기업 오토메이티드 인사이츠는 지난해 15억 개에 달하는 콘텐츠를 생산했다. 15억개라는 콘텐츠 수보다 더 주목받는 것은 모든 콘텐츠를 인공지능(AI)이 만들었다는 점이다.

이 회사가 만들어낸 콘텐츠는 미국의 AP통신을 비롯, 50개 이상의 기업에 공급된다. 오토메이티드 인사이츠는 전자상거래, 고객보고서, 재무분석, 시장보고서 등 다양한 분야에 걸쳐 데이터를 분석해 콘텐츠를 제작할 수 있다고 강조한다.


인공지능이 콘텐츠를 만들어내는 일은 더 이상 새로운 소식이 아니다. 이미 미국 여러 언론사는 다양한 뉴스를 인공지능으로 제작해 공급하고 있다. 특히 오토메이티드 인사이츠처럼 언론사에 인공지능 기술을 공급하는 전문기업들은 기사를 넘어 데이터를 정리해 요약하는 보고서를 작성하는 영역으로까지 기술을 확장하고 있다. 


지난해부터 국내에도 인공지능으로 콘텐츠를 만들어 공급하려는 언론사들이 나타나고 있다. 이들과 협력하는 곳 가운데 하나가 이준환 서울대 언론정보학과 교수의 연구실이다. 인간 컴퓨터 상호작용(HCI)을 전공한 이준환 교수는 컴퓨터에서 인간에게 정보를 전달하는 방식의 하나로 로봇 저널리즘에 주목하고 있다. 


알고리즘을 기반으로 2014년 단문 형태의 야구 기사를 생성하기 시작한 연구는 1500자 정도의 기사를 작성할 수 있는 시스템으로까지 발전했다. 지난해에는 모든 야구 경기에 대해 장문의 기사를 작성했다. 또 같은 기술을 증시에도 적용해 지난해부터 1200자 정도 되는 증시 기사도 만들어내기 시작했다. 


로봇 저널리즘의 강점은 속도와 양이다. 인공지능은 데이터를 바탕으로 단 몇 초 만에 기사를 생성해낸다. 예를 들어 최근 경주 지진으로 문제가 된 지진 속보도 인공지능은 몇 초 만에 소식을 전달할 수 있다. 실제로 미국에는 지진 속보를 인공지능으로 처리하는 언론사가 있다. 국내에도 지진 소식을 알려주는 메신저 봇이 있다. 


하지만 인공지능이 만능은 아니다. 
이 교수는 “인공지능을 이용한 단순한 사실 보도는 완성도를 높일 수 있지만 통찰력이 들어가는 기사는 힘들다”고 지적한다. 물론 일반적인 통계적 분석을 통한 간단한 예측은 가능하다.

하지만 데이터에 대한 정성적 분석을 바탕으로 한 예측은 당분간 어렵다고 예상했다. 


야구에서 특정 두 팀의 당일 승패 예측은 기존 데이터에 대한 통계적 분석을 통해 계산해 낼 수 있지만 선수 중 누군가가 장염으로 출전하지 못할 경우 승부에 어떤 영향을 줄지 예측하기는 쉽지 않다. 
이 교수는 또 “이재용 부회장에 대한 구속 영장 이슈가 삼성 주가에 어떤 영향을 줄지 예측하는 것도 어렵다”고 설명했다.

 

카카오가 개발한 개인 맞춤형 콘텐츠 추천 서비스인 루빅스


사용자 특성 맞춘 개인화가 관건
향후 인공지능 기술이 발전하면 로봇 저널리즘이 사람을 밀어낼 수 있을까?

이 교수는 “로봇 저널리즘이 발전하더라도 기존 저널리즘의 영역은 건드리지 못할 것”이라며 오히려 “새로운 영역을 만들어낼 것”이라고 단언했다.

사람은 저널리즘 본연의 모습에 치중하고 알고리즘이 만드는 콘텐츠는 개인화에 초점을 맞출 것이라는 전망이다. 


이 교수는 “정보가 너무 많아서 정보를 일일이 요약하고 정리해서 전달할 수 없다”며 “알고리즘이 정보를 전달한다면 개인에게 필요한 정보를 분석해 맞춤형으로 전달하는 방향으로 나갈 것”이라고 말했다. 


이런 맥락에서 최근 이 교수가 관심을 가지는 영역은 지역 뉴스다.

개인의 생활과 밀접하게 관련된 뉴스를 전달하겠다는 것이다. 지역 날씨나 교통에 관한 뉴스가 대표적이다. 이외에도 지역 상점의 할인 소식, 동내 성범죄자 정보에 관한 뉴스도 가능하다. 


기사를 읽는 사람이 친밀감을 느낄 수 있는 콘텐츠를 공급하는 것도 가능하다. 예를 들어 두산 팬에게는 두산의 입장에서 기사를 써서 제공하는 것이다.  

이 교수는 “사회인 야구 데이터를 수집해 기사를 작성하는 것도 가능하다”고 말했다. 친구가 출전한 사회인 야구 경기 소식을 기사로 만들어 제공할 수 있다는 것이다. 


현재 인공지능 기술은 개인 맞춤 콘텐츠 생산에 앞서 다수의 콘텐츠 가운데 개인의 특성에 맞춰 콘텐츠를 추천하는 서비스에 적용되고 있다. 다음 포털의 ‘루빅스(RUBICS)’가 대표적이다. 


카카오는 지난해 6월 처음으로 다음뉴스 서비스에 루빅스를 일부 반영하기 시작했고 12월에는 이미지 뉴스를 포함해 뉴스 관련 모든 영역에 루빅스를 적용했다. 현재 다음뉴스는 루빅스가 자동으로 이용자의 뉴스 소비 패턴을 학습해 개인별 관심사에 최적화된 뉴스 콘텐츠를 노출해 주고 있다. 


카카오가 독자적으로 개발한 기술인 루빅스는 실시간으로 이용자의 콘텐츠 소비 성향에 반응해 적절한 콘텐츠를 추천할 수 있다.

루빅스는 사용자가 평소에 어떤 종류의 뉴스에 관심을 보이는지, 혹은 사용자와 같은 성별이나 유사한 연령대의 사람들이 어떤 뉴스 콘텐츠를 많이 클릭하는지 등 사용자의 뉴스 콘텐츠 소비 성향에서 얻을 수 있는 다양한 데이터를 활용한다.


카카오는 루빅스를 통한 맞춤형 뉴스 추천으로 사용자가 관심을 보인 뉴스량이 3배 이상 증가했다고 밝히고 있다.

이용자의 성, 연령에 맞춰 뉴스 추천이 세밀하게 잘 이뤄진 결과로 추천 기사를 읽는 도달률이 증가했음을 의미한다는 것이다. 그만큼 인공지능을 통해 제공되는 개인 맞춤형 콘텐츠는 콘텐츠 소비를 증가시키는데 효과적인 방법이다. 문제는 데이터가 부족하다는 점이다. 

 

인공지능은 단 몇 초만에 지진 발생 속보 기사를 생성할 수 있다.


데이터와 기반 기술이 문제
가장 먼저 프라이버시가 문제가 된다. 각 개인에 대해 구체적인 데이터를 이용할수록 완성도 높은 개인화 서비스를 제공할 수 있다.

하지만 각 개인에 대한 구체적인 데이터가 스마트폰과 같은 해당 단말에서 서버로 전송되는 순간 프라이버시 침해 문제가 발생한다. 결국 익명화된 정보를 바탕으로 서비스를 제공할 수밖에 없다.

루빅스도 성별, 연령과 같은 익명화된 정보를 바탕으로 서비스를 제공하고 있다. 


프라이버시 문제는 콘텐츠 추천에서 생산으로 옮겨가면 더 민감한 문제가 된다. 나와 친한 사람의 소식을 받고 싶다고 하자. 이를 위해서는 개인에 대한 익명화되지 않은 정보가 필요하다. 


이준환 교수는 “스마트폰 내부에서 해당 정보를 이용해 기사를 생성하고 소비하는 것은 문제가 되지 않지만 기사를 생성하기 위해 개인 데이터를 서버에 올리는 순간 프라이버시 침해 문제가 발생한다”고 지적했다.

개인화된 콘텐츠를 만들기 위해서는 스마트폰이나 스마트워치 등에서 수집한 정보를 이용할 수 있는 방안에 대한 고민이 필요하다는 것이다. 


데이터 문제는 개인정보에만 국한된 것은 아니다. 
이 교수는 “지역 뉴스의 경우 특히 데이터가 부족하다”며 “로봇이 기사를 작성하기 위해서는 공개된 데이터가 많아야 한다”고 강조했다.

데이터 부족 문제는 최근 정부가 공공 데이터를 공개함에 따라 점차 개선되고 있는 상황이다. 

이 교수는 “최근 공공 데이터를 공개하면서 그나마 상황이 나아졌지만 공개된 내용을 보면 아직 부족하다”며 “예를 들어 교통이나 날씨는 실시간 데이터가 있어야 하는데 공개된 데이터들은 실시간 데이터가 아닌 경우가 많다”고 말했다. 교통 데이터의 경우 언제 데이터인지 알 수 없는 경우도 있고 6개월 전이 최신 데이터인 경우도 있다는 것이다.


데이터가 있어도 데이터 수집·활용이 문제가 되는 경우도 있다. 
“온라인 카페에는 쿠폰 정보 공유 게시물들이 있는데 기술적으로는 이런 데이터를 가져와 뉴스를 만들 수 있다. 온라인 게시물 정보를 바탕으로 해당 지역 사용자를 위한 맞춤형 콘텐츠를 제공할 수 있는 것이다. 기자가 이같은 게시물을 이용해 기사를 작성할 경우 문제가 없지만 프로그램으로 데이터를 수집할 경우 불법인지 아닌지, 새로운 콘텐츠를 생성하는 것이 저작권 침해가 아닌지 등에 대해 논쟁이 있다.”

이준환 교수의 말이다. 


이런 어려움들에도 불구하고 올해 인공지능 기반의 콘텐츠 생산은 더욱 확대될 것으로 예상된다. 특히 딥러닝 적용이 관건이다. 이미지 분석에서 두각을 나타냈던 딥러닝은 지난해 텍스트 분야에서도 괄목할 성과를 내기 시작했다. 지난해 말 구글과 네이버가 나란히 공개한 딥러닝을 적용한 번역 서비스가 대표적이다. 


이 교수는 특히 “텍스트 분석과 생산에 딥러닝이 적용되면 올해 가장 먼저 챗봇에 변화가 나타날 것”이라고 예상했다. 지금까지의 챗봇이 검색 엔진의 채팅 형태에 그치는 수준이었다면 딥러닝을 통해 풍부한 데이터가 쌓이면서 개인 맞춤형 콘텐츠를 제공할 수 있게 될 것이라는 전망이다. 

이 교수는 “해외에서 시범 서비스들이 이미 나오기 시작한 만큼 올해는 더 진보된 챗봇이 나올 것”이라고 예상했다. 


딥러닝은 또 콘텐츠 생산을 텍스트에서 이미지 등 다른 분야로 확장할 것으로 예상했다. 카드뉴스처럼 이미지 시각화가 결합된 콘텐츠가 만들어질 수 있다는 것이다. 

이 교수는 “이런 방향은 기술적 진보는 아니고 영역의 확장”이라고 지적했다. 딥러닝 기술은 이미 이미지에서 두각을 나타내고 있고 이를 다른 분야에 확장·융합하는 과정일 뿐이라는 것이다. 


다만 당장 국내에 미치는 영향은 제한적일 수 있다. 언어의 한계 때문이다. 
이 교수는 “우리나라에 잘 적용되려면 한글 처리 기술을 더 집중해 발전시켜야 한다”고 말했다. 한글을 처리하는 기본 기술이 뒷받침 돼야 이를 응용하는 다른 분야로의 확장이 가능한데 아직 부족하다는 것. 

이 교수는 “자연어 처리는 형태소 분석에서 시작하는데, 그 기술이 정체돼 있다”며 이 분야에 집중할 필요가 있다고 강조했다. 

[테크M = 도강호 기자(techm.kr)]

<본 기사는 테크M 제46호(2017년 2월) 기사입니다>