바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

[MIT리뷰:AI기획 ⑥]스카이프, 딥러닝 통해 외국어를 배우다

2016-05-21MIT테크놀로지리뷰



트리나 리펠은 규칙을 잘 지키고 신중히 말하는 편이다. 하오 첸은 자유분방하게 대화한다. 그리고 필자는 머리에 떠오르는 건 죄다 뱉어내는 말썽꾸러기다.

얼마 전 우리 세 명이 얼마나 잘 (혹은 못) 소통하는지 보기 위해 사이버공간에서 만났다. 우리는 각자의 모국어인 독일어, 중국어, 영어로 이야기했다.

헤드폰을 쓰고 마이크로소프트가 개발한 스카이프 번역기를 실행했다. (나와 대화를 나눈 이들은 내가 있는 미국 서부에서 수천 마일 떨어진 곳에 사는 마이크로소프트의 시간제 컨설턴트였다.)

첸에게 어디서 어린 시절을 보냈느냐고 묻자 그가 중국어로 뭐라고 대답했다. 하지만 필자는 전혀 당황하지 않았다. 몇 초 후, 인공적인 목소리가 다정하게 말했다.

“내 고향은 중국 북동지역 리아오닝성의 안샨시입니다.”

나머지 대화도 이렇게 매끄러웠으면 얼마나 좋았을까.

첸이 자신의 미국 여행기를 들려줄 때 스카이프는 불명확한 북경어 명사를 잘못 처리해 그가 ‘뉴욕의 간부단’에 방문했다고 전했다. 첸이 다른 표현을 사용한 후에야 스카이프는 ‘뉴욕주’라고 옮겼다.

리펠의 고향에 대해 묻자 스카이프는 내가 독일어가 아닌 영어를 사용한다고 생각, 독일 ‘드레스덴’을 영어 ‘dressed’로 이해했다. 게다가 그녀가 거주하는 도시 이름 대신 독일어 ‘bekleidet’을 언급하며 횡설수설했다.

이렇듯 일상대화의 기계통역은 30년간의 노력에도 불구하고 아직 완벽하지 않다. 사실 우리 탓이다.

우리가 유엔 외교관 같이 분명하고 정확하게 말했더라면 인공지능이 잘 설계된 패턴을 바탕으로 우리가 말하는 모든 것을 해독할 수 있었을 것이다.

우리가 불분명한 단어나 문법을 구사할수록 통번역 소프트웨어는 추가 도움 없이 모든 것을 한 번에 이해하기 어려워한다.

그럼에도 불구하고 마이크로소프트, 구글, 바이두, 페이스북, IBM 등은 이 어려운 분야를 선점하려 경쟁하고 있다.

최고 수준의 음성인식과 번역서비스는 다른 서비스로 고객을 유인하는 매력적인 수단이 될 수 있다.

다른 서비스에는 인터넷 검색부터 원격 서버와 인터넷 연결을 통해 데이터 보관과 처리를 제공하는 클라우드 컴퓨팅까지가 모두 포함된다.

시너지리서치에 따르면 지난해 전 세계 클라우드와 인프라 지출은 1150억 달러를 기록했고 연간 28%씩 늘고 있다.

실시간 번역 덕분에 클라우드 서비스는 돈만 먹는 사업이라는 오명에서 벗어나 더욱 돋보일 수 있다.

지금 대부분의 번역 서비스는 무료로 제공되지만 더 좋아진 맞춤형 번역도구를 찾는 글로벌 기업을 위해 유료서비스가 등장할 가능성도 있다.

>>>

최고 수준의 음성인식과 번역서비스는

인터넷 검색부터 클라우드 컴퓨팅까지

다른 서비스로도 고객을 유인할 수 있다.


특히 마이크로소프트는 내가 실험한 스카이프 번역기 엔진을 기업고객에게 확장할 방법을 모색하고 있다. 정확도를 높이기 위해 고객이 수천 개의 전문용어와 자료문서, 대화 샘플, 독특한 표현을 미리 올려놓게 하는 방법에 관심을 가지고 있다. 이렇게 하면 ‘드레스덴’ 같은 문제가 발생할 가능성이 훨씬 줄어든다.

비크람 덴디 마이크로소프트 연구전략부문 디렉터는 특정 인물이 구사하는 언어패턴 데이터를 대량으로 확보한다면 번역소프트웨어가 훨씬 더 잘 작동할 것이라고 설명한다.

경영컨설턴트들은 ‘delta’나 ‘granularity’ 같은 단어를 일반인과는 다른 의미로 쓴다. 산업화학자들은 열 개가 넘는 종류의 프탈레이트에 대해 농담을 주고받는다.

그리고 기업마다 프로젝트, 프로세스, 고위 경영진을 가리키는 명칭이 셀 수 없이 다양하다.

2011년부터 마이크로소프트는 고객사가 자체 특수용어나 서면자료를 번역전용 데이터베이스에 업로드 할 수 있도록 해왔다.

매우 기술적인 자료를 번역할 때 마이크로소프트의 기본 빙 서비스보다 신뢰할 만한 결과를 생산하기 위해서다.

덴디는 10만 명이 넘는 고객이 맞춤형 서비스를 사용 중이라고 한다. 라이트버전은 한 달에 40달러, 어도비와 트위터 같은 헤비유저는 그보다 훨씬 많은 비용을 낸다.

마이크로소프트는 창업자 빌게이츠가 10년 안에 음성인식이 폭넓게 사용될 것이라고 예견했던 1990년대 중반부터 번역서비스를 발전시키기 위한 다양한 전략을 시도해왔다.

초기에는 구체적인 문법규칙과 용도를 목록화 하는 방식에 크게 의존했다.

마이크로소프트에서 번역서비스의 입지는 2009년부터 오르기 시작했다. 인간 두뇌의 구조와 자율학습을 바탕으로 한 머신러닝 시스템인 신경망에 통계기법이 더해졌다.

피터 리 연구부문 책임자는 말하는 것을 분석하기 위해 다섯 층의 신경망을 사용한다고 설명한다. 신경망의 가장 낮은 층은 매우 단순한 수준에서 소리를 분석한다.

마치 영상분석 소프트웨어가 물체를 식별하기보다 모서리와 표면만 인식하는 것과 같다.

고도의 인공지능 접근방식이 대부분 그렇듯 연구진들도 이 방식이 작동하는 원리를 다 밝혀내지 못했다.

리는 “음소나 단어와는 아무런 관련이 없다”고 설명했다. “우리 중 누구도 최하위 층이 무엇을 분석하는지 알 수 없다. 중요한 건 놀라울 정도로 잘 작동한다는 것이다.”







마이크로소프트 연구진은 소위 ‘장단기 기억’을 잘 활용하고 있다. 신경망은 언어를 인식하거나 번역할 때 다양한 추측을 하고, 새로운 정보가 들어올 때마다 추측을 바꾼다.

그런데 가끔 기대했던 것과 다른 패턴이 나타날 수 있다. 이럴 경우 신경망은 여러 단어에 대해 옳은 추측을 했던 때로 거슬러 올라가 패턴을 다시 구축한다. 시스템의 단기기억을 길게 추적하면 지나온 과정으로 되돌아가고 필요한 수정을 할 수 있다.

스카이프 번역기의 신경망에 새로운 언어를 가르칠 때마다 4000시간에 해당하는 음성 샘플과 수백만 단어 분량의 글이 필요하다. 마이크로소프트 기계번역 팀을 이끄는 아룰 메네제스는 아랍어처럼 사람마다 억양이 다른 언어는 작업하기 어려울 것이라 생각했다.

그러나 예상 외로, 다양한 사람의 목소리 샘플을 충분히 수집한 덕분에 스카이프 번역기의 ‘귀’가 트여 지방 억양이나 사투리는 더 이상 문제가 되지 않게 됐다.

남성과 여성 목소리의 차이도 비슷한 방식으로 해결했다.

오히려 다양한 일상 어휘가 어려웠다. 신경망은 마이크의 변화에 너무나 민감하게 반응했다(사람들은 잡음과 말의 차이를 쉽게 감지하지만 기계에겐 너무 어려운 과제다).

말 사이에 잠시 멈추는 것도 문제가 된다.

“사람들은 문장 끝에만 쉬지 않는다. 말하다가 아무 때나 멈춘다. 침묵은 문장의 시작과 끝을 감지하는데 아무런 도움이 되지 않는다. 고로 단어 하나하나를 분석해야 한다.”

메네제스는 확실히 않은 단어에 적합한 번역을 제시하는 것도 끝없는 도전이라는 것을 인정했다. 독일어로 말하는 리펠은 ‘Sie’라는 단어를 자주 사용하는데, 상황에 따라 ‘그녀’, ‘당신’, ‘그들’을 뜻할 수 있다. 스카이프 번역기는 이 단어를 80% 정도 정확하게 맞춘다.

스카이프 번역기는 첸이 중국의 가족 규모에 대해 말할 때 또 한 번 살짝 흔들렸다.

첸은 정부 정책과 상관없이 육아비용 때문에라도 “많은 사람들이 아이를 낳으려만 한다(a lot of people only want to give birth to a child)”고 했다.

얼마 후 마이크로소프트 본사 99호 건물에서 메네제스와 필자는 대화의 전문을 검토했다.

메네제스는 육아관련 내용을 지적하며 유감스러워했다. “여기는 ‘a child’가 아닌 ‘one child’였어야 했다. 그러나 중국어는 ‘하나’와 부정관사 ‘a’를 구별하지 않는다.

영어에는 차이가 있지만 문맥에 따라 알아서 집어넣어야 하는 단어다.”

그는 “전문 통번역사들이 아직은 우리가 하는 일을 두려워하지 않을 것”이라고 웃으며 덧붙였다. “앞으로 한동안은 그들의 직업은 안전하다.”

전문 통번역사인 리펠은 오히려 우호적이다. 사용자들이 짧고 천천히 말한다면 자동번역 서비스가 언어장벽을 넘는데 도움이 될 수 있다는 것이다.

그녀는 “이런 도구가 있다는 것은 매우 중요하다”며, “요즘 시대에는 모든 사람이 어디서든 다른 사람과 대화할 수 있는 게 더 중요해졌다”고 말했다.

<본 기사는 테크M 제37호(2016년5월) 기사입니다>

뉴스