바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

[MIT 10대혁신기술③]딥러닝 적용한 중국 바이두의 음성인식

2016-04-17MIT테크놀로지리뷰



중국 대표 인터넷 기업의 막강한 음성기술 덕분에 스마트폰 사용이 더 쉬워졌다.


● 무엇이 혁신인가?

음성인식 기술과 자연어 이해 기술을 접목, 세계 최대 인터넷 시장을 겨냥한 효과적인 음성인터페이스를 개발했다.

● 왜 혁신인가?

컴퓨터와 상호작용할 때 자판으로 입력하면 시간이 걸리고 짜증도 날 수 있다.

● 누가 주도하나?

바이두, 구글, 애플, 뉘앙스, 페이스북



관광객, 노래방, 명품 매장으로 가득한 베이징 산리툰의 북적거리는 거리를 거닐다 보면 애플, 삼성, 샤오미의 최신 스마트폰 사용자를 많이 볼 수 있다.

이들을 자세히 보면 터치스크린 대신 훨씬 효율적이고 직관적인 도구를 사용하는 사람들이 있다. 바로 자신의 목소리다.

중국의 6억9100만 스마트폰 사용자 중에는 가장 인기 있는 검색엔진 바이두에서 뭔가 찾아볼 때 밀기, 누르기나 작은 키보드를 외면하는 사람들이 점점 늘고 있다.



중국은 음성인식 인터페이스의 발전을 위한 최적의 장소다. 한자는 작은 화면을 염두에 두고 만든 문자가 아닌 게 틀림없기 때문이다.

바이두가 음성인식 기술을 개발, 인터페이스를 더 실용적이고 쓸모 있게 만들었으니, 전세계 모든 사람들이 그 혜택을 누릴 수 있어야 한다.

그러면 주변의 기계와 소통하는 게 더 쉬워질 것이다.

바이두 수석과학자이자 스탠퍼드대 부교수인 앤드류 응은 “음성기술을 의심 없이 사용할 만큼 신뢰도가 높아지고 있다”며 “최고의 기술은 눈에 보이지 않는 것인데, 음성인식의 신뢰도가 높아질수록 기본기술이 되어 뒤에 숨을 것”이라고 기대했다.

음성인터페이스는 수십 년간 기술자들(물론 공상과학 소설가들도 그렇겠지만)의 꿈이었다.

그러나 최근 몇 년 사이 기계학습의 획기적인 발전으로 음성 제어가 훨씬 더 쉬워졌다.






이제는 미리 정해진 몇 개의 명령어를 넘어서 베이징의 시끄러운 길거리나 방의 한구석에서 소리치듯 말해도 작동한다. 애플의 시리, 마이크로소프트 코타나, 구글 나우 같은 음성기반의 가상 비서들은 대부분 스마트폰에 기본 설치돼 있다.

아마존 알렉사 같은 비교적 최신 기기는 목소리만으로 정보를 검색하고 노래를 재생하며 장보기 목록을 작성할 수 있다.

이 시스템은 이따금 명령어를 잘못 알아듣거나 웃길 정도로 잘못 해석하는 등 완벽과는 거리가 멀다.

하지만 발전을 거듭한 덕분에 기기마다 새 인터페이스를 배워야 할 필요가 없어질 우아한 미래를 엿볼 수 있게 됐다.



바이두는 정확도 높은 음성인식을 통해 특별히 인상적인 진전을 보였고 대화형 인터페이스를 더 발전시킬 역량을 지녔다.

2000년 중국에서 (현재는 차단된) 구글의 대안으로 설립된 바이두는 중국 검색엔진 시장의 70%를 차지하고 있다.

지금은 음악부터 영화스트리밍, 뱅킹, 보험에 이르기까지 다양한 서비스를 하는 포털로 진화했다.

중국에서 효율적인 모바일 인터페이스는 매우 유용하다.

스마트폰은 데스크탑 컴퓨터나 노트북보다 더 많이 사용되지만 웹서핑이나 문자 작성은 고통스러울 정도로 느리고 짜증나는 일이다.

한자는 수천 개에 달하고, 소리 나는 대로 라틴문자를 입력하면 한자로 바꿔주는 병음입력 체계를 모르는 사람(특히 50세 이상)도 많다.



또 중국에서는 위챗 같은 메시지 앱으로 식당에서 음식 값을 지불하는 것이 일반적이다.

그러나 상대적으로 빈곤한 지역에서는 높은 문맹률이 장애물이 되고 있다.

MIT테크놀로지리뷰의 젊은 혁신가로 선정됐던 응 교수는 “어려운 과제이자 기회다. 데스크탑 컴퓨터가 익숙한 사람들에게 스마트폰 적합한 새로운 행동을 훈련시키기 보다는 처음부터 모바일 기기를 가장 효율적으로 사용할 수 있는 방법을 가르칠 수 있다”고 말한다.

응 교수는 이른 시일 내에 다양한 기기와 상호작용하는 데 음성인식 기술을 사용할 수 있을 만큼 신뢰도가 높아질 것이라고 했다. 로봇이나 가전과 대화할 수 있다면 다루기가 훨씬 쉬워질 것이다.



바이두는 베이징 본사와 실리콘밸리에서 음성인식 기술의 정확도를 높이고 컴퓨터가 문장의 의미를 더 잘 분석하도록 돕는 연구팀을 운영하고 있다.



중국 바이두 본사의 연구진은 대화할 수 있는 디지털 비서를 꾸준히 개발해왔다.
(중국 바이두 본사의 연구진은 대화할 수 있는 디지털 비서를 꾸준히 개발해왔다.)




수십 년간 음성기술을 연구해온 MIT 수석 연구과학자 짐 글래스는 드디어 음성제어의 시대가 왔다는 데 동의한다.

“이제 음성기술이 전환점을 맞이했다. 경험상 리모콘 조절 대신 기기와 대화할 수 있게 되면 사람들은 그 방법을 선호하게 될 것이다.”

지난해 11월 바이두는 실리콘밸리 연구소가 딥스피치2라는 강력한 음성인식 엔진을 개발했다고 발표, 음성인식 기술의 중요한 변화를 알렸다.

이 시스템은 음성기호로 표기된 문장 예제 수백만 건을 바탕으로 소리를 단어와 구문으로 연결할 수 있는 방대한 (혹은 ‘깊은’) 신경망으로 이뤄졌다.



딥스피치2는 놀라울 만큼 정확하게 말을 인식한다. 연구자들은 이 기술이 일부 표준중국어를 사람보다 더 정확히 받아 쓸 수 있다고 말했다.

표준중국어가 음성학적으로 복잡하고 성조에 따라 단어의 의미가 달라질 수도 있다는 점을 고려하면 바이두의 성과는 매우 인상적이다.

딥스피치2가 놀라운 또 하나의 이유는 기술을 개발한 캘리포니아연구소 직원 중 표준중국어, 광둥어나 다른 중국어 방언을 구사하는 사람이 많지 않다는 것이다.

본질적으로 이 엔진은 예제를 충분히 제공하면 영어도 배울 수 있을 만큼 보편적인 음성기술 시스템이 될 수 있다.



현재 바이두의 검색엔진에 입력되는 대부분의 음성 명령어는 내일 날씨나 오염도 등에 관한 것이다.

시스템은 이런 명령에 매우 높은 정확도를 보인다.

그러나 갈수록 사용자들은 더 복잡한 질문을 한다.

여기에 대응하기 위해 회사는 지난해 '듀어'란 음성인식 비서를 출시했다. 듀어를 통해 사용자들은 영화를 예매하고 레스토랑을 예약할 수 있다.



다음 도전과제는 갈수록 복잡해지는 음성 명령어를 이해하고 지적으로 대응하도록 가르치는 것이다.

의미 있는 양방향 대화를 하면서 변화하는 정보를 실시간으로 적용하는 게 목표다.

바이두의 베이징 본사 연구팀은 사용자의 검색명령어를 해석하는 시스템을 개선하고 있다.

이를 위해 바이두가 음성인식 기술에 사용한 신경망 기술을 적용해야 하지만 다른 기법도 필요하다. 또 바이두는 듀어에 입력되는 검색어를 분석하고 오류를 수정하는 전담팀을 구성, 시스템을 훈련하고 있다.



“미래에는 모든 기기와 의미 있는 대화를 할 수 있으면 좋겠다. 언젠가 내 손자들이 ‘옛날 옛적 2016년에는 정말로 전자렌지에 ‘안녕’이라고 말해도 아무런 대답도 않고 그냥 무시했나요?’하며 신기해하는 날이 오기를 고대한다.”

엔드류 응 교수의 말이다.



번역 김은혜

<본 기사는 테크M 제36호(2016년4월) 기사입니다>

뉴스