바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

'목소리 알아듣고 시키는 일 척척' 화자인식의 세계

커버스토리3 인공지능 통한 화자인식

2017-11-27강진규 기자

인공지능 통한 화자인식 어디까지?

소설이나 영화 속에 등장하던 음성인식이 언제부터인가 초등학생들에게도 낯설지 않은 기술이 됐다. 아마존, 구글 등이 음성을 인식하는 인공지능(AI) 스피커를 선보인 후 유사 제품들이 쏟아지고 있다.

딥러닝 등 AI 기술이 음성인식에 적용되면서 인식률도 크게 높아졌다.

음성인식은 스마트폰, 스마트 스피커 뿐 아니라 가전제품, 자동차 등 각종 제품과 서비스에 융합될 것으로 전망된다.

시장조사업체 가트너는 2015년 3억6000만 달러(약 4050억 원)였던 글로벌 음성인식 스피커 시장 규모가 연평균 40% 이상 성장해 2020년에는 21억 달러(약 2조3600억 원) 수준에 이를 것으로 전망하고 있다.

음성 분석 환경, 녹음 가능성 등 아직 넘어야할 산이 많지만 낮은 단계의 화자인식 기술이 조만간 등장하고 다양한 분야에 응용될 것이란 설명이다.

시장조사기관 테크나비오에 따르면 전 세계 화자인식 시장은 2014년 6억7000만 달러(약 7600억 원)에서 올해 10억7900만 달러(약 1조2200억 원), 2019년에는 18억4100만 달러(약 2조800억 원)로 커질 전망이다.

 

음성인식의 전성시대가 열리기까지

말은 가장 중요한 의사소통 수단 중 하나다. 말을 통해 자신의 주장을 표현하고 전달한다. 이에 사람들은 음성을 전달하고 인식하는 것에 대해 큰 관심을 보여왔다.

19세기부터 음성을 전달하고 녹음하는 연구가 진행됐다. 독일의 요한 필립 라이스는 소리를 전류로 바꾸는 장치를 개발했다. 이 같은 연구 성과를 기반으로 1876년 미국의 알렉산더 그레이엄 벨이 전화기를 만들고, 미국 특허청에 특허를 출원하기에 이른다.

1877년에는 토머스 에디슨이 소리를 기록하고 재생하는 축음기로 특허를 신청했다. 축음기는 녹음기의 시초로 알려져 있다.

사람의 음성에 담긴 뜻을 기계가 알도록 하기 위한 음성인식 기술에 대한 연구도 오래전부터 이뤄졌다.

정보통신정책연구원이 올해 5월 소개한 ‘음성인식 AI 비서 시장의 현황과 시사점’에 따르면 음성인식(Speech recognition) 관련 연구의 시작은 1954년 IBM과 조지타운대학이 공동으로 참여한 기계번역 기술 개발 프로젝트다. 이후 많은 기업, 연구소, 대학 등에서 음성인식 연구를 진행해왔다.

음성인식에 사람들이 주목한 것은 음성이 인간에게 보편적인 커뮤니케이션 도구인 동시에 다양한 정보를 담고 있기 때문이다.

인문사회과학기술융합학회 논문집에 올해 3월 수록된 ‘전화상담 목소리 분석을 통한 신용 파라미터 추출에 관한 연구’에 따르면 음성은 언어 요소 외에 감정, 건강, 자신감, 스트레스 등 100여 가지의 정보를 동시에 전달할 수 있다.

음성인식을 위해서는 방대한 음성 데이터를 처리해야 한다. 이를 지원하는 기술과 IT인프라 부족으로 1950~1990년대까지는 음성인식 연구에 한계가 있었다.

그러다 2000년대 컴퓨터 연산능력과 네트워크 대역폭 확대로 실시간에 가까운 데이터 분석이 가능해지면서 음성인식 기술도 빠르게 진화한다. 여기에 딥러닝 등 인공지능(AI) 기술까지 접목되면서 2010년 이후 음성인식은 시장에서 주류로 부상했다. 특히 모바일 시장을 빠르게 파고들었다.

포문은 애플이 열었다. 애플은 2011년 10월 선보인 아이폰4S에 음성인식 비서인 ‘시리(Siri)’를 장착했다. 이후 구글, 삼성전자 등도 비슷한 음성 서비스를 제공하면서 스마트폰과 음성인식의 결합은 주류가 됐다.

아마존이 개발한 음성인식 스피커 에코 모습

2014년은 음성 인식이 또 한번의 도약을 이룬 시기였다. 아마존이 음성인식 기능을 갖춘 스마트 스피커 ‘에코(Echo)’를 선보이며 음성이 중심이 된 생태계를 구축하기 시작했다.

아마존에 이어 구글과 마이크로소프트 등 굵직한 회사들이 이 시장에 뛰어들었다.

구글은 2016년 스마트 스피커 ‘구글 홈’을 내놨고, 마이크로소프트(MS)도 오디오 업체 하만카돈과 협력해 만든 ‘인보크’를 선보였다.

국내 기업들도 시장에 대거 진출했다. KT ‘기가지니’, SK텔레콤 ‘누구’, 네이버 ‘웨이브’, 카카오 ‘카카오 미니’ 가 비슷한 시점에 시장에 쏟아졌다.

전문가들은 앞으로 다양한 분야로 음성인식이 확산될 것으로 보고 있다. 장준혁 한양대 융합전자공학부 교수는 “음성인식이 지금은 스마트폰, 스피커 등에 쓰이고 있는데 앞으로는 로봇에 탑재되고 금융 콜센터, 의료, 자동차 등 다양한 분야에도 확산될 수 있다”고 내다봤다.

KT가 제공하는 인공지능비서 ‘기가지니’ [출처: 뉴시스]

 

목소리만으로 진짜 아이유 맞출까

음성인식은 음성인식, 자연어 처리, 대화 처리, 서비스 단계로 구분된다. 음성인식은 음성파를 분석해 특징을 추출해 비교 분석하는 방식이 많이 쓰인다.

예를 들면 음파, 주파수 등을 0.001초 단위로 쪼개 데이터를 만들고 음역과 높낮이 등으로 특징을 확인하는 것. 사람들이 ‘아’라고 말할 때 나타나는 보편적인 특징을 확인한 후 이를 비교해 말한 것이 '아'가 맞는지 여부를 판단하는 것이다.

음성인식으로 어떤 말을 했는지 인식하면 그걸 자연어로 바꾸는 작업이 이어진다. 자연어를 모아 문장을 이해하고 그 의미에 따라 정보를 제공하거나 작동하게 하는 방식이 음성 인식의 기본적인 프로세스다.

음성인식에는 특징벡터 추출, 음향모델 학습, 신호처리, 패턴인식 등의 기술이 사용된다. 인공지능 기술 발전으로 음성자체에 대한 인식률이 높아지는 추세다.

1~2단어 분석을 넘어 문장을 분석할 수 있는 수준으로 진화했다. 신대진 이드웨어 대표는 “음성인식 기술 수준이 DNN(심층신경망)-HMM(은닉 마르코프 모델)의 등장으로 상향 평준화 되고 있는 추세“라고 전했다.

인공 신경망은 1940년대 인간의 신경 세포를 모델링해 학습에 이용할 목적으로 연구되기 시작했다. 이후 인공 신경망은 다층 신경망을 구현하는 심층 신경망으로 진화했다.

심층 신경망을 이용한 음성인식 시스템은 기존의 패턴인식 시스템과는 방식이 다르다. 기존의 패턴인식 시스템은 효과적인 훈련과 인식을 위해 먼저 신호에서 특징을 추출하는 과정이 필요하다.

추출한 신호를 유효한 파라미터로 변환한 후 분류기를 구축하고 훈련하는 과정을 거쳤다. 딥러닝 기술은 추출부터 분류와 인식 모두 전체 네트워크에서 이뤄지므로 특징 추출 과정이 없다. 층을 거듭할수록 보다 추상적인 특징을 자동 추출하고 인식한다.

기업들은 외부 기업이나 개발자들이 자사 음성인식 기술을 보다 쉽게 사용할 수 있도록 응용애플리케이션인터페이스(API)로 제공하고 있다.

지난 8월 인문사회과학기술융합학회 논문집에 수록된 ‘음성 인식 오픈 API의 음성 인식 정확도 비교 분석’에 따르면 음성인식 API는 문장 인식에서 높은 점수를 받았다.

구글의 ‘클라우드 스피치 API’와 카카오의 ‘뉴톤(Newtone)’, 네이버의 ‘클로바(Clova) API’를 대상으로 한국어 음성 문장인식을 실험한 결과 네이버와 카카오 API의 문장 인식률이 100%에 달했다.

구글 API의 경우 80%의 인식률을 보였다.

SK텔레콤이 제공하는 인공지능비서 ‘누구’

 

음성인식을 넘어 화자인식으로

음성인식 기술이 발전하면서 단순히 음성의 의미를 분석하는 것을 넘어 개인을 확인하고자 하는 연구도 활발하다. 홍채나 지문처럼 본인인증 수단으로 음성을 활용하는데 초점이 맞춰져 있다.

화자인식은 화자 검증(Speaker Verification)과 화자 식별(Speaker Identification)로 나뉜다. 화자 검증은 말하는 사람이 그 사람이 맞는지를 확인하는 기술이며 화자 식별은 여러 사람들 중 말하는 사람이 누구인지를 찾는 기술이다.

기업들이 화자인식에 관심을 갖는 것은 서비스 사용에 대한 보안과 맞춤형 서비스 제공을 위해서다. 올해 1월 미국에서 벌어진 아마존 에코 오류 소동은 화자인식의 필요성을 보여준 사건이었다.

외신들에 따르면 미국 텍사스에 사는 6살 아이가 에코에 ‘인형의 집’과 놀고 싶다고 말했고 에코가 부모 모르게 인형의 집을 주문했다.

그런데 이 내용을 지역 방송에서 소개했고 TV 방송을 켜둔 가정 내 에코가 TV 소리를 주인의 명령으로 인식해 인형의 집을 주문하는 해프닝이 벌어졌다. 화자인식 기술이 적용됐다면 에코는 주인의 목소리가 아니라는 것을 알고 주문을 하지 않았을 것이다.

화자인식이 발전하면 개인의 목소리로 그 사람이 누구인지 식별해 맞춤형 서비스를 제공할 수도 있다. 이 같은 효용성에 대한 기대로 인해 화자인식 기술은 1980년대 이후부터 관련 연구가 활발히 진행됐다.

화자인식 연구는 사람의 목소리를 디지털화한 후 사람들이 갖고 있는 목소리의 개인적 특징을 찾아내는데 초점이 맞춰져 있다.

2006년 한국해양대학교 논문을 보면 도어락에 화자인식 기술을 적용해 인가된 사람만이 음성으로 문을 여는 실험이 진행됐다. 당시 인가된 사람이 문을 열지 못하는 오류는 5.56%, 인가되지 않은 사람이 문을 여는 오류는 1.1% 정도로 나타났다.

이후 기술이 계속 발전한 만큼 지금 시점에서 오류는 더 줄었을 것으로 추정된다.

전화 목소리로 본인이 맞는지를 확인하는 연구도 진행되고 있다. 인문사회과학기술융합 학회 논문집에 수록된 ‘전화상담 목소리 분석을 통한 신용 파라미터 추출에 관한 연구’에서는 전화 상담으로 본인을 확인하는 것은 물론 향후에는 고객에게 문제가 없는지를 목소리로 파악할 수 있을 것으로 예상됐다.

실제 서비스도 나오고 있다. KT는 2016년 12월 목소리 기반 본인확인과 인증을 통해 금융 결제를 할 수 있는 서비스를 선보였다. KT는 목소리 복제를 막기 위해 실제 사람 목소리와 녹음한 스피커 목소리의 주파수 스펙트럼을 구분하는 시스템을 적용했다.

마이크로소프트는 화자 음성을 사용해 개별 화자를 식별하고 인증하는 API를 제공하고 있다. 이들 업체 외에 주요 스마트 스피커 개발 업체들이 화자인식 기능을 탑재하기 위한 연구를 진행중이다.

화자인식이 스마트 스피커나 스마트폰에 적용되면 이들 기기는 등록된 사람의 명령만 듣게 된다. 서비스 업체 입장에선 개인별 맞춤형 서비스 제공도 가능해진다.

장준혁 한양대 교수는 “딥러닝 기술 발전으로 음성인식이 화자인식 단계로 넘어가고 있다”며 “홍채인식 등이 정확도는 높다고 하지만 단순히 인증을 하는 것이지 명령 등을 할 수는 없다. 반면 음성인식은 효율적으로 사용할 수 있다는 장점이 있다. 의미를 전달하면서 누구인지 알 수 있다”고 설명했다.

음성인식이 인증 단계로 넘어가기 위해서는 갈 길이 멀다는 지적도 있다. 아직 오류가 많기 때문에 금융이나 의료 등 민감한 분야에 인증에 적용하기에는 이르다는 것이다.

한 음성인식 업체 관계자는 “목소리를 가지고 인증을 하려면 정밀한 분석이 필요한데 목소리는 개인의 컨디션 등 환경 영향에 따라 변할 수 있다는 문제가 있다”며 “음성 녹취 기술이 계속 발전하고 있는데 녹취를 통한 인증이 보안 위협으로 이어질 위험성도 있다”고 말했다.

음성이 인증 수단으로 활용되려면 다양한 상황에서 오류없이 쓰일 수 있는 보편성을 좀 더 갖춰야 한다는 지적도 많다.

예를 들면 방음시설이 갖춰진 곳에서 말을 하는 것이 아니기 때문에 주변 잡음의 영향을 받지 않도록 하는 것이 필요하다. 인식 센서와 말하는 사람의 거리와 목소리 크기에 따라 인식률이 달라질 수도 있다.

감기에 걸리거나 컨디션 문제로 목소리가 달라지는 경우도 걸림돌이 될 수 있다. 음성인증 방식으로 출입 장치를 만들었는데 감기에 걸린 직원이 들어가지 못하는 상황이 벌어질 수도 있다.

녹음으로 대리 인증을 하는 것을 막는 것도 중요하다. 현재는 음성과 녹음된 소리를 스펙트럼 변화 등으로 구분하는 기술이 적용되고 있다.

하지만 녹음과 음향기술이 발전하면 실제 음성과 녹음된 소리의 차이가 줄어들 수 있다.

최근 인공지능 기술이 발전하면서 동영상에 있는 목소리를 추출한 후 인조 목소리를 제작하는 것도 가능하다. 가령 문재인 대통령의 담화 영상에서 음성을 추출해 문재인 대통령의 목소리를 인위적으로 만들 수 있다는 얘기다. 이 같은 기술은 실제로 사용되고 있다.

이에 따라 음성인식, 화자인식은 우선 민감하지 않은 분야를 중심으로 확산되거나 여러 개의 인증이 조합되는 복합 인증 중 하나의 도구로 사용될 것으로 예상된다.

금융거래, 보안인증 등 민감한 분야에 음성인증이 사용되는 것은 좀 더 연구가 진행된 후가 될 것으로 보인다.

[테크M = 강진규 기자(viper@techm.kr)]

<본 기사는 테크M 제55호(2017년 11월) 기사입니다>

뉴스