바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

ETRI, 5개 외국어 음성과 영어대역문장DB 배포…태국어와 말레이어, 인도네시아어, 아랍어, 베트남어

13년 간 네이버, 삼성, SKT 등에 367건 배포, ․550억 절감 효과

2019-02-27박응서 기자

인공지능과 음성 인식, 번역에 효과적인 활용할 수 있는 외국어 DB를 쉽게 얻을 수 있는 길이 열렸다.

한국전자통신연구원(ETRI)이 27일 국내에서 처음으로 태국어와 말레이어, 인도네시아어, 아랍어, 베트남어 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다고 밝혔다. 음성인식과 번역엔진에 대한 외국 기술 의존도를 줄여, 국내 기업이 해당 언어를 활용한 다양한 서비스 개발에 큰 도움이 될 것으로 예상된다.

이번에 배포하는 음성 DB는 최근 인기 있는 인공지능(AI) 스피커와 내비게이션, 사물인터넷(IoT) 같은 장치에서 음성인식과 번역 SW를 개발하는데 필요한 기초 자료다.

가능한 많은 언어와 품질이 좋은 DB를 구축하면 서비스를 다양화하고, 고부가가치 서비스를 창출하는데 핵심으로 활용할 수 있다.

하지만 그동안 DB를 확보하는 데 여러 장벽이 있었다. 외국 업체에서 외국어 음성 DB를 구입할 수 있지만 비용이 많이 들었다. 특히 관련 자료가 없는 나라 언어는 자체적으로 수집하는 수밖에 없어 시간과 비용에 큰 문제가 발생했다.

이런 문제를 인식한 ETRI가 이를 해소하는데 나선 것이다. 태국어와 말레이어, 인도네시아어, 아랍어, 베트남어 대화체 음성 DB 200만 발화(發話)와 영어-태국어, 영어-말레이어, 영어-인도네시아어, 영어-아랍어, 영어-베트남어 대화체 대역(對譯)문장 DB 300만 문장을 배포한다. 태국어와 말레이어, 인도네시아어 자료는 국내 최초로 제공하며, 아랍어와 베트남어는 ETRI가 기존에 제공한 자료에 데이터양을 늘려 배포한다.

국내 업체들은 ETRI가 제공하는 자료를 받아 DB 구축 비용을 대폭 절감할 수 있다. 외국 업체에서 DB 구입 시 언어 당 1~2억원 정도 비용이 소요된다. ETRI는 5% 수준에서 제공할 예정이다.

 

특히 이번 DB는 최대한 많은 사람들로부터 언어 데이터를 얻으려고 크라우드 소싱 기법을 도입했다. 총 2만 5000여 명이 발화에 참여했다. 단순히 데이터 양만 늘린 것이 아니라 높은 정확도까지 확보했다. 외부 감리 업체 측정 결과 99%가 넘는 높은 품질을 인증 받았다. 기존보다 더 많은 양을 축적한 데이터를 토대로 집단 지성에 의한 검증 시스템을 도입했기 때문이다고 ETRI 측이 설명했다.

ETRI 음성지능연구그룹 윤승 박사는 “이 DB를 활용해 언어음성기술을 개발하면 다양한 외국 신규시장 진출과 국가 경쟁력 강화에 크게 기여할 것으로 예측한다”고 설명했다.

ETRI는 2011년부터 한국어, 영어, 일어, 중국어 언어음성DB를, 2014년에는 프랑스어, 2015년에는 독일어, 러시아어, 아랍어, 베트남어를 구축해 배포했다.

현재까지 삼성전자와 LG전자, KT, 네이버, 카카오, 엔씨소프트, 보이스웨어, 셀바스AI, 시스트란 인터내셔널, 솔트룩스 같은 국내 60개 기관에 367건 DB를 배포하며 총 550억원에 달하는 비용 절감 효과를 얻었다. 이번 DB도 국내 10개 기관에 배포할 경우 최소 150억원 수입대체 효과를 얻을 수 있다.

ETRI가 배포 중인 DB는 총 45종으로 ETRI 홈페이지에서 찾을 수 있다.

 

[테크M = 박응서 기자(gopoong@techm.kr)]