바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

사람들은 왜 음성비서를 더 많이 이용하지 않을까

2017-09-14연세대학교 UX랩 인지공학스퀘어(최재형, 조광수)

 

 [테크M=글 연세대학교 UX랩 인지공학스퀘어(최재형, 조광수)]

음성 기반 사용자 인터페이스가 우리의 일상 속으로 자리 잡고있다. 2011년 애플의 ‘시리’를 필두로, 2013년에는 구글의 ‘오케이 구글’이 등장하고 아마존의 ‘에코’까지 음성 기반 인터페이스는 과시용 기술을 넘어 이미 스마트폰, 컴퓨터, 그리고 가정용 스피커까지 일상의 곁으로 다가왔다.

국내에도 2016년 SK텔레콤의 ‘누구’, 2017년 KT ‘기가지니’, 삼성전자 ‘빅스비’가 등장했고, 네이버와 카카오도 올해 안에 인공지능(AI) 음성비서 서비스를 내놓을 전망이다.

많은 기업은 왜 앞 다퉈 음성 기반 서비스를 출시하는 것일까?

그 이유는 전통적인 화면 기반의 인터페이스가 가질 수 없는, 음성 기반 인터페이스만의 여러 장점 때문이다. 음성과 대화는 사람의 가장 원시적이면서도 본능적인 의사소통 수단이다. 사람은 스마트폰이나 컴퓨터를 통해 글을 입력하거나 펜과 같은 필기구를 통해 하루 평균 3000~4000단어 가량을 쓴다(Nass & Brave, 2005).

반면 사람은 여러 사람과 대화하면서 하루 평균 1만6000단어 가량을 내뱉는다. 음성 인터페이스를 사용할 때에는 상대적으로 적은 노력이 필요하기 때문에 다중 과제(multitasking)에 용이하다. 게다가 음성 인터페이스를 다루는데 우리의 눈과 손은 필요없다. 이러한 특성 덕분에 우리는 운전 중이나 요리 중, 혹은 TV를 시청하면서도 음성 인터페이스를 통해 기기를 조작할 수 있다.


더불어 음성을 통한 대화는 단순한 의미적 의사소통을 넘어 감정을 주고받는 등 풍부한 정보 교환이 가능하다. 음성의 높낮이나 말의 빠르기 등을 통해 상대의 신원을 파악하고 성격을 점쳐볼 수도 있으며, 감정 상태를 예상해 볼 수도 있다.

하지만 이러한 장점에도 불구하고 음성 기능을 매일같이 유용하게 쓰고 있는 사람은 드물다.

딜로이트가 2016년 영국에서 스마트폰 사용자를 대상으로 실시한 조사에 따르면, 약 61%의 사용자는 스마트폰 음성비서 시스템을 이용해본 적이 없는 것으로 나타났다. 음성비서 서비스를 사용하는 28%의 사람도 주로 일반적인 정보검색이나 내비게이션 같은 단순 기능을 중심으로 사용한다고 한다.

사람들은 왜 음성 기반 인터페이스를 잘 사용하지 않는 것일까.

 

민감한 프라이버시 문제

우리가 음성 기반 인터페이스를 경험하면서 가장 먼저 체감하는 문제는 아마도 프라이버시 문제일 것이다. 더 나아가 AI 에이전트와 사용자의 개인적인 정보를 주고받는 상황이라면 누군가가 옆에 있는 것이 상당한 부담이 될 것이다.

프라이버시와 관련된 문제는 사람 사이의 대화에서도 충분히 일어날 수 있으며, 대화라는 의사소통 수단의 한계점이기도 하다.

이러한 문제를 해결하는데 AI 에이전트가 대화에 능동적으로 개입해 음성 기반 에이전트 사용의 장벽을 허무는 것이 한 방법이 될 수 있다. 사용자의 출근이나 퇴근 시, 혹은 잠에서 깨어났을때 간단한 인사말을 먼저 건내는 것도 장벽을 깨는 첫걸음이 될 수 있다.


더불어 AI 에이전트가 사람과 같이 대화하는 방법을 터득하는 것도 중요하다.

사람은 눈으로 얘기한다는 말처럼 사람은 음성을 통한 언어적 표현 외에도 표정이나 몸짓, 눈빛 등을 통한 비언어적 표현을 통해 의사소통을 한다. AI 에이전트도 화면이나 불빛, 혹은 청각 아이콘을 통해 대화 상태에 대한 신호를 보냄으로써 사용자와의 대화중 관계를 명료하게 정리할 수 있다.

이러한 비언어적 의사소통을 활용하면 대화 참가자간 대화의 주도권을 명료하게 정리해 사람과 같은 자연스러운 대화를 기대할 수 있다. AI 에이전트는 이러한 대화라는 의사소통 수단을 통해 자연스럽게 의인화 특성을 부여 받는다.

하지만 이는 사용자에게 양날의 검이 돼 돌아올 수 있다. 만약 AI 에이전트가 너무나도 사람처럼 행동한다면 사용자는 AI 에이전트에게 사람과 같은 수준으로 일을 처리할 것이란 기대를 갖게 된다.

AI 에이전트의 처리 수준이 뒷받침 되지 않으면서 목소리나 화법만 사람과 같은 양상으로 행동해 기대수준을 높인다면 사용자는 큰 실망을 할 것이다. 어느 순간에는 기계와 같은 목소리가 사용성에 더 도움을 주는 경우도 있으므로, 사용자가 수행하려는 과업에 맞는 의인화 정도를 적절하게 부여하는 것이 중요하다.


>>>

만약 AI 에이전트가 너무나도 사람과 같이 행동을 한다면 사용자는 AI 에이전트에게 사람과 같은 수준으로 일을 처리할 것이라는 기대를 갖게 된다.

AI 에이전트의 처리 수준이 뒷받침 되지 않으면서 목소리나 화법만 사람과 같은 양상으로 행동해 기대수준을 높인다면 사용자는 큰 실망을 할 것이다.

 

휘발되기 쉬운 음성 기억

음성은 쉽게 휘발되는 특성을 갖고 있다. 사람의 단기 기억 용량은 개인의 특성에 따라 조금씩 차이는 있지만 일반적으로 2초 정도의 길이, 혹은 5개 정도의 문자에 불과하다.

그리고 음성 기반 인터페이스의 정보 전달은 일회성에 가깝다. 화면을 통해 전달받은 시각 정보는 언제든지 자유롭게, 그리고 적은 노력으로 다시 확인할 수 있는 반면, 음성 기반 인터페이스에서는 한번 흘러간 정보를 되돌리기 어렵다. 이러한 특성은 복잡한 일을 수행할 때 깊은 메뉴 구조를 거치게 되고, 시간이 많이 걸려 사용성을 저해하는 요인이 된다.

이러한 인지적 한계를 극복하기 위해서는 음성 인터페이스에 최적화된 정보구조를 설계하는 것이 중요하다. AI 에이전트가 사용자에게 정보를 전달하거나 답변을 얻기 위해 발화할 때 긴 문장의 사용을 자제하고 명료한 표현으로 중요한 정보를 서두에 제시해야 한다.

그리고 사용자에게 선택지를 줄 경우에는 가장 많이 연관된 선택지부터 먼저 제시하고, 선택지의 개수가 3개를 넘어서는 안 된다.

만약 여러 단계에서 거쳐 정보를 주고받는다면 그 깊이는 2단계를 넘어서면 안 된다. 또 사용자의 반응을 지속적으로 감지해 사용자가 헤매고 있는지 계속 알아봐야 한다. 사용자가 헤매고 있다면 다시 듣기 기능을 제공하거나 사용자에게 선택 가능한 옵션이 무엇이 있는지 명확하게 알려줘야 한다.

청각을 사용하는 음성 기반 인터페이스는 사용자의 눈에 보이지 않는 특성 때문에 정보 전달에 있어 해상도가 높지 않다.

예를 들면 서울역이 지도상에서 어느 위치에 있는지 사용자에게 알려줄 때 시각 기반의 인터페이스를 통하면 단번에 위치를 특정해 알려줄 수 있다.

반면, 청각 기반의 인터페이스에서는 주소와 같은 위치정보를 알려주고, 이로도 설명이 안 되면 주변에 무엇이 있는지 보조 설명을 거치는 등 정보 전달에 많은 노력이 필요하다.

그러므로 청각 인터페이스를 설계할 때는 스마트폰이나 TV의 화면, 혹은 보조 화면을 통해 시각 정보를 활용해 사용성을 높일 수있다.
 

>>>

자연스럽지 못한 대화는 사용자로 하여금 에이전트에게 어떻게 반응하고, 어떠한 기대를 가져야 하는지 혼란을 줄 수 있다. 그러므로 AI 에이전트와 사용자에게 무슨 일을 처리할 수 있고 없는지에 대한 한계를 명확하게 인지시켜 줘야 한다.

 

청각과 함께 시각 정보를 전달한다면 다중 감각 통합 효과가 발생해 청각의 한계를 보완하는 것을 넘어 사용자에게 더 빠르고 정확한 사용경험을 제공할 수 있다.

단일 감각기관보다 여러 감각기관을 통해 정보를 받아들이는 경우 정보의 통합과정에서 사용자가 더 정확하고 빠르게 일을 해내는 다중 감각 통합의 효과가 있는 것으로 보인다(Calvert & Spence & Stein, 2004).

하지만 무조건 다양한 감각을 통해 정보를 제공한다고 사용성이 높아지는 것은아니다. 감각 정보간 불일치가 발생하면 사용자는 인지적 해석에 더 많은 부담을 느껴 오히려 사용성이 저해될 수 있다. 그러므로 감각 간 적절한 설계가 뒷받침 돼야 다중 감각 통합 효과를 기대할 수 있다.

우리는 음성 기반 인터페이스를 작동하기 위해 회상(recall) 방식으로 사고한다. 사용자는 회상 방식의 인터페이스를 사용하기 위해 작동 방식이나 명령어를 미리 숙지하고 있어야 하고 이를 필요에 따라 능동적으로 머리 속에서 꺼내 사용한다. 마이크로소프트의 도스와 같은 명령줄(command line) 기반 인터페이스를 생각하면 이해하기 쉽다.

이러한 인터페이스는 윈도나 맥의 아이콘이나 버튼 같은 시각적 단서(cue)를 통해 조작하는 인식(recognition) 방식의 인터페이스에 비해 사용법을 터득하기 어려울 수 밖에 없다. 반면 익숙해지면 빠르고 효과적으로 사용할 수 있다는 장점이 있다.

대화라는 의사소통 수단은 이미 우리 모두가 잘 숙지하고 있는 사용법이다. 사람처럼 대화가 자연스럽게 이뤄진다면 처음부터 배울 필요가 없는, 매일매일 사용하는 방식이기에 회상 방식 인터페이스의 장점만을 취할 수 있다.

하지만 아직은 AI 에이전트가 완벽하게 사람처럼 듣고, 말하고, 모든 명령을 처리할 수 있는 수준에 올라서지 못했다.

자연스럽지 못한 대화는 사용자로 하여금 에이전트에게 어떻게 반응하고, 어떠한 기대를 가져야 하는지 혼란을 줄 수 있다. 그러므로 AI 에이전트와 사용자에게 무슨 일을 처리할 수 있고 없는지에 대한 한계를 명확하게 인지시켜 줘야 한다.

특히 사용자가 에이전트와의 대화 중 사용에 문제를 느끼고 아무런 응답을 하지 못할 때 구체적인 예시를 들어 AI 에이전트가 처리 가능한 일을 알려주는 것처럼 오류 상황에서 대처하는 전략을 짜는 것도 중요하다.

 <본 기사는 테크M 제53호(2017년 9월) 기사입니다>