바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

[AI기획]인공지능 구현 전에 먼저 고민해야 할 것은

양질의 데이터가 관건....알파고 만들려면 먼저 알바고 돼야

2017-03-05민현석 삼성전자 연구원

 


알파고의 탄생을 위한 가장 중요한 요건은 질 좋은 데이터가 많아야 한다는 것이다.

최근 각광받고 있는 딥러닝 기술은 데이터 주도형(data-driven)으로 데이터의 양과 질이 기술의 성능을 좌우한다.

인간을 대체 혹은 능가하는 기술을 만들기 위해 가장 필요한 것은 인간이 만든 질 좋은 데이터란 뜻이다. 그러나 질 좋은 데이터를 많이 확보하는 것은 쉬운 일이 아니다.

인공지능(AI)을 적용하기 위해서는 공개된 딥러닝 기술을 이해하는 것은 물론 자신의 데이터를 이해하고 분석해야 한다. 특히 자신의 데이터를 확실히 이해하고 분석하려면 경험이 축적돼야 한다.


 

 

지난해 11월 구글은 저명한 의학저널인 JAMA에 딥러닝 기술을 기반으로 안저 영상(Retinal Fundus Photographs)을 판독해 당뇨성 망막변증(Diabetic Retinopathy; 당뇨의 합병증으로 혈관이 좁아지고 막히면서 발생함)을 진단하는 기술에 대한 논문을 개재했다.

대량의 안저 영상을 이용해 구글의 딥러닝 모델인 인셉션V3(Inception-v3)을 학습시켜 유능한 안과의사에 버금가는 성능을 보인 것이다. 


이 연구 논문에는 특이한 점이 하나 있다. 안저 영상을 기반으로 당뇨성 망막변증을 판별하는 문제를 풀고 있는 논문임에도 불구, 논문에는 단 하나의 안저 영상도 실려있지 않다는 것. 또 안저 영상에서 일반인과 망막변증 환자의 특징이 뭔지에 대한 설명도 없다. 


수많은 안저 영상을 기반으로 딥러닝 모델을 학습시켰더니, 우수한 안과 의사에 버금가는 안과 의사 알파고가 나타났다고 말할 뿐이다. 그것도 이미 공개된 딥러닝 모델을 별다른 기술적 발전 없이 데이터를 학습시키는 것 만으로 여느 인간 의사를 넘어섰다고 말하고 있다. 


반면 이 논문은 데이터 생성 과정에 대해서는 상세히 기술하고 있다. 구글은 이 연구를 위해 미국의 유능한 안과 의사 54명을 동원, 12만장 이상의 안저 영상 학습 데이터셋을 구축했다.

이 논문이 알려주는 교훈은 의사 알파고의 탄생을 위한 가장 중요한 요건은 질 좋은 데이터가 많아야 한다는 것이다. 최근 각광받고 있는 딥러닝 기술은 데이터 주도형(data-driven)으로 데이터의 양과 질이 기술의 성능을 좌우한다.

인간을 대체 혹은 능가하는 기술을 만들기 위해 가장 필요한 것은 인간이 만든 질 좋은 데이터란 뜻이다. 
그러나 질 좋은 데이터를 많이 확보하는 것은 쉬운 일이 아니다.

모든 회사가 구글처럼 엄청난 자본력과 데이터를 확보하고 있는 것은 아니기 때문이다. 특정 분야를 제외하면 한국에 눈에 띄는 인공지능 기술 기반 스타트업이 없었던 것도 이 같은 배경 때문이다. 


좋은 성능을 내기 위해서는 데이터가 많이 필요하고, 데이터를 많이 쌓으려면 좋은 성능으로 서비스를 해야 하는 딜레마 상황에 처하게 된다. 


이러한 상황에도 불구하고 눈에 띄는 인식 서비스를 제공하는 스타트업들이 있다. 촬영한 영수증을 자동으로 인식해 기업의 가계부를 써주는 자비스(Jobis), 명함을 찍으면 자동으로 내용을 입력해 정리해 주는 리멤버(Remember) 등이 그 예다.

이 두 서비스는 입력된 사진의 내용을 직접 보고 사람이 입력해주는 방식을 택하고 있다는 게 특징이다. 사람이 직접 입력하기 때문에 다른 인공지능 기술에 비해 압도적으로 높은 정확도를 보여준다.

또한 서비스를 하기 위해 많은 데이터를 쌓고 값비싼 인공지능 전문 인력을 투입하지 않아도 되었다. 많은 사람들이 이 두 업체를 두고 시대에 뒤떨어지는 ‘알바고’라고 놀려대기도 했다. 


그러나 이 두 업체의 정확도 높은 서비스는 매력적이었고, 결과적으로 두 업체는 우리 나라에서 각각 영수증 영상 데이터와 명함 데이터를 가장 많이 보유한 업체가 됐다. 특히 사람이 직접 입력한 정확한 정보까지 같이 갖고 있다.

또한, 의도했는지는 모르지만 영수증 데이터와 명함 데이터는 기업의 돈의 흐름을 판단하고 상권을 분석할 수 있는 데이터와 한국 비즈니스 인맥 지도를 판단할 수 있는 좋은 데이터까지 확보하게 됐다.

지금은 ‘알바고’라 놀림 받는 인공지능과 거리가 먼 업체일 뿐이지만, 인공지능에 가장 필요한 질 좋은 데이터를 제일 많이 확보했고 하고 있는 미래의 알파고가 기업이 된 것이다. 


AI 기술 적용을 고민하는 회사는 먼저 자문해야 한다. 멋져 보이는 알파고가 되기 위해 놀림 받는 알바고가 될 준비가 되어 있는지. 

 


데이터 밖 세상에도 고객이 


최근 각광받고 있는 딥러닝 기술이 부상한 것은 세계적인 이미지인식기술대회(ILSVRC)에서 두각을 나타내면서부터다. 해마다 과제가 바뀌기는 하지만 이 대회는 주어진 사진을 이용, 어떤 시스템이 사진을 가장 잘 판단하는 지를 측정한다.

예를 들어 강아지 사진을 주면 어떤 강아지가 있는지 기계가 맞추는 것이다. 이미 딥러닝 기술을 기반으로 한 몇몇 기술들이 인간의 정확도를 뛰어 넘었다.

그러나 이 같은 성능은 이건 사람이고 이건 개, 이건 고양이 하는 식으로 데이터마다 한 장 한 장 라벨을 붙여 정답을 알려주는 지도학습(Supervised learning)을 통해 나온 것이었다. 


하지만 수많은 데이터가 필요한 딥러닝에서 지도학습을 위해 전문가가 일일이 데이터 별로 라벨을 붙여주기란 쉽지 않다. 또한, 이런 작업은 인간이 하는 작업이기에 주관이 담겨지기 마련이고, 결국 100% 정확하다고 할 수 없다.


이 때문에 인공지능 학계는 지도학습에서 약한 지도학습(weakly supervised learning; 지도학습과 비지도 학습의 중간쯤)으로, 또 비지도 학습(unsupervised learning; 라벨 없이 알아서 분류하도록 하는 학습)으로 연구의 중심이 옮겨가고 있다. 


그런데 만약 그렇게 방대한 데이터가 있다면 어떨까? 무엇이 어디 있는지 전문가들이 직접 작성한 데이터가 있고, 그 정확도가 높다면 어떨까? 그래서 그 데이터를 기반으로 학습을 해 엄청난 성능을 내는 기술을 만든다면 우리는 이 기술에 우리의 목숨을 선뜻 맡길 수 있을까? 


물론 이 경우 성능이 크게 높아질 것이고, 산업계에서는 인간보다 사고율이 현저하게 낮은 기술이 나왔다고 광고할 수는 있을 것이다. 

 

>>>

아무리 완벽한 데이터라고 해도 실험실 안에서 얻은 성능만을 보고

환상에 도취되어 있지 말아야 한다. 서비스는 실패해도 되는 실험이 아니다.


그러나, 우리는 아직 해결하지 못한 질문이 하나 있다. ‘이 데이터가 현실 세계의 모든 상황을 다 커버하고 변화하는 현재와 미래를 대변할 수 있는가?’ 하는 질문이다. 이번 CES 2017에서 큰 관심을 모은 자율주행차를 생각해보자.

눈이 와도 아무 문제가 없을까? 차량이 바뀌면? 도로에 싱크홀이 생겼다면? 몇 년 전 광화문이나 강남에서처럼 홍수로 도로가 잠겼다면? 역주행을 하는 차량과 마주치게 된다면? 우리나라가 아닌 다른 나라에서는? 갑자기 도로에 코끼리가 나타났다면? 우스운 질문처럼 보이지만 이렇게 엉뚱한 질문에 다 대답할 수 있어야 하고, 하려고 노력해야 한다. 


그 데이터 밖 세상 속에 있는 고객이 바로 당신일 수도 있고, 당신의 아이일 수도 있기 때문이다. 데이터 밖 세상 속 고객에게 당신이 만든 기술이 인간보다 평균적으로 뛰어났다고 말하는 것은 큰 위로가 되지 못할 것이다. 


이것이 ADAS(지능형운전자보조시스템) 분야의 선두주자인 모빌아이가 세계 최고 수준의 기술을 가지고 있음에도 불구하고 지금도 전 세계에서 거의 모든 차종을 통해 주행데이터를 쌓고 있는 이유다.

그러므로 아무리 완벽한 데이터라고 해도 실험실 안에서 얻은 성능만을 보고 환상에 도취되어 있지 말아야 한다. 서비스는 실패해도 되는 실험이 아니다. 


AI는 마법상자가 아니다 


1996년 IBM 사의 딥블루가 체스의 그랜드마스터 게리 카스파로프를 이겼을 때만 해도 사람들은 바둑만은 절대 이길 수 없을 것이라고 여겼다. 또 바둑을 이기면 사람이 할 수 있는 많은 영역이 무너진다고 생각했다.

 
그러나 지난해 3월 11일, 구글 딥마인드의 알파고가 세계 최고 프로바둑 기사중 한명인 이세돌 선수를 이겼다. 이 사건은 AI가 계산 영역이 아닌 사고의 영역에서도 우수할 수 있다는 사실을 인정하는 계기가 되었고, SF 소설에서나 나오던 미래의 AI가 우리 옆에 와 있음을 체감하게 한 일대 사건이었다. 


미국 정부는 백악관 주도로 ‘AI의 미래를 위한 준비(Preparing for the Future of Artificial Intelligence)’란 보고서를 통해 딥러닝 기술을 포함한 인공지능이 많은 인간의 일자리를 대체할 것이라고 경고하기도 했다. 이 같은 사건을 계기로 많은 사람들이 인공지능에 대해 관심을 갖고 이해를 높이게 됐다. 


최근 인공지능 기술의 발전은 공유의 문화 안에서 발전해 왔다. 예전과 달리, 학회 발표 전에 기술 논문들은 실시간으로 아카이브(https://arxiv.org)를 통해 공유되고, 구현 기술들은 깃허브(https://github.com/)를 통해 다른 이들이 테스트하거나 수정해 사용할 수 있게 제공된다.

그래서 많은 사람들은 최신 기술의 코드를 받아 적용할 수 있게 됐고, 많은 분야에서 엄청난 성능의 향상을 가져왔던 것도 사실이다. 

 


그러나 이 때문에 오해가 자라게 됐다.  많은 사람들이 “인공지능 기술 그냥 가져다 쓰면 되는 거 아냐? 알파고에 쓰인 딥러닝 기술을 쓰면 되잖아? 공개된 코드 받아서 돌리면 되는 거 아냐?” 라고 생각하는 것이다. 인공지능과 관련된 기술문제가 쉽게 해결될 것이라고 생각하는 것이다. 


이런 오해는 이번이 처음은 아니다. 인공지능의 역사는 1950대부터 시작되었다. 당시 엄청난 기대와 시도가 있었지만 사람들의 오해와 기대에 못 미치는 성능간 차이 때문에 인공지능은 1970년대, 그리고 1980년대에 두 번의 큰 침체기를 맞았다. 


이 침체기를 ‘AI의 겨울’이라고 부른다. 이후 투자와 관심이 사라졌고, 학계는 물론 산업계에서도 인공지능 기술을 찾아보기 어려웠다.

두 번의 침체기를 극복하고 최근의 주목이 있기까지는 제프리 힌튼 교수(토론토대학), 얀 르쿤 교수(뉴욕대학), 그리고 요슈아 벤지오 교수(몬트리올대학) 등이 사람들의 무관심과 학계의 멸시에도 불구하고 오랜 기간 노력해온 결과이기도 하다.

그러나, 또 다시 모든 문제가 해결되었다는 지나친 환상 속에서 인공지능을 바라본다면 또 다른 ‘AI의 겨울’를 자초할 뿐이다. 


사람들의 기대처럼 단순히 공개된 코드나 기술을 적용해 풀 수 있는 문제는 제한적이다. 공개 코드를 적용해 문제를 확인하고 한 걸음 더 들어가야 고객을 만나고 만족시킬 수 있다. 이렇게 인공지능 기술과 고객을 만족시킬 성능간의 거리를 좁히는 것이 기술력이지, 단순히 AI를 쓰는 것은 기술력이 아니다. 


그리고 그 한걸음을 묵묵히 떼는 게 후발주자들을 따라올 수 없게 하는 기술 장벽이다. 그러나 이 장벽을 만드는 것은 정말 힘들다. 공개된 딥러닝 기술을 이해하는 것은 물론 자신의 데이터를 이해하고 분석해야 한다. 특히 자신의 데이터를 확실히 이해하고 분석하려면 경험이 축적돼야 한다. 


이 같은 기업의 사례로 딥러닝 기술을 기반으로 의료 영상 데이터를 판독, 다양한 병을 진단하는 루닛, 뷰노, 딥바이오 등을 들 수 있다. 이들 기업의 성과에 기대를 거는 것은 이들이 국내에서 가장 많은 의료영상을 본 AI 전문가 집단이기 때문이다. 


AI적용을 고민하고 있다면 AI라는 마법상자에 매달리기 보다 회사의 문제를 끊임없이 관찰하고, 한걸음 나아가기 위해 노력하는 것이 먼저다.

그리고 AI전략을 수립하기 전에 먼저 이 질문에 대답해야 한다. 
‘우리 회사는 AI를 통해 문제를 해결하기 위해 끊임 없이 노력하고 기다릴 자신이 있는가.’ 

 

<본 기사는 테크M 제46호(2017년 2월) 기사입니다>

 

 

뉴스