바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

인간을 모방하다, 인간을 이기다

2016-04-05감동근 아주대 전자공학과 교수
대국 후 기자회견을 진행하고 있는 이세돌 9단(왼쪽)과 데미스 하사비스 딥마인드 최고경영자, 데이비드 실버 리서치 사이언티스트
대국 후 기자회견을 진행하고 있는 이세돌 9단(왼쪽)과 데미스 하사비스 딥마인드 최고경영자, 데이비드 실버 리서치 사이언티스트

[머니투데이방송 테크M = 감동근 아주대학교 전자공학과 교수]
‘구글 딥마인드 챌린지 매치’에서 알파고가 이세돌 9단에게 4승 1패를 거두면서 우승을 차지했다.

내 인생에 결정적인 영향을 미친 세 번의 인공지능과 인간의 대결에서 모두 인공지능이 이긴 것이다. 1997년 전공으로 선택했던 물리학에 흥미를 잃고 방황하던 무렵, IBM의 딥블루가 세계 체스 챔피언 개리 카스파로프를 이기는 것을 보고 나도 언젠가는 IBM에서 인공지능을 만들고 싶다는 꿈을 갖고 전자공학으로 전공을 바꿨다.

그로부터 10년 뒤인 2007년에 뉴욕의 IBM 연구소에 입사했다.

당시 IBM은 퀴즈를 푸는 인공지능 왓슨을 개발하고 있었고 나도 그 프로젝트에 참여했다. 인간이 사용하는 자연어는 규칙이 단순하지 않고 같은 표현이라도 전체 맥락에 따라 의미가 달라지며, 온갖 비유와 역설적인 표현으로 가득 차 있어 인공지능에게는 규칙이 정해진 체스보다 훨씬 어려운 분야로 여겨진다.

그러나 2011년 ‘제퍼디 퀴즈 쇼’에서 왓슨은 역대 최고의 출연자 두 명을 압도적인 차이로 물리친다.

이후 나는 귀국해서 대학생들을 가르치고 있다. 그런데 내 본업 외에 가장 관심이 많은 분야가 바로 바둑이다. 한국기원 공인 아마 5단으로, 프로기사와의 지도대국에서 넉 점으로는 지지 않을 자신이 있다.

나는 알파고가 이세돌 9단과 대국을 한다는 소식을 듣고 깜짝 놀랐다. 지금까지 최고의 바둑 인공지능은 기껏해야 나와 비슷한 수준이었는데, 알파고가 이세돌 9단에게 도전한다니! 인공지능이 발전을 거듭하면 언젠가 이런 날이 올 줄 알았지만 너무 갑작스러웠다.

딥러닝으로 효율을 높인 알파고

기존의 바둑 인공지능도 몬테카를로 기법을 사용한 수읽기 엔진을 갖고 있었다. 다만 초반 포석 단계에서는 빈 곳이 너무 많아 수 읽기만으로는 도저히 풀어갈 수 없기 때문에 정석을 데이터베이스화 해 초반을 그럭저럭 넘겨보자고 했다. 문제는 정석도 부분적으로 봤을 때 쌍방 최선의 진행일 뿐, 주위의 배석이 어떻게 되느냐에 따라 유불리가 엄청나게 달라진다.

그래서 바둑에서는 정석을 공부하되 그 의미를 깨우친 다음에는 정석을 잊어버리라고 가르친다.

바둑 기술의 절반이 수읽기라면 나머지 절반은 소위 ‘감각’이라고 부르는, 모양에 대한 이해력이다.

인간 고수는 수읽기를 할 때도 감각을 바탕으로 안 될 법한 수는 일찌감치 가지치기하고 될 법한 수만 집중적으로 따져본다. 즉 탐색 공간을 몬테카를로 기법보다 훨씬 더 효과적으로 줄여나가는 것이다. 특히 초반 포석 단계에서는 수읽기보다는 감각 위주로 수를 결정한다.

알파고는 기존 몬테카를로 탐색 엔진에다가 인간의 감각을 흉내 내기 위해 패턴 인식 분야에서 뛰어난 성과를 거두고 있던 딥러닝 기법을 접목한 것이다.

패턴 인식 혹은 인지 분야는 계산 분야와는 달리 인공지능이 매우 취약했던 분야였다. 예를 들어 사진을 보고 개와 고양이를 구별해내는 것은 다섯 살 된 어린 아이에게 아주 쉬운 일이다.

그런데 개와 고양이를 구분하는 기준을 컴퓨터가 이해할 수 있도록 한 번 만들어보라. 고양이가 개보다 꼬리가 긴 편이다! → 그런데 컴퓨터는 꼬리를 찾지 못한다? → 몸통에서 폭이 갑자기 좁아지는 부분이 꼬리다! → 그럼 몸통은? 다리와 꼬리는 어떻게 구분하지? …… 이런 난관을 극복하고 겨우 컴퓨터가 꼬리를 찾을 수 있게 한다고 해도 이런 규칙으로는 불행한 사고로 꼬리가 잘린 고양이는 절대 구분해내지 못한다.

그런데 어린 아이들한테는 이런 식으로 가르치지 않는다. 길 가면서 보이는 대로 이것은 고양이, 저것은 개 하는 식으로 몇 번 시범을 보여주면 아이들은 한 눈(직관)에 개와 고양이를 구분하는 것은 물론, 고양이가 개보다 꼬리가 긴 편이라는 특징까지 파악(통찰)해낸다.

2016040514101181735_00_663.jpg

인공신경망을 이용한 머신러닝은 인간의 뇌가 동작하는 방식에 관해 우리가 알고 있는 사실에서 영감을 받아 만든 것이다.

인간의 지능이 아무리 강력하고 신비한 존재라 하더라도 물리적인 차원에서 보면 뇌 안에 시냅스로 연결된 뉴런들이 주고받는 전기 신호의 상호작용으로 벌어지는 현상이다. 즉 특정한 순간에 인간의 정신 상태는 복잡한 신경망 내에서 어떤 뉴런들이 활성화돼 있느냐로 나타낼 수 있다. 그렇다면 이러한 현상을 흉내 냄으로써 지능도 흉내 낼 수 있지 않을까 하는 발상인 것이다.

바둑에서 딥러닝은 현재 상황으로부터 다음 수가 어떻게 결정되는지, 즉 입력과 출력 사이의 관계를 도저히 간단한 함수로 표현할 수는 없지만 뭔가 추상적 사고가 단계별로 진행되는 것 같으니 입력과 출력 사이에 다수의 중간층을 둔 인공신경망이다.

인공신경망에서 ‘학습’이란 시행착오를 통해 각 연결의 강도, 즉 가중치를 찾는 과정이다. 알파고는 인간 고수들의 기보 16만 건에서 추출된 약 3000만 건의 데이터를 사용해 가중치를 각종 최적화 기법으로 찾은 것이다.

학습을 시작하기 전 인공신경망은 무작위로 설정한 가중치를 갖고 있다. 이를 갖고 입력값을 처리했더니 옳지 않은 출력값(기보와 다른 착점)이 나왔다면, 이번 실수를 올바른 결과로 바로잡기 위해 가중치들을 조금씩 조정하는 것이 바로 인공지능에서 말하는 ‘지도 학습’이다.

지도 학습 과정이 끝나면 가중치 값들이 정해질 텐데 이번에는 각 가중치들을 임의로 조금씩 바꿔본다. 그런 다음 바꾸기 전의 신경망과 대국을 시킨다. 그랬더니 주로 이긴다면 바꾼 가중치를 채택하고, 주로 진다면 그 가중치를 반대 방향으로 바꿔보든지, 놔두고 다음 가중치를 바꿔보든지 하는 과정을 반복해나간다. 이것이 ‘비지도 학습’ 또는 ‘강화 학습’이라고 불리는 과정이다.

신경망에서 각각의 중간 노드와 연결 가중치가 어떤 의미를 갖는 지는 이 문제를 푸는 데 별로 중요하지 않다. 딥러닝 기법의 본질은 컴퓨터가 취약했던 고도의 인지 문제를, 컴퓨터가 강력한 힘을 발휘할 수 있는 계산 문제로 치환하는 데 있다.

알파고는 다음 수를 결정하는 ‘정책망’ 외에 또 하나의 신경망을 더 갖고 있다. 바로 ‘가치망’이다. 정책망과 몬테카를로 기법 덕분에 탐색 공간이 엄청나게 줄었지만, 지금 고려하고 있는 수의 선악을 판단하기 위해 종국까지 시뮬레이션 해야 한다면 여전히 계산량이 부담될뿐더러 종국까지 둔 수 중에서 과연 어떤 수가 승리 또는 패배에 결정적인 영향을 미쳤는지 알아낼 방법이 없다. 그래서 나온 아이디어가 종국까지 진행시킨 다음 결과를 보는 대신 현 시점으로부터 몇 수만 진행시켜보고 그 상황에서 형세를 판단하는 것이다.

최신 바둑 이론으로도 아직 두터움의 가치가 몇 집인지 정량적으로 말할 수 없는데, 이러한 평가 함수를 프로그래머가 설정할 필요가 없다는 것이 딥러닝 기법의 장점이다. 정책망의 비지도 학습 때와 마찬가지로 두 가지 버전의 프로그램을 대국시킨다. 하나는 현재의 평가 함수를 그대로 사용한 것이고, 다른 하나 는 현재의 평가 함수를 임의로 변경한 것이다. 만약 변경된 버전이 이기면 그 다음 실험에는 변경된 버전을 채택해 이 과정을 무수히 반복하면 꽤 정확한 평가 함수를 찾아갈 수 있다.

즉 기존의 바둑 인공지능은 수읽기에만 의존하면서 정석 데이터베이스로 초반을 보완했다면, 알파고는 수읽기에다가 감각과 형세판단 능력까지 갖춘 것이다.

알파고가 몬테카를로 트리 서치에서 사용하는 방법에 따른 바둑실력 비교. 정책망 만을 사용해도 아마3단 이상의 실력을 가진다. 롤아웃은 바둑판 전체가 아니라 일부분만 집중해서 빠르게 시뮬레이션하는 방법이다.Elo 레이팅은 바둑 수준을 평가하는 점수 가운데 하나로 알파고와 이세돌 9단의 4번째 대국 후 공개된 점수는 알파고가 3533점, 이세돌 9단이 3521점 이었다. [자료 : 네이처]
(알파고가 몬테카를로 트리 서치에서 사용하는 방법에 따른 바둑실력 비교. 정책망 만을 사용해도 아마3단 이상의 실력을 가진다. 롤아웃은 바둑판 전체가 아니라 일부분만 집중해서 빠르게 시뮬레이션하는 방법이다.Elo 레이팅은 바둑 수준을 평가하는 점수 가운데 하나로 알파고와 이세돌 9단의 4번째 대국 후 공개된 점수는 알파고가 3533점, 이세돌 9단이 3521점 이었다. [자료 : 네이처])

알파고와 이세돌 9단의 대국

3월 9일 이세돌 9단이 1국을 졌다. 알파고의 기력이 지난해 10월에 비해 놀랍게 발전했다. 이 정도 기량을 꾸준히 보인다면 국내 랭킹 10위권에 근접할 수 있을 정도라는 평이었다. 그럼에도 불구하고 이세돌 9단이 평소 실력을 발취했더라면 충분히 이길 수 있었는데, 과도한 긴장과 저조한 컨디션 탓에 실수가 너무 많았다.

3월 10일 이세돌 9단이 2국도 졌다. 무난히 끌고 가면서 실수만 줄이면 이길 줄 알았는데, 중반 이후 알파고의 형세 판단과 반면 운영이 완벽했다. 1국을 패했을 때보다 충격이 훨씬 컸다. 방송 해설을 하던 프로기사들은 종반까지도 형세를 유리하게 봤다. 알파고는 우리가 볼 때 나쁜 수를 몇 차례 둔 반면, 이세돌 9단은 눈에 띄는 악수를 두지 않았으므로 이세돌 9단의 형세가 당연히 좋으리라 생각한 것이다.

30년 전 이창호 9단이 등장했을 때의 기시감이 들었다. 당시 그의 수법들 중 상당수는 선배 프로기사들의 지지를 받지 못했다. 기존의 바둑 이론에 부합하지 않는 수법이 많았기 때문이다. 그런데 그런 수법을 구사해 역전을 허용하지 않고 조금씩만 이겨가는 경우가 많아지자 바둑 이론에 새 지평이 열렸다. 계산하기 어려우니까 선택의 문제, 기풍(스타일)의 문제로 치부했던 영역이 사실은 정밀한 계산이 가능함을 당시의 이창호 9단이나 지금의 알파고가 보여주고 있는 것이다.

3월 12일의 3국은 중반 이후 집계산 대결로 가면 불리하다는 것을 깨닫고 이세돌 9단이 초반부터 다소 무리하게 싸움을 걸어간다. 공격이 실패하자 대번에 불리해져서 허무하게 한 판을 더 내줬고, 알파고의 시리즈 우승이 결정됐다.

1936년 튜링이 현대 컴퓨터의 개념을 제시하고, 1956년 인공지능이 본격적으로 연구된 지 60년 만에 거둔 쾌거다. 그 동안 이 분야에 헌신한 모든 연구자에게 축하를 보낸다.

오랜 시간 여러 사람이 공동으로 쌓아 올린 연구 결과가 마침내 가장 재능 있는 인간을 넘어선 것이다. 이로써 바둑처럼 결정을 내리기 위한 모든 정보가 공개돼 있고 목표와 규칙이 명확하게 정의된 문제라면 어떤 문제라도 풀어낼 가능성이 높은 학습 엔진을 인간이 갖게 됐다.

3월 13일 벌어진 4국에서 이세돌 9단이 알파고의 약점을 간파한 묘수 한 방으로 마침내 한 판을 따냈다. 마치 ‘인간 두뇌의 최후의 보루’가 된 것 같은 압박감, 누적된 피로, 난생 처음 접해보는 상대 등 최악의 조건에서 3연패를 당하면서도, 불굴의 정신력으로 도전해 마침내 4국을 따내는 장면은 챔피언의 위대함을 보여주기에 충분했다.

전 국민이 인공지능 위력 각성

3월 15일의 최종국에서 이세돌 9단은 중국 룰에서 불리하다고 알려진 흑을 일부러 선택하고, 알파고의 약점으로 이미 드러난 낯선 상황에서의 버그를 유발하기 보다는 서로 최선의 바둑을 뒀을 때 이길 수 있다는 것을 보여주려고 했다. 이는 인간만이 할 수 있는 존엄한 선택이다.

중반까지 유리한 국면을 만들었음에도 인간이기에 승부처에서 한 순간 마음이 조금 약해지면서 역전 당해 결국 패했지만, 일체의 변명도 하지 않고 오롯이 자신의 능력 부족으로 돌리는 챔피언의 품격도 보여줬다.

구글이 막대한 광고효과를 누렸지만 우리도 전 국민이 인공지능의 위력에 대해 각성하는 계기가 됐다. 이제 흥분을 가라앉히고 차분히 인공지능 시대를 어떻게 준비할 지 생각해야 한다.

<본 기사는 테크M 제36호(2016년4월) 기사입니다>