바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

[MIT선정, 10대혁신기술①] 사람같은 판단력 키우는 강화학습

10대 혁신 기술

2017-03-17MIT테크놀로지리뷰

 


혁신성
컴퓨터가 사람처럼 구체적인 지시 없이 학습할 수 있게 하는 인공지능 기술의 하나

왜 중요한가
기계가 경험을 통해 스스로 학습할 수 없다면 자율주행 자동차 등 자동화 기술의 발전은 크게 느려질 것이다.

주요 회사들
딥마인드 / 모빌아이 / 오픈AI / 구글 / 우버

실용화 시기
1~2년 뒤


 

컴퓨터가 실험을 통해 프로그래머가 가르칠 수 없는 것을 스스로 알아낸다.

시뮬레이션 화면에 가상의 4차선 고속도로에서 기막힌 운전 솜씨를 보이는 여러 대의 자율주행차가 보인다. 절반은 오른쪽 진입로에서, 다른 절반은 왼쪽 진입로에서 합류한다. 마치 자율주행 자동차를 괴롭히기 위해 고안된 것처럼 보이지만 차들은 매우 정확하게 목표를 수행한다.

지난해 12월 바르셀로나에서 개최된 세계 최대 인공지능 학회에서 공개된 시뮬레이션이다.

놀라운 사실은 이 자동차를 움직이는 프로그램이 기존의 방식으로 만들어진 게 아니라는 것.

이 프로그램은 훈련을 통해 안전하면서도 자연스럽게 다른 차선에 합류하는 법을 배웠다.

운전 소프트웨어는 매번 조금씩 방법을 바꿔가며 최적의 운전법을 찾는다. 대부분 너무 늦게 합류하거나 다른 차를 방해하지만 어느 순간 모든 것이 부드럽게 이뤄진다. 그러면 이 프로그램은 그런 상황에 도달하게 해 준 운전법을 택한다.

강화학습은 지난 해 바둑에서 인간 최고수를 물리친 알파벳의 자회사, 딥마인드가 개발한 알파고의 핵심 기술 중 하나다.

이제 강화학습 기술은 게임을 넘어 다른 분야에 지능을 부여하는데 사용될 것이다. 자율주행 자동차를 향상시키는 것 외에 로봇이 처음 보는 물건을 집을 수 있게 만들고, 어떤 것이 데이터 센터 최적의 장비 배치인지 찾을 수 있다.

 

강화학습은 자연에 존재하는 매우 단순한 원리를 이용한다.

심리학자인 에드워드 손다이크가 이를 응용한 지 이미 100년이 넘었다. 손다이크는 특정 손잡이를 눌러야만 탈출할 수 있는 상자에 고양이를 집어 넣었다. 오랜 시간 여러 가지 방법을 시도하던 고양이는 우연히 손잡이를 누른다. 이제 고양이는 원하는 결과를 얻는 행동을 학습했고, 이전보다 더 쉽게 상자를 탈출하게 됐다.

초기 인공지능 연구자들은 기계의 학습에도 이를 적용할 수 있을 것이라고 생각했다.

1951년 당시 하버드 학생이었고 나중에 MIT 교수로 인공지능의 아버지 중 한 명이 된 마빈 민스키는 쥐가 미로 탈출을 배우는 방식을 흉내 낸 간단한 강화학습 기계를 만들었다.

민스키의 SNARC(확률적 신경분석 강화컴퓨터)는 40개의 신경과 시냅스를 흉내 내는 수십 개의 진공관과 모터, 클러치로 이루어져 있다.

시뮬레이션 속의 쥐가 가상의 미로를 탈출할 때, 특정 시냅스 연결이 더 강해지고 해당 행동을 권장한다.

이후 수십 년 동안 이 분야는 거의 발전이 없었다.

1992년 IBM의 제랄드 테소로는 강화학습을 이용해 백가몬(우리나라의 윷놀이와 비슷한 보드게임, 자신의 말을 먼저 빼내는 사람이 이긴다)이란 게임을 하는 인공지능 프로그램을 만들었다. 이 프로그램은 최고 수준의 사람과 비슷한 수준에 도달, 인공지능 역사의 중요한 이정표가 됐다.

하지만 강화학습을 더 복잡한 문제로 확장하는 데는 한계가 있었다.

강화학습 진영의 리더 중 한 명인 영국 딥마인드의 연구자 데이비드 실버는 “사람들은 이 기술을 실제로 사용하기 힘든 흥미로운 아이디어일 뿐이라고 생각했다”고 말했다.

 

이 기술은 기계가 한 번도 본 적이 없는
물건을 쥘 수 있도록 만든다.

 

지난 해 3월 사람들의 이 같은 인식이 깨졌다. 바로 강화학습에 기반한 알파고가 역사상 가장 강한 바둑기사 중 한 명으로 알려진 한국의 이세돌을 물리쳤기 때문문. 이 승리가 사람들에게 충격을 안겨준 이유는 기존의 방식으로는 뛰어난 바둑 프로그램을 만드는 게 거의 불가능하다고 여겼었기 때문이다.

바둑은 그 자체로 복잡하지만 아주 뛰어난 바둑 기사들조차 어떤 수가 좋은지 나쁜지 판단하기 어려워한다. 이 때문에 바둑 프로그램을 만드는 기반이 될 원칙을 세우기 어려웠다. 대부분의 인공지능 연구자들은 컴퓨터가 프로 바둑기사와 맞먹으려면 적어도 10년은 걸릴 것으로 예상했다.

 

지난해 강화학습에 기반한 알파고는 인간 바둑 최고수를 이기는 기염을 토했다.


도로 위의 경쟁

유순한 성격의 실버가 인공지능에 빠진 것은 영국 캠브리지대 학부생 시절이었다. 그는 최근 강화학습이 인기를 끌게 된 것은 거대한 신경망을 사용, 데이터에서 패턴을 인식하는 딥러닝 기술과 결합했기 때문이라고 설명한다.

강화학습은 컴퓨터에게 어떤 결과 값, 쥐가 미로를 빠져나오기 위해 바른 방향으로 갔는지, 그렇지 않은지를 계산하는 법을 사람이 정해줘야 작동한다. 각각의 값은 거대한 표에 저장되며, 컴퓨터는 학습을 통해 이 값을 수정한다.

복잡한 작업이라면 이를 경우를 모두 계산하는 것은 거의 불가능에 가깝다.

그러나 데이터에 숨어있는 패턴을 파악하는데 딥러닝이 매우 효율적이라는 게 밝혀졌다. 이제 미로에서 방향을 트는 문제의 데이터이든, 바둑판에서 돌의 위치에 관한 데이터이든, 게임 화면의 픽셀 데이터이든 항상 딥러닝을 적용할 수 있다.

사실 딥마인드가 자신을 알린 것도 게임을 통해서였다.

2013년 딥마인드는 다양한 아타리 비디오 게임을 초인적 수준에서 플레이 하는 인공지능을 발표했고 2014년 구글은 이 회사를 5억 달러에 인수했다.

이런 뉴스들은 다른 인공지능 연구자와 회사들이 강화학습 기술을 다시 들여다보게 하는 계기가 됐다.

몇몇 산업용 로봇 제조업체는 자사의 기계에게 새로운 작업을 수행하게 만들 때 기존의 방법이 아닌 강화학습을 쓴다.

 

 

구글의 연구자들은 딥마인드와 함께 데이터 센터의 에너지 효율을 높이기 위해 딥-강화학습을 사용한다.

데이터센터의 수많은 요인들이 에너지 소모에 어떤 영향을 미치는지 파악하는 것은 매우 어렵다. 하지만, 이미 축적한 데이터와 시뮬레이션을 통한 강화학습은 언제 어떻게 냉각시스템을 돌려야 할지 알려준다.

사람들이 이 기술을 통해 인간과 비슷한 행동을 볼 수 있는 대표적인 분야는 자율주행 자동차다. 무인자동차는 로터리나 일단 정지해야 하는 교차로 처럼 사람 운전자를 상대해야 하는 복잡한 상황에서 종종 문제를 일으킨다.

무인자동차는 위험을 피해야 하는 것은 물론 과도한 조심 때문에 도로가 막히는 것도 피해야 한다. 그러므로 수많은 차들이 끼어드는 상황에서 사람의 판단 같은 (설명하기 어려운) 미묘한 운전기술을 배워야 한다.

인공지능 학회에서 고속도로 합류를 시연한 모빌아이는 테슬라 등 수십 개의 자동차사에 안전 시스템을 공급하는 이스라엘 기업이다.

시연을 마치고 샤이 샬레브-슈와르츠 모빌아이 기술부사장은 자율주행자동차가 해결해야 할 난제들을 보여줬다. 차로 가득한 예루살렘의 로터리, 파리의 정신 없는 교차로, 무질서의 극치인 인도의 도로 등이다.

 “만약 자율주행 자동차가 법을 엄격하게 지킨다면 막히는 길에 합류하는 데 한 시간이 걸릴 수도 있습니다.”

모빌아이는 올해 말 BMW, 인텔과 협력해 자사의 프로그램을 많은 실제 차량에 장착, 테스트할 계획이다.

구글과 우버 역시 자사의 자율주행 자동차에 강화학습 기술을 적용해 테스트할 것이라고 밝혔다.

강화학습 전문가인 스탠포드대의 엠마 브룬스킬은 "이 기술이 점점 더 많은 분야에서 적용되고 있다"며 강화학습이 ‘효율적으로 판단 순서를 정하는 것’에 적합하다는 점에서 자율주행과 잘 맞아 떨어진다고 말한다. 만약 자동차가 내려야 할 모든 판단을 프로그래머가 미리 정해 놔야 한다면 많은 시간이 걸릴 것이다.

물론 이 분야에도 넘어서야 할 어려움은 있다.

앤드류 응 중국 바이두 최고과학책임자는 강화학습을 하려면 아주 많은 데이터가 필요하고 지금 이 기술이 보여준 여러 성공은 수많은 시뮬레이션을 통한 훈련 덕분이라고 지적한다.

연구자들은 목표가 하나 이상일 때 강화학습을 어떻게 적용할 지 연구중이다.

모빌아이는 자율주행 자동차가 사고를 피할 뿐 아니라 다른 이의 사고도 최소화하도록 프로토콜을 수정하고 있다.

올해 말, 고속도로에서 당신은 어쩌면 강화학습의 최신 결과물을 목격할 수 있을지 모른다.

 

<본 기사는 테크M 제47호(2017년 3월) 기사입니다>