바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

이미지 넘어 영상인식 인공지능에 주목하는 이유

2017-12-22황치규 기자

인공지능(AI)을 활용한 디지털 이미지 인식은 이미 다양한 서비스에 적용되고 있다. 

하지만 동영상에서 움직이는 사물이 구체적으로 뭘하는지 파악하는 것은 지금의 기술로 커버하기는 쉽지 않다. 정지된 이미지 인식에 비해 요구되는 용량과 컴퓨팅 파워도 크다.

하지만 진입 장벽이 높은 만큼, 상용화에 따른 잠재력 또한 크다는 평가. 영상 인식이 가능해지면 AI 기술이 크게 발전하는 계기가 마련될 것으로 전망된다.

MIT와 IBM은 최근 영상과 여기서 이뤄지는 행동에 대해 설명을 단 '모멘트 인 타임'(Moment in Time) 데이터 세트를 공개했다.

MIT테크놀로리지리뷰에 따르면 '모멘트 인 타임'은 낚시 영상부터 브레이크 댄스 등 3초짜리 영상을 담고 있다. 아우데 올리버 MIT 수석 연구과학자는 "무슨 일이 왜 일어나는지 알고 싶다면 동작은 단일 프레임으로는 확인할 수 없는 많은 정보를 제공한다"고 말했다. 이것을 잘 활용하면 이미지 인식으로는 안되는 것들을 구현할 수 있다는 것이었다. 

자율주행차를 포함해 영상을 해석하는 AI 시스템들은 현재 정지된 프레임에서 사물을 확인하는 방법에 의존하고 있다. 행동을 인식하는 수준은 아니다.

 MIT테크놀로지리뷰에 따르면 영상 인식과 관련한 다음 도전은 무슨 영상인지를 넘어 영상에서 무슨 일이 벌어지는지 이해하는 것이다. 로봇이나 자율주행차에 적용하면 주변에서 무슨일이 벌어지고 있는지 보다 잘 이해할 수 있다.

영상인식 기술을 개발하려는 연구개발에도 가속도가 붙었다. 다양한 분야에서 영상 인식을 지원하는 AI 개발기술 개발이 진행 중이다.

MIT와 IBM이 진행 중인 프로젝트는 이와 관련한 여러 테스트 중 하나일 뿐이다. 지난해 구글은 태그가 붙은 유튜브 영상 800만개를 공개했다. 최근에는 클라우드 플랫폼 일환으로 영상에서 물체를 인식할 수 있는 도구도 공개했다. 구글 클라우드 플랫폼은 이미지, 오디오, 텍스트 처리 같은 AI 툴들을 포함하고 있다.

페이스북도 주석이 붙은 영상 데이터 세트를 개발하고 있다.

영상 인식기술 개발을 주특기로 하는 스타트업들도 등장했다. 토론토와 베를린에서 활약하는 스타트업인 투엔티빌리언뉴런스도 그 중 하나다. 이 회사가 공개한 데이터 세트를 활용하면  동영상이 축구경기인지 파타인지 확인할 수 있다. 누군가가 방에 들어왔는지 확인도 가능하다.

AI를 활용한 영상 인식 기술은 다양한 분야에서 응용될 수 있는 잠재력을 갖췄다는 평가다. IBM의 대니 거트프런드 연구원은 "노령층 보호나 장애인을 도와주는 기기도 생각해 볼 수 있다"고 말했다.

[테크M=황치규 기자(delight@techm.kr)]