바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

4차 산업혁명 성공으로 가는 길 - 빅데이터

2018-07-24김태환 기자

2000년대 후반 최고의 바둑 인공지능(AI) 프로그램은 일본인 요지 오사마가 개발한 ‘젠(Zen)’이었다. 하지만 구글 딥마인드의 ‘알파고’가 출시되면서 왕좌는 순식간에 교체됐다. 딥러닝 기술이 접목된 알파고는 인간 최강 이세돌 9단과 대결을 펼쳐 4대1 스코어로 승리했다.

젠의 개발진은 클라우드 기반의 딥러닝 시스템을 젠에 접목시켜 ‘딥젠고(DeepZenGo)’를 선보였다. 이후 성능이 비약적으로 발전했다. 프로기사를 이기지 못하던 젠과 달리 딥젠고는 조치훈 9단에게 1승을, 일본 최정상 기사인 이야마 유타 9단에게 1승을 거뒀다.

양질의 빅데이터는 AI 프로젝트의 성패를 좌우한다. 이는 4차 산업혁명에서도 마찬가지다. 빅데이터 수집과 활용을 얼마나 효율적으로 관리하느냐가 중요한 셈이다. 최근에는 하나의 데이터뿐만 아니라 민간과 공공기관의 다양한 데이터들이 서로 융합해 새로운 서비스를 창출하는 단계에 이르렀다.

물론 넘어야 할 과제도 많다. 개인정보보호법, 정보통신망법, 신용정보보호법으로 데이터 수집 단계에서부터 제약이 뒤따른다. 데이터 표준화에 대한 요구도 커지고 있다. 산업현장 일선에서 수집되는 자료들이 방대하지만, 엑셀파일이나 메모장에 저장되는 수준에 그치는 경우도 많다. 특히 데이터가 디지털화되지 않고 문서로 남아있는 경우도 대다수다. 프로그램이 인식할 수 있도록 디지털화 가공하는 작업도 수반돼야 한다.

이에 테크M은 빅데이터를 활용한 다양한 4차 산업혁명 서비스와 그 가능성, 혁신해야 하는 규제와 대안에 대해 분석해봤다

‘데이터 간 융합’으로 새로운 서비스 창출 확산

디지털 트랜스포메이션의 확대로 소비자가 만나는 거의 모든 분야에 빅데이터가 녹아 있다. 디지털 트랜스포메이션은 기업이 디지털 역량을 활용해 만든 새로운 비즈니스 모델이나 상품, 서비스다. 최근에는 데이터 간의 융합을 통해 새로운 서비스가 창출되고 있다.

사용자 습관과 보험데이터가 융합돼 건강한 행동을 하면 할인되는 보험이 나타났다. 또 심야시간 휴대전화 이용량을 분석해 심야버스 노선을 구상하기도 한다. 데이터 간 융합을 더 지원하기 위해 민간·공공 분야의 데이터랩 설립이 추진되고 있다.

빅데이터 시장규모 연평균 14.4% 성장

시장조사기관 위키본(Wikibon)과 한국신용정보원에 따르면 소프트웨어, 하드웨어, 서비스를 모두 포함한 세계 빅데이터 시장은 2026년에 총 922억 달러(약 99조 5760억 원) 규모로 성장할 것으로 전망된다. 이는 2014년 기록했던 183억 달러(약 19조 7640억 원)에서 4배 이상 증가한 수치다. 2014년부터 2026년까지의 연평균 성장률은 14.4%에 육박한다.

국내 빅데이터 시장도 정부의 빅데이터 산업 지원 노력과 민간기업의 투자 증가로 꾸준한 성장세를 보이고 있다. 한국정보화진흥원의 ‘2016년 빅데이터 시장현황 조사’ 결과를 살펴보면 한국 빅데이터 시장 규모는 2015년 대비 31.1% 성장한 3439억 원이었다. 뿐만 아니라 국내 빅데이터 시장은 최근 3년(2014~2016년) 동안 연평균 27.9%의 성장률을 기록했다.

한국은 새로운 성장동력으로 ‘제4차 산업혁명’을 추진하고 있다. 4차 산업혁명 성공의 핵심기술로는 인공지능(AI)과 블록체인, 사물인터넷(IoT), 자율주행자동차 등이 거론된다. 이 기술들 모두가 빅데이터를 근간으로 구동되는 구조를 가진다. 특히 이들 기술은 데이터가 없으면 무용지물에 가깝다. 일반 AI 알고리즘만 있던 젠에서 클라우드를 활용해 양질의 기보를 학습한 딥젠고가 비약적인 발전을 이뤘듯 말이다.

특히 4차 산업혁명 시대는 데이터를 기반으로 다양한 분야가 융합되는 형태를 보인다. 예를 들어 자율주행차는 자동차 운행에 필요한 정보 수집에 IoT 기술을 적용한다. 카메라를 통해 전·후방과 측면을 확인하고 도로 곳곳에 설치된 신호등과 통신해 위치를 확인한다. 여기에 AI 기술도 녹아있다. 차량이 운행하는 속도와 방향,최적의 경로설정을 판단한다. 빅데이터가 없다면 AI가 스스로 판단을 내리기 힘들다.

데이터가 없으면 인공지능도 무용지물

주행 도중 돌발 상황이 벌어지면 카메라로 정보를 수집하고, 즉시AI가 분석한다. 사람이 튀어나왔다면 어느 정도 속도로 나오는지, 현재 차량의 속도가 어떤지, 피하기 위해서는 어떤 각도로 핸들을 틀면서 어느 강도로 브레이크를 잡아야 하는지를 분석해야 한다.이 모든 것들은 기존에 수집한 데이터를 기반으로 계산한다. 사람이 도로로 뛰쳐나왔을 때 차량의 속도가 시속 80km이었다면, 시속 1km부터 80km까지 80가지 속도로 주행했을 때에 대한 데이터를 모두 확인하고 분석해야 한다. 어느 정도 감속을 해야 충돌을 피할지 기반 데이터가 반드시 필요한 셈이다.

개인 맞춤형 서비스 제공도 가능해진다. 소비자의 소비활동 패턴을 분석해 필요한 제품을 추천한다거나, 건강 문제를 진단해 의료 혜택을 제공할 수 있다. 단순히 데이터를 수집하고 분석하는 것에서 벗어나 데이터를 기반으로 경쟁을 시키는 ‘생성적 적대 신경망(Generative Adversarial Network, GAN)’도 등장했다. GAN은 서로 다른 목적을 가진 두 모듈(판별망, 생성망)이 대결하면서 새로운 이미지를 생성하며 학습하는 구조로 이뤄진다. 판별망(Discriminator)은 주어진 이미지가 참인지 거짓인지를 판별하고 생성망(Generator)은 판별망을 속여 실제와 구분이 가지 않을 정도의 진짜 같은 이미지를 생성한다. 이를 통해 실제와 근접하면서도 새로운 이미지 결과물을 만들어 내는 것이 목표다. GAN을 활용할 경우 인공지능 기반기술의 취약점으로 알려진 ‘창의성’을 극복할 수 있게 된다. 당연히 GAN을 활용하기 위해서는 양질의 데이터 확보가 필수다.

빅데이터를 이용한 기술 융합

최근에는 단순히 한 가지 종류의 데이터를 활용하는 게 아니라 서로 다른 데이터 간의 융합을 통해 새로운 서비스를 창출하고 있다. 예를 들어 외국에서 전염병이 유행해 국내 유입이 걱정될 경우 일반적으로는 출입국 내역을 분석해 대응한다. 하지만 최근에는 이동통신사들의 로밍 서비스 가입자들을 확인해 정보의 정확성을 높일 수 있다. 로밍서비스를 이용한 사용자에게 전염병 관련 정보를전송할 수 있으며, 귀국 이후에도 추적할 수 있다.

실제 과학기술정보통신부는 질병관리본부, KT와 함께 지난 2016년 ‘스마트 검역 정보시스템 고도화 사업’을 시범적으로 운영했다. 이 사업은 해외 로밍데이터를 활용해 감염병 오염국가에서 국내로 입국하는 사람을 확인한 뒤 감염병 잠복기간 동안 모니터링을 한다. 통신사 고객이 감염병 오염국가에 방문해 로밍하면, 감염병 오염국가 방문정보를 질병관리본부에 제공하고 사용자에게는 감염병 신고안내 문자를 전송한다. 소비자가 귀국할 때는 질병관리본부에 입국자 정보가 전송되고, 자진신고 안내 문자가 발송된다.

서울시가 2013년부터 실시한 심야버스의 노선 설계도 이동통신 사용내역과 도시 자체 데이터를 융합한 결과물이다. 서울시는 KT와의 협업을 통해 휴대전화 통화이력 데이터에서 추출한 개인위치 정보를 활용했다. 개인정보보호를 위해 서울시는 개인 신변과 관련된 데이터 항목을 제외한 통화기록을 추출했다.

2013년 3월 한 달간의 KT 통화데이터 30억 건을 분석해 심야시간 대의 유동인구 밀집지역을 파악했다. 여기에 시가 보유하고 있던 500만 건에 달하는 시민들의 심야택시 승하차 데이터를 결합해 최적의 심야버스노선을 구축했다. 이후 3개월(4.19~7.31) 동안 시내버스 2개 노선을 시범 운행한 결과 총 22만 명(일평균 2100명)이 심야전용버스를 이용했다. 본격적인 노선 확대 이후 2016년 12월 한 달간 심야버스 일평균 승객은 9883명으로 2013년 시범운행 때보다 약 5배 정도 증가했다.

정부가 추진하는 ‘스마트 시티’ 역시 빅데이터 융합의 결정판이다. 교통정보, 기상정보, 의료정보, 공공과 민간분야의 협업 외에도 민간 서비스에서 데이터 융합도 늘어나는 추세다. 빅데이터를 활용한 대표적인 금융상품으로는 ‘UBI(Usage Based Insurance, 운전습관연계보험)’가 있다. UBI는 운전자의 운전습관을 기반으로 보험료를 산정하는 자동차보험 상품이다. 주행기록장치와 내비게이션을 통해 수집된 주행 데이터가 안전운전으로 판명되면 보험료를 할인해 준다. 소비자 입장에서는 보험료가 절감되고, 보험사는 상품 손해율이 낮아진다. 기존 보험사가 가지고 있는 소비자의 사고이력 데이터 등과 함께 주행기록 데이터가 융합돼 더욱 정밀한 사고율을 판별해 낼 수 있다.

공공데이터랩 확대 필요성 대두

빅데이터의 융합을 지원하기 위해서는 데이터랩을 설치해 손쉽게 데이터를 사용할 수 있는 기반을 조성해야 한다. 누구나 사용할 수 있는 공공데이터의 경우 적극적으로 공개해야 새로운 서비스 창출이 손쉽게 이뤄진다.

한국은 2013년 ‘공공데이터 제공 및 이용 활성화에 관한 법률’을 제정한 이후 공공데이터 개방에 적극적으로 나서고 있다. 정부는 이러한 공공데이터 개방을 통해 행정 처리의 투명성과 책임성 강화를 기대하고 있다. 이런 노력의 결과로 지난해 OECD 공공데이터 개방 평가에서 한국이 1위를 차지했다.

행정안전부는 기관이 생성 또는 취득한 공공데이터를 한 곳에서 제공하는 통합창구로 ‘공공데이터포털’을 운영하고 있다. 공공데이터포털에서 제공하고 있는 데이터 건수는 2013년 5272건에서 2017년 12월 기준 2만 4636건으로 5배가량 확대됐다. 공공데이터 포털에서는 파일데이터, 오픈API, 표준데이터, 시각화 등 다양한 유형으로 데이터를 제공하고 있으며, 포털에서 제공하지 않는 공공데이터는 공공데이터 제공 신청을 통해 제공여부를 심의 받은 뒤 이용할 수 있다.

공공데이터포털을 통한 데이터 활용 또한 늘고 있다. 2017년 10월말 기준 공공데이터포털의 데이터 다운로드(활용신청) 누적건수는 총 350만 5731건으로 2013년 1만 3923건에서 약 251배 증가했다. 2017년 한 해 동안의 데이터 다운로드 건수는 162만 1481건으로, 매년 100만 건 이상의 데이터 다운로드가 된다고 추산할 수 있다.

이런 공공데이터 개방은 실제 시장 저변 확대 효과가 나타나고 있다. 공공데이터를 활용해 웹/앱 서비스 개발 사례는 2017년 총 1401건으로 2013년의 42건에서 약 32배 증가했다.

민간기업 역시 자사가 보유한 데이터 공개를 늘리고 있다. 네이버는 ‘데이터랩(DataLab)’을 통해 데이터 공개를 시도하고 있다. 데이터랩에서는 분야별 인기 검색어, 검색어 트렌드, 지역별 관심도 등의 데이터와 함께 지역·업종별 카드사용통계를 제공하고 있다.

아울러 특정 노래를 검색하면 네이버 뮤직 이용자 데이터를 활용해 해당 곡에 대한 성별·연령별 인기도와 기간별 추이에 대한 데이터를 제공하는 ‘뮤직 데이터랩’ 서비스도 함께 제공하고 있다.

SK텔레콤에는 빅데이터 허브(Big Data Hub) 서비스가 있다. 민간 소유의 빅데이터를 대중에게 개방한 국내 첫 사례다. 이 서비스는 SK텔레콤이 보유한 통신데이터와 공공기관에서 공개한 데이터들을 주제별로 분류해 제공하고 있다. 또 개별 사업자가 SK텔레콤 빅데이터 허브 사이트에 가입해 법인 저작권의 데이터를 직접 등록하거나 전시할 수 있다. 특히 ‘DATA 매쉬업’을 통해 보유 데이터와 외부 데이터를 결합, 다각도로 분석하도록 지원하는 서비스도 보유하고 있다. 단일 데이터를 사용했을 때보다 훨씬 더 통찰력 있는 분석결과를 도출할 수 있다.

[테크M = 김태환 기자(kimthin@techm.kr)]