바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

시각화, 데이터를 대중에게 돌려주다

2017-03-05임준원 뉴스젤리 대표

 

데이터의 중요성은 학계, 산업계, 공공, 언론을 막론하고 모두가 알고 있다.

데이터를 다루면서 논리적인 과정을 통해 컴퓨팅적 사고를 교육하고, 의사결정과 전략 도출을 위한 과정에서도 데이터가 널리 활용된다.

영국, 미국 정부를 필두로 한국을 포함한 각국 정부기관은 공공 데이터를 국민이 활용해 사회적인 가치를 창출할 수 있도록 공공 데이터 개방을 꾸준히 확대하는 등 데이터를 공유함으로써 발생되는 가치를 중요시하면서 그 영역을 넓혀나가고 있다.

언론에서는 데이터 저널리즘 부서를 신설하면서 또 하나의 새로운 탐사보도 방법으로 데이터를 적극 활용하고 있다. 


그런데 데이터를 활용하려면 어떤 과정이 필요할까? 보통 데이터 활용을 위해 데이터 파이프라인이라 불리는 ‘수집-정제-분석-시각화’의 과정을 거친다. 많은 기업과 기관이 데이터의 수집과 분석에는 거대한 예산을 배정하고 솔루션 도입을 검토하는 등 적극적인 움직임을 보이고 있다.

하지만, 정작 데이터 시각화에 대해서는 예산 부족으로 프로세스를 도입하지 않거나 중요성을 간과하는 듯한 양상을 보이고 있다. 


데이터 가치 높이는 시각화


데이터 분석을 통한 데이터의 가치를 제대로 전달하기 위해서는 데이터 시각화가 필수적인 요소이며, 그 자체만으로도 또 하나의 분석수단이라고 할 수 있다.

제대로 시각화된 결과물은 특별한 분석 알고리즘을 적용하지 않아도 한눈에 데이터를 탐색하고 활용이 가능하다.

이로써 데이터의 관계, 분포, 비교, 변화 등을 빠르게 파악하고 효율적인 의사결정에 기여하는, ‘비주얼 애널리틱스(Visual Analytics)’로써 또 다른 분석기능을 수행한다. 이처럼 제대로 시각화된 결과물을 통해 다음과 같은 의미를 파악할 수 있다.


- 관계 : 집단이 가진 두 가지 이상의 특성에 대한 분포를 통해 각 특성에 영향을 주고 있는지를 시각화로 탐색 가능하며, 상관·회귀 분석을 하기 전 사전 파악 단계로 적절하다.


- 분포 : 시각화 하는 것만으로도 집단을 구성한 각 요소의 수치적 특성을 빠르게 확인할 수 있으며, 각각이 위치하는 좌표의 특성을 통해 개체들의 밀집경향, 평균, 최대·최소·중앙값 등을 파악할 수 있다.


- 비교 : 두개 이상의 집단의 차이를 탐색하거나 한 집단의 변화의 수준을 파악하는 용도로 시각화가 사용된다.


- 변화 : 집단이 가진 특성이 시간의 흐름에 따라 어떤 양상을 보이고 있는지(경향성)를 확인할 수 있다.

기간의 간격을 넓게 관찰해 극점에 도달한 시점의 원인을 찾을 수 있으며, 경향성에 따라 미래의 특성도 예측할 수 있다.


이들 예시처럼 데이터 시각화를 통한 분석으로 심도 깊은 분석을 위한 데이터와 시각적 분석만으로 의미를 파악할 수 있는 데이터가 구분되며, 어떤 데이터를 활용하고 더 깊이 분석해볼지에 대한 선택도 용이해져 훨씬 더 효율적으로 데이터를 의사결정에 사용할 수 있다.

또 시각화 솔루션을 통해 데이터 엔지니어·과학자만 데이터를 분석하는 것이 아니라 누구나 데이터를 그릴 수만 있으면 분석 가능하게 된다.

물론 내가 가진 데이터를 어떻게 시각화하고 시각화를 위해 데이터를 정리하는 것이 상당히 어려울 수 있다. 이러한 니즈를 해결하기 위해 다양한 시각화 비즈니스 인텔리전스(BI) 솔루션이 있다.

이미 해외 시장에서는 ‘MS 파워(Power) BI’, ‘태블로(Tableau)’, ‘SAP 루미라(Lumira)’, ‘클릭뷰(Qlikview)’, ‘스폿파이어(Spotfire)’, ‘마이크로스트레티지(MicroStrategy)’, ‘구글 퓨전 테이블(Fusion Tables)’ 등 다양한 시각화 솔루션이 있다.

이 중 톱5 시각화 솔루션 회사의 2015년 수익의 합이 36억7000만 달러에 달할 정도로 이미 시장에서의 성장 가능성과 수익성을 입증하고 있다.


또 요즘 데이터 시각화 솔루션은 현재까지의 BI와는 다른 셀프 서비스 애널리틱스(Self Service Analytics) 툴이라고 부른다. 태블로의 ‘2016 톱10 BI 트렌드’ 리포트를 보면, 데이터는 회의실, 미디어, 소셜 미디어에 이르기까지 많은 부분에서 우리의 대화 자체를 바꾸고 있다.

또 데이터 전문가와 비전문가(일반인) 모두와 함께 서로의 이야기를 공유하기 위해 데이터 시각화를 새로운 공용어로 사용하고 있다.

특히 그 과정에서 시각화 솔루션이 일반인도 데이터를 다룰 수 있게 하는 셀프 분석 툴로 사용된다는 것인데, 이 같은 솔루션은 국내에서도 뉴스젤리의 ‘데이지(DAISY)’, 사이람의 ‘넷비즈(NetViz)’, ‘아이비주얼(I-VISUAL)’, ‘레인보우(RAINBOW)’, ‘와이즈 비주얼(WISE Visual)’ 등이 있다.

특히 데이지는 데이터 전문가 아닌, 일반인도 웹상에서 클릭 몇 번으로 데이터를 시각화해 데이터 활용 극대화를 추구한다.

공공 데이터 개방의 활용성을 증대시키기 위해 서울시와 한국정보화진흥원을 비롯한 20여 개 기관은 대국민 서비스용으로 데이지를 도입했다.


그렇다면 앞으로 데이터 시각화 활용이 늘어날까? 그렇다! 이미 전문영역 이외에서도 데이터 시각화를 하나의 커뮤니케이션 도구로 적극 사용하고 있다.

전 세계적인 관심사였던 2016 미국 대선 때도 ‘파이브서티에이트(Fivethirtyeight)’라는 미국의 정치 데이터 전문 분석 시각화 사이트에서는 시각화 기반의 데이터 저널리즘 기사를 발행해 주목 받았다.

대선후보인 민주당 힐러리 클린턴과 공화당 도널드 트럼프의 투표 결과 예측 값을 시각화했는데, 선거인단의 주요 인구적 특성을 인종, 성별, 학력 수준으로 구분하고, 각 집단의 투표 경향이 달라질 경우 선거 결과가 어떻게 달라지는지를 시각화했다.

특히 그리드(grid) 형태의 지도, 분포도를 활용해 통일성을 높였고, 값의 변화에 따라 결과가 변하는 모습을 실제 표가 이동하는 느낌이 들도록 애니메이션으로 표현해 복잡하고 이해하기 어려울 수 있는 데이터를 누구나 쉽게 알 수 있게 스토리텔링했다.


데이터USA, 시각화로 국민 이해 도와


공공 분야에서도 데이터 시각화는 공공 데이터 개방에 따라 필수적인 요소로 그 중요성이 부각되고 있다. 일례로 미국은 이미 약 20만 건의 공공 데이터를 개방한 포털을 운영하고 있었다.(Data.gov)

하지만 정작 데이터를 활용해야 할 국민들이 어려움을 겪자 2016년 ‘데이터USA(Datausa.io)’라는 사이트를 공개했다.

데이터USA는 정부기관뿐만 아니라 MIT 미디어랩, 딜로이트, 데이터휠 같은 민간기업과 학계가 함께 참여해 공공 데이터 제공만이 아니라 중요하고 의미 있는 주제들을 시각화 기반으로 선별해 보여준다. 데이터를 맥락화해 이야기처럼 이해할 수 있게 모든 데이터 표현을 시각화를 중심으로 제공하고 있는 것이다. 

 

‘파이브서티에이트’가 시도한 힐러리 클린턴 후보와 도널드 트럼프 후보의 2016년 미국 대선 투표 결과 예측 값 시각화


이 같이 데이터는 더 이상 소수 의사결정권자와 전문가만을 위한 것이 아니다. 누구라도 데이터를 그릴 수만 있다면, 데이터의 숨은 의미를 볼 수 있게 될 것이다.

한 때 컴퓨터도 극소수만이 사용하는 메인프레임 형태였지만, PC가 나오면서 대중화됐고, 인터넷도 국방용으로 시작됐지만 누구나 모바일에서 클릭만 하면 쓸 수 있게 대중화됐다.

데이터도 마찬가지다. 누구나 볼 수 있고 쉽게 활용할 수 있어야 한다. 우리는 데이터 민주화(Data Democracy)가 필요하며, 그 해결책은 데이터 시각화(Data Visualization)다. 

 

<본 기사는 테크M 제46호(2017년 2월) 기사입니다>

 

 

뉴스