바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

빅데이터 효율 향상 위해 ‘데이터 레이크’ 구축 필요

AWS, S3 등 다양한 솔루션 제시

2018-07-04김태환 기자

4일 서울 강남구 GS타워에서 개최된 'AWS 기술 교육 세션'에서 양승도_AWS 솔루션즈 아키텍트가 데이터 레이크를 위한 자사 서비스를 설명하고 있다.

 기업들이 빅데이터를 활용한 비즈니스 모델을 효율적으로 구축하기 위해서는 비정형 데이터를 구분 없이 저장하는 ‘데이터 레이크(Data Lake)’ 구축이 필요하다는 조언이 나왔다.

데이터를 해석하려면 컴퓨터가 읽을 수 있도록 구조화하는 스키마 전처리를 거쳐야 하는데, 데이터 레이크를 구축하면 일단 수집한 뒤 후처리를 통해 속도를 개선하고 더욱 많은 데이터를 수집할 수 있기 때문이다.

4일 아마존웹서비스(AWS)는 서울 강남구 GS타워에서 ‘AWS 기술 교육 세션’을 개최하고, 빅데이터와 데이터 레이크에 관한 트렌드와 자사 서비스에 대해 소개했다.

양승도 AWS 솔루션즈 아키텍트는 최근 빅데이터 활용 솔루션에서 ‘실시간 처리’가 필요하다고 주장했다.

기존에는 데이터를 수집해 컴퓨터가 읽도록 정형화시킨 뒤 분석했다. 하지만 최근에는 SNS 이용, 모바일 디바이스 데이터, 웨어러블기기 등 다양한 분야에서 방대한 비정형 데이터가 생성된다. 이를 정형화시키다 보면 시간이 지연될 수밖에 없다는 게 양승도 아키텍트의 설명이다.

양 아키텍트는 “테라‧제타바이트가 넘어가는 방대한 데이터를 수집 단계에서부터 스키마를 진행하면 속도가 지연될 수밖에 없다”면서 “일단 모아둔 다음 필요한 자료를 추출할 때마다 각각의 솔루션에 맞도록 스키마를 후처리하는 방식으로 진행해야 효율성이 높아진다”고 밝혔다.

실시간으로 빅데이터를 처리하려면 ‘데이터 레이크’ 구성이 필요하다고 양 아키텍트는 주장했다. 데이터 레이크는 시스템이나 저장소 내에 데이터를 정형화하지 않고 원시데이터 형식으로 데이터를 저장하는 구조로 이뤄져 있다.

기존의 ‘데이터 웨어하우스(Data Warehouse)’는 정형화된 데이터를 수집하는 개념이었다면, 데이터 레이크는 웨어하우스에 비정형 데이터까지 확대하는 개념이다. 한 가지의 스키마와 구조를 지원하지 않고 다양한 스키마와 구조 형식의 데이터를 지원한다.

데이터 레이크는 ▲모든 데이터를 한 곳의 서버에 저장 ▲신속한 데이터 추출과 저장 ▲ 데이터 저장과 처리의 분리 ▲데이터 구조화 없이 분석 처리 등 네 가지의 특징이 있다.

양승도 아키텍트는 “데이터 레이크는 구조화된 관계형 데이터베이스, 반구조화(Semi-Structure) 데이터(CSV, 로그, XML, JSON)와 더불어 구조화되지 않은(Unstructured) 데이터 (전자 메일, 문서, PDF, 이미지, 오디오, 비디오)까지 포함한다”고 말했다.

데이터 레이크의 주요 특징(출처=AWS)

데이터 레이크를 이용할 경우 실시간으로 데이터 분석과 처리가 가능하다고 양 아키텍처는 설명했다.

예를 들어 초밥 프랜차이즈 식당에서 회전초밥 접시마다 센서를 달아서 소비자가 먹는 초밥의 종류를 실시간으로 수집하고 저장해 분석할 수 있다. 분석결과는 바로바로 피드백된다.

이를 통해 사업자는 어떤 식재료가 얼마나 소비되는지를 실시간으로 분석해 남는 재료를 줄일 수 있다. 하루 단위로 주문하던 재료도 실시간으로 변경해 유동적인 대응도 가능해진다.

실제 AWS의 솔루션을 이용하는 미국의 부동산 정보업체 ‘레드핀’은 소비자가 관심있게 지켜본 매물에 대해 언제쯤 팔릴지 알려주고 있다. 다른 소비자가 매물을 보는 패턴과 유사한 매물의 판매 정보 등을 종합하고 분석해 “당신이 관심있게 본 이 매물은 11일이 지나면 팔릴 가능성이 큽니다”라고 안내한다.

양승도 아키텍트는 “아마존은 데이터를 저장하는 글루(Glue)와 S3를 지원하고, 분석에서도 레드시프트와 아테나 등을 제공해 데이터 레이크를 위한 모든 서비스를 제공한다”면서 “우수한 보안과 감사 기능을 지원해 기업 소비자들의 피드백을 적극적으로 반영해 최고의 서비스를 제공하고 있다”고 말했다.

[테크M = 김태환 기자(kimthin@techm.kr)]