바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

빅데이터 활용 위한 규제완화 절실

빅데이터 금광을 묵히고 있는 한국

2018-07-25김태환 기자

 빅데이터의 중요성을 인지하고, 활발하게 공유함에도 불구하고 막상 실사례 적용은 저조한 실정이다. 개인정보보호법을 비롯한 각종 규제의 그물이 촘촘해 데이터를 확보하는 단계에서부터 어려움을 겪기 때문이다.

비식별화된 개인정보에 대해 사용을 허용하는 등 규제완화의 움직임과 동형암호체계와 같은 기술을 도입해 보안성을 높여야한다는 지적이 나온다. 더불어 데이터 사용에 대한 윤리관을 확립해 건전한 시장 조성을 위한 선순환이 필요하다는 조언도 나온다.

“한국은 빅데이터의 ‘금광(goldmine)’을 깔고 앉아 있는데도 제대로 캐내지 못하고 있다.”

지난 2015년 방한해 강연한 톰 데이븐포트(Tom Davenport) 미국 밥슨칼리지 교수의 말이다. 톰 데이븐포트 교수의 말처럼 한국은 다양한 경로를 통해 수많은 빅데이터를 수집해놓고도 규제 때문에 제대로 활용하지 못하고 있다. 인터넷이 발달하기 시작한 1990년대 후반과 2000년대 초반 해킹에 의한 개인정보 유출이 확산되면서 정보 보호에 대한 요구가 높아진 데 따른 결과다.

특정 개인 민감정보도 빅데이터, 개망신법이 ‘발목’

빅데이터 활용에 제약을 주는 법안으로는 크게 개인정보보호법, 정보통신망법, 신용정보보호법, 의료법 등 네 가지다. 개인정보보호법은 일반법으로 전체를 포괄한다. 나머지 법안은 개별법으로 일반법인 개인정보보호법이 분야별 개별 법상 규정과 상충시에는 분야별 개별법을 우선 적용하게 된다.

개인정보보호법 제 2조 제 1호에서는 개인정보를 “살아 있는 개인에 관한 정보로서 성명, 주민등록번호와 영상 등을 통해 개인을 알아볼 수 있는 정보”라고 정의하고 있다. 또 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 결합해 알아볼 수 있다면 개인정보로 간주한다.

정보통신망 이용촉진 및 정보보호 등에 관한 법률에서도 “개인정보란 생존하는 개인에 관
한 정보로서 성명·주민등록번호 등에 의하여 특정한 개인을 알아볼 수 있는 부호·문자·음성·음향 및 영상 등의 정보”를 말한다. 이때 해당 정보만으로는 특정 개인을 알아볼 수 없어도 다른 정보와 쉽게 결합해 알아볼 수 있는 경우에는 그 정보를 포함한다고 명시돼 있다.

문제는 빅데이터에서 수집되는 정보는 개인을 식별할 수 있는 정보와 아닌 정보가 뒤섞여 있다는 데 있다. 개인을 식별할 수 있는 성명·고유식별번호·부호·문자 등의 범주를 넘어서 특정개인과 관련된 정보를 포함하는 개념이 빅데이터다.

정보조합으로 개인식별 가능해 모든 동의 필요

예를 들어 서울에 사는 30세 남성 홍길동 씨가 1개월간 신용카드를 통해 영등포구에 위치한 특정 중국 음식점에 10회 이상 방문한다. 이를 통해 홍길동 씨가 중국 음식을 좋아한다는 것을 확인할 수 있다. 어디에서 무엇을 사고, 어떤 문화생활을 즐기는지, 주로 이용하는 대중교통 수단은 버스인지 지하철인지도 알게 된다.

사실상 한 개인의 라이프스타일을 확인할 수 있는 셈이다약에 희귀병에 대한 자료를 수집해 신약을 개발하려는 제약사가 있다면, 자료 수집 단계에서부터 개인정보보호법에 막힌다. 희귀병을 앓는 인원이 소수이기에 개인을 식별할 수 있을 확률이 크다는 이유에서다.

문제는 빅데이터 서비스들이 개인 관련 직·간접적 정보를 바탕으로 새롭게 파생되는 정보들을 기초로 해 예측정보를 제공한다는 데 있다. 물품의 구매습성, 소비패턴, 누적데이터 등을 이용할때 정보를 조합하면 개인을 식별할 수도 있다. 이렇게 되면 개인정보보호법을 위반하게 된다. 빅데이터 산업의 특성상 식별 불가능했던 정보도 처리·분석과정에서 개인 식별성을 가지게 된다.

기존에는 각종 ‘동의’를 얻어 해결해왔다. 사이트에 가입할 때 각종 약관에 동의하는 것이 이 때문이다. 개인정보를 수집, 이용하거나 제3자에게 제공할 경우에는 정보주체의 동의를 얻어야 한다.

하지만 빅데이터 시대로 돌입하면서는 어느 단계에서 사전 동의를 받아야 하는지 모호하다. 특히 방대한 규모의 빅데이터에 대한 사전 동의도 불가능에 가깝다. 만일 빅데이터 정보에 개인정보보호법을 엄격히 적용하면 소비자가 물건을 구매하기 위해 검색한 수십 가지 검색어에 대해서도 모두 동의를 구해야 한다. 비정형 데이터지만 조합할 경우 개인을 식별할 수 있는 여지를 남겨두기 때문이다. 이를 하나하나 다 동의를 얻고 관련 내용을 저장하게 되면 비용부담의 문제도 발생하게 될 여지가 크다.

개인 판단 어렵게 ‘비식별화 조치’ 필요

이러한 문제를 해결하기 위해 정부에서는 ‘비식별화 조치’에 대한 논의가 이뤄지고 있다. 한국정보화진흥원에 따르면 개인의 식별 요소로는 이름, 주소, 주민등록번호, 생년월일, 전화번호, 이메일 주소, 의료기록번호 등과 같이 그 자체로 특정 개인을 직접 식별할 수 있는 식별자(Identifier)와 연령, 성별, 거주 지역, 국적, 홈페이지URL 등과 같이 다른 정보와 결합해 식별할 수 있는 준식별자(Quasi-Identifier)가 있다.

비식별 조치는 식별자의 정보에서 중요 정보를 삭제해 준식별자로 만드는 작업이다. 가령 병원에서 수집된 환자의 정보를 비식별 조치한다면 주민등록번호, 성별, 입원날짜, 나이 등에서 개인임을 식별할 수 있는 주민등록번호와 입원 날짜를 삭제한다. 이렇게 되면 정확히 누가 입원했는지 알 수 없게 된다.

정부가 제안한 ‘개인정보 비식별 조치 가이드라인’에 따르면 비식별 조치는 사전검토-비식별 조치-적정성 평가-사후관리 등 4단계로 진행된다. 사전검토 단계에서는 개인정보 해당 여부를 검토하고 비식별 조치 단계에서는 가명처리, 데이터 삭제, 범주화, 데이터 마스킹 등 비식별 기술을 이용해 개인 식별요소를 제거한다. 적정성 평가 단계에서는 비식별 조치가 제대로 이뤄졌는지를 외부 평가단을 통해 평가하며, 사후관리 단계에서는 비식별 정보 오·남용 예방 조치가 진행된다.

기업과 기관이 어느 정도 수준으로 정보를 삭제하거나 변조한 것이 되돌릴 수 없는 수준인지 판단할 수 없기 때문이다. 더구나 가이드라인은 법적 근거가 되지 않는다. 데이터를 활용하고자 하는 기업과 연구소, 기관 관계자들은 논란을 없애기 위해 너무 많은 정보를 삭제
하면, 데이터의 가치가 손상돼 쓸 수 없다고 지적한다.

예를 들어 개인정보 중 비식별 조치를 위해 이름뿐 아니라 나이, 성별, 거주지 등 많은 정보를 삭제하면 개인을 알아볼 수는 없겠지만 그 정보만으로 활용할 수 있는 것도 별로 없어진다는 얘기다.

개인정보보호법 개정 움직임도 나타나고 있다. 바른미래당의 오세정 의원을 비롯한 11명의 의원이 지난 3월 5일 개인정보보호법 개정안을 발의했다. 이 개정안은 EU의 유럽 개인정보보호법(GDPR)의 입법 사례를 참고해 가명정보와 익명정보의 개념과 활용에 대한 법적 근거를 마련했다.

동형암호체계 도입·기업 윤리적 책임 강화 필요

정보유출을 방지하기 위한 기술적 조치도 필요하다는 지적이 나온다. 암호화 체계에서 가장 선진적인 기술은 4세대 암호체계인 동형암호(Homomorphic Encryption)다. 이 기술은 소비자 정보를 암호화한 뒤에도 정보를 추출해 바로 연산을 할 수 있다.

예를 들어 10과 15를 더하는 것을 암호화한다고 가정했을 때, 이 숫자를 복호화를 거쳐 25라는 결과값을 도출하게 된다. 복호화는 암호화 과정의 역과정으로 암호 알고리즘에 의해 암호문을 평문으로 바꾸는 과정이다. 문제는 암호화 담당자나 빅데이터 분석가에게 10과 15라는 값이 노출된다는 데 있다.

반면 동형암호체계는 10을 4와 7로 나누기한 뒤 각각 2와 3이라는 암호를 얻고, 15를 4와 7로 나눈 뒤 3과 1의 값을 얻어서, 같은 숫자로 나눈 값들끼리 더한다. 4로 나눈 나머지와 7로 나눈 나머지끼리 합한 값은 1과 4가 된다.

앞에서 2와 3이 더해 5가 되지만, 4로 한 번 더 나누게 돼 1이 된다. 결국 4로 나누기를 했을 때 나머지가 1이 되는 숫자는 25, 7로 나누기 했을 때 나머지가 4가 되는 숫자도 25가 된다. 결국 복호화 과정 없이, 즉 암호화를 풀지 않고도 결과 값을 도출할 수 있게 된다.

보안업계 관계자는 “동형암호체계는 공개키 탈취의 걱정이나 복호화된 정보가 유출되지 않기에 빅데이터의 편리함을 유지하면서 정보 유출에 대한 걱정이 줄어든다”면서 “구글이나 마이크로소프트 같은 글로벌 IT기업에서도 사용하고 있다”고 설명했다.

데이터를 사용하는 기업들의 역할도 강조되고 있다. 데이터의 윤리적 사용이 필요하다는 지적이다.

데이터 분산 처리 플랫폼인 ‘하둡(Hadoop)’을 개발한 더그 커팅은 데이터 윤리적 사용을 위한 네 가지 법칙을 제시했다.

우선 투명성 확보가 필요하다. 데이터를 통해 무엇을 할 것인지, 어떤 데이터를 사용하는지를 공개해야 신뢰성을 확보할 수 있다. 데이터 관리에 대한 사용 사례를 구축하는 것도 필요하다. 또 데이터 활용이 허용되는 것과 안 되는 것에 대한 경계 설정이 요구되며, 데이터 활용에 대한 감독과 규제도 중요한 요소로 작용한다.

특히 더그 커팅은 검증에 대한 중요성을 강조했다. 그는 “데이터 활용에 대해 외부에서 제3자가 감사(Auditing)한다면 사용자들에게 ‘우리가 개인정보 잘 관리한다’고 설득할 수 있다고 생각한다”면서 “현재까지는 외부인을 통한 데이터 감사가 실시되지 않고 있는데 이런 부분에서 강화해야 한다”고 말했다.

[테크M = 김태환 기자(kimthin@techm.kr)]