바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

알고리즘의 편견 논쟁, 인간가치에 대한 원칙이 우선이다

2017-09-24독점제휴=MIT테크놀로지리뷰

[테크M 독점제휴=MIT테크놀로지리뷰]

법원, 은행 등 기관들이 자동화된 데이터 분석 시스템을 이용해 당신의 삶에 영향을 미치는 결정을 내리고 있다.

이 알고리즘의 제대로 된 작동을 알고리즘 개발자들에게만 맡겨서는 안된다.

충격적인 이야기였다. ‘기계의 편견’ 이라는 제목은 물론 부제까지. "미국에는 미래의 범죄자를 예측하는 소프트웨어가 있다. 이 소프트웨어는 흑인들에게 편견을 갖고 있다."

퓰리처상을 수상한 비영리 언론사 프로퍼블리카는 COMPAS란 위험도 평가 소프트웨어를 분석했다. 이 소프트웨어는 범죄자의 재범율 예측에 사용된다. 이를 바탕으로 미국의 판사들은 보석금에서 형기까지 피고와 원고의 미래에 영향을 주는 모든 결정을 내린다.

프로퍼블리카가 플로리다주에서 체포된 1만 명에게 적용된 COMPAS의 위험도 평가 결과와 재범율을 비교한 결과 알고리즘이 ‘흑인과 백인 피고가 얼마나 범죄를 저지를지 거의 같은 정확도로 예측했음'을 발견했다.

그러나 알고리즘이 오류를 범했을 때 그 이유는 흑인과 백인의 경우가 달랐다. 흑인은 고위험군으로 분류됐지만 실제 재범 가능성이 백인에 비해 두 배 가까이 낮았다.

백인들에게는 정반대의 실수를 저질렀다. 백인은 이후 다른 범죄를 저질렀지만 흑인보다 낮은 위험군으로 분류될 가능성이 높았던 것.

 

>>>

정치인, 법원, 그리고 시민들은 알고리즘이 무엇을 우선해야 할지를 결정해야 한다.

 

COMPAS 같은 시스템 사용의 적절성은 인종에 대한 편견 이상의 문제를 가지고 있다.

미국 대법원은 위스콘신주의 한 수감자가 COMPAS의 작동방식이 명확하지 않기 때문에 이를 참고해 내린 결정이 권리를 침해한다며 제기한 사건 심리에 곧 착수해야 한다. 법정 외의 다른 자동의사결정(ADM) 시스템 역시 비슷한 문제를 갖고 있다.

자동의사결정시스템은 인터넷 성격 검사를 통해 특정인이 그 직업에 적절한 지 판단한다. 주택대출을 받을 때, 신용카드를 심사할 때, 심지어 휴대폰 특가 판매 때도 신용 평가 알고리즘은 큰 역할을 한다.

COMPAS 같은 위험평가시스템을 사용하는 게 꼭 나쁜 일만은 아니다. 많은 경우 자동의사결정시스템은 공정성을 높여주기 때문이다. 사람의 의사 결정은 종종 일관성 없이 이뤄져 우리가 생각하는 정의가 실현되려면 다른 도움이 필요하다.

한 충격적인 연구는 점심을 먹은 뒤에 가석방 심사위원회의 가석방 승인 확률이 높아진다는 것을 보여줬다.

COMPAS를 사용하면 판사들에게 이런 일은 일어나지 않을 것이다. 의사결정시스템은 이런 비일관성을 발견해 고칠 수 있다.

하지만 우리는 의사결정시스템이 정말 인간보다 더 공평한 지 알지 못한다. 이 시스템이 시스템을 만든 사람도 분명하게 알 수 없는 어떤 가정에 기반해 동작하기 때문이다. 어떤 알고리즘이 편견을 갖고 있고 또 어떤 알고리즘은 그렇지 않은지를 항상 결정할 수는 없다.

심지어 프로퍼블리카가 발견한 것처럼 그 답이 명확해 보이더라도 진실은 더 복잡하다.

의사결정시스템을 더 잘 다루려면 우리는 무엇을 해야 할까? 민주주의 사회는 이들 시스템에 대한 감시를 더 강화해야 한다.

내가 컴퓨터과학자, 법철학자, 동료 언론인 등과 함께 만든 베를린의 비영리 단체인 알고리즘워치는 사람들에게 이런 자동의사결정 시스템의 영향력을 알리는 일을 한다.

“대부분의 자동의사결정시스템이 어떻게 동작하는지 여기에 영향을 받는 사람들이 모르는 현실은 당연하지 않다. 이는 바뀌어야 한다.”

 

>>>

적절하게만 사용된다면, 사법-정의 알고리즘은 "과학적으로 구형 제도와 수많은 수감자 문제를 풀 수 있는 한 세대에 한번, 혹은 평생 한 번 있는 기회다"

 

우리 선언문의 일부이다. 하지만 우리는 기술이 악으로 매도되기 쉽다는 사실도 우려한다.

따라서 이 문제에 대해 여러 비판자들과는 다른 방식으로 접근한다. 중요한 것은 알고리즘을 만드는 사람뿐만 아니라, 사회가 전체가 의사결정시스템에 들어가는 가치 판단에 참여해야 한다는 것.

 

공정함의 기준

COMPAS 는 범죄자의 범죄 기록과 범죄에 대한 그의 태도를 묻는 질문을 바탕으로 위험 점수를 매긴다.

이 과정에서 편견이 개입될까?

프로퍼블리카의 보도 이후, COMPAS 개발회사인 노스포인트는 기자들이 데이터를 잘못 해석했다며 반론을 제기했다. 사법개혁 단체 소속을 포함한 세 명의 형사정의 분야 연구자가 여기에 동참했다.

기자와 연구자 중 누가 옳았을까?

독일 막스플랑크 소프트웨어시스템연구소의 크리쉬나 굼마디 그룹장은 깜짝 놀랄 답을 제시한다. 기자와 연구자 모두 옳다는 것.

알고리즘의 공정성을 깊이 연구해 온 굼마디는 두 곳의 주장이 서로 상반되지 않는다고 말한다. 그들은 그저 서로 다른 공정함의 기준을 사용하고 있을 뿐이라는 것.

만약 어떤 범죄자의 재범 가능성을 예측하는 시스템을 만든다고 하자. 우선 재범이 예상되는 사람의 비율을 높이는 방법이 있다(참 양성). 이 경우 실제 범죄를 하지 않을 사람까지 예상범죄자로 만들 가능성이 높아진다는 문제가 있다(거짓-양성).

만약 이를 최소화하는 방향으로 알고리즘을 만들면 이제는 실제로는 범죄를 저지를 사람을 괜찮다고 예측해 풀어주는 비율이 높아진다(거짓-음성). 참 양성을 높이거나 거짓 양성을 낮추는 것은 양성예측도, 곧 PPV란 통계 척도를 높이는 방법이다. 재범 예상자중 실제 재범자의 비율을 뜻한다.

프로퍼블리카는 흑인과 백인에 대한 거짓 양성과 거짓 음성을 비교해, 이 결과가 백인에게 유리하게 나왔음을 발견했다.

반대로 노스포인트는 두 인종에 대한 PPV가 비슷하다는 것을 보여줬다. 사실 수학적으로는 흑인과 백인의 재범율이 다르기 때문에 두 인종의 거짓 음성 비율이 달라도 결과적으로 두 인종의 PPV는 비슷하게 된다.

이 사건은 정치인, 법정, 시민 등 사회의 더 다양한 구성원들이 알고리즘의 우선순위를 결정해야 한다는 것을 말해준다.

보석 중 도망가거나 범죄를 저지를 확률을 최소화하는 게 제일 중요한 일일까? 정의 구현과 수감의 사회적 비용을 낮추는 것 사이의 균형을 어떻게 잡아야 할까?

어떤 기준을 선택하건, 알고리즘은 사람의 개인적 상황이 아니라 통계를 기반으로 예측하며 이는 편견으로 나타날 수밖에 없다.

그럼에도 불구하고 우리는 인간보다 더 현명하고 공정한 판단을 위해 그런 시스템을 사용할 수 있다. 뉴욕 경찰의 불심검문 정책을 둘러싼 논란이 그 이유를 말해준다.

무기 등 불법물 수색을 위해는 거리에서 수색, 검문하고 가둘 수 있다는 규정에 따라 뉴욕시는 2004년 1월에서 2012년 6월까지 440만 명을 검문했다.

이와 관련해 뉴욕타임스는 사설을 통해 “440만 명 중 88%가 풀려났는데 이는 대다수가 아무 잘못 없이 경찰의 심문을 받았음을 뜻한다”며 이 제도를 비난했다. 사설은 “흑인과 히스패닉의 인구는 절반에 불과함에도 검문을 당한 사람중 약 83%가 이들이었다”고 지적했다.

인간이 가진 이런 편견은 데이터 분석을 통해 알려졌고 이는 자동의사결정시스템이 사법 정의에 긍정적인 역할을 할 수 있음을 말해준다.

적절하게만 사용된다면, 알고리즘은 “구형 제도와 수많은 사람이 감금되는 문제를 과학적으로 풀 수 있는 한 세대에 한번, 혹은 평생 한 번 있는 기회“라고 프로퍼블리카의 방법론에서 오류를 찾아낸 전문가들은 말한다.

이들은 이번 기회가 기술에 대한 ‘잘못된 정보와 오해 때문에 헛되게 사라질 수 있다’고 우려한다.

알고리즘을 잘 만들면 세상이 더 공정해진다는 것을 받아들인다 해도, 그 알고리즘이 잘 만들어졌는지는 어떻게 알 수 있을까? 민주주의 사회는 의사결정시스템의 투명화 정도를 결정해야 한다.

이런 종류의 소프트웨어가 적절하게 만들어졌는지 확인하는 새로운 규제를 만들어야 할까?

정치인, 판사, 그리고 시민들은 알고리즘이 공정함에 대한 어떤 기준을 가져야 하는지 의견을 말해야 한다.

하지만 알고리즘이 만약 정해진 가치를 제대로 반영하지 못한다면 누가 책임을 져야 할까? 이는 알고리즘 기술 발전의 효과를 누리기 위해 우리가 답을 찾아야 하는 어려운 질문들이다.

<본 기사는 테크M 제53호(2017년 9월) 기사입니다>