바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

[테크M 기획] 가짜도 진짜처럼…글 잘쓰는 AI GPT2 등장

오픈AI, GPT2 알고리즘 공개하지 않기로 해…가짜뉴스 생산 우려

2019-02-16곽예하 기자

인공지능(AI) 사용범위가 점차 확대되면서 언젠간 사람 일자리를 모두 대체할 것이라는 전망이 나오고 있다. 심지어 창의력을 요구하는 글쓰기처럼 인간 고유 영역이라 여기고 있는 분야도 위협받고 있는 상황이다.

미국 샌프란시스코에 기반을 둔 비영리재단 오픈AI(OpenAI)가 15일 샘플 문장을 입력하면 그와 비슷한 문맥으로 글을 써내는 AI ‘GPT2’를 개발했다고 밝혔다.

한 예로 사람이 다음과 같은 문장 2줄을 입력하면

A train carriage containing controlled nuclear materials was stolen in Cincinnati today. Its whereabouts are unknown.

오늘 신시내티에서 통제된 핵물질을 실은 열차가 도난당했다. 이것의 행방은 알 수 없다.
 

GPT2 AI는 다음과 같은 글을 스스로 이어서 써내려갔다.

 

The incident occurred on the downtown train line, which runs from Covington and Ashland stations.

이번 사건은 코빙턴과 애슐랜드역 사이에서 운행되는 도심 열차 노선에서 발생했다.


In an email to Ohio news outlets, the U.S. Department of Energy said it is working with the Federal Railroad Administration to find the thief.

미국 에너지부는 오하이오 뉴스에 보낸 이메일에서 연방철도청과 협력해 탈취범을 찾고 있다고 밝혔다.


“The theft of this nuclear material will have significant negative consequences on public and environmental health, our workforce and the economy of our nation,” said Tom Hicks, the U.S. Energy Secretary, in a statement. “Our top priority is to secure the theft and ensure it doesn't happen again.”

톰 힉스 미 에너지부 장관은 “이번 핵물질 탈취 사건은 공공 및 환경 보건, 우리의 노동력, 그리고 미국 경제에 큰 악영향을 미칠 것”이라며 “우리의 최우선 과제는 탈취범을 찾아내 다시는 이런 일이 일어나지 않도록 하는 것”이라고 말했다.


The stolen material was taken from the University of Cincinnati's Research Triangle Park nuclear research site, according to a news release from Department officials.

정부 관계자는 탈취당한 핵물질이 신시내티 대학 원자력 연구팀인 트라이앵글 파크 연구소의 것이라고 밝혔다.


The Nuclear Regulatory Commission did not immediately release any information.

원자력규제위원회는 당장은 아무런 입장도 내놓지 않았다.


According to the release, the U.S. Department of Energy's Office of Nuclear Material Safety and Security is leading that team's investigation.

미국 에너지부 보도에 따르면 현재 이 사건은 에너지부 자체 핵물질 안전 및 보안팀이 조사하고 있는 것으로 알려졌다.


“The safety of people, the environment and the nation's nuclear stockpile is our highest priority,” Hicks said. “We will get to the bottom of this and make no excuses.”

힉스 장관은 “국민과 환경, 그리고 국가가 비축한 핵의 안전이 최우선”이라며 “진실을 밝히고 나쁜 선례가 생기지 않도록 하겠다”고 말했다.

 

이렇듯 GPT2는 주어진 문장 주제와 스타일을 파악해 다음 내용을 써낸다. 기존 AI와 비교했을 때 긴 문단 중간에서 갑자기 주제를 잃어버리거나 하는 실수도 거의 없다.

다리오 아모데이(Dario Amodei) 오픈AI 연구팀장은 15일 더 가디언(The Guardian)에 “GPT2는 크기 면에서 획기적”이라고 강조했다. 그는 GPT2가 기존에 나와 있는 최신 AI모델보다 15배 많은 데이터를 수용할 수 있다고 말했다.

오픈AI에 따르면 GPT2는 소셜 뉴스 사이트 레딧에서 선별한 글 1000만개를 학습했다. 학습한 글 총량은 40GB에 달한다. 이는 소설 모비딕을 3만5000권 저장할 수 있는 크기다.

오픈AI는 입력한 데이터 양이 GPT2가 작성하는 글의 품질과 직접적으로 연결되도록 알고리즘을 설계했다고 설명했다. 또 GPT2가 입력된 테스트를 구조화하도록 설계한 것이 번역이나 요약 같은 작업을 기존에 나왔던 다른 텍스트 생성 AI보다 잘할 수 있게 된 이유라고 말했다.

즉 GPT2는 우리가 스마트폰이나 이메일에서 글을 작성할 때 나타나는 자동완성 기능과 비슷하다고 볼 수 있다. 제프 우(Jeff Wu) 오픈AI 연구원은 15일 블룸버그에 “GPT2는 작가들이 아이디어를 내거나 문장을 완성하는데 도움을 줄 수 있다. 또 문장에서 문법 오류를 확인하거나 소프트웨어에서 버그를 잡아낼 때 활용할 수 있다”고 말했다.

하지만 오픈AI는 최상위 버전의 GPT2 알고리즘을 공개하지 않기로 결정했다고 밝혔다. 소프트웨어를 만드는데 사용하는 소스 코드와 데이터도 공개하지 않는다.

오픈AI는 ‘가짜뉴스’에 대한 불안이 그 이유라고 설명했다.

2016년 러시아가 페이스북에 가짜뉴스를 유포해 미국 대선에 개입했다는 의혹이 큰 파장을 일으킨 후, 세계가 가짜뉴스의 위험성을 인지하기 시작했다.

특히 단 두 문장만으로도 실제 기사와 구분할 수 없을 정도로 완벽한 기사를 작성해 낸 GPT2는 가짜뉴스에 악용될 경우 위험이 크다고 생각한 것이다.

잭 클라크(Jack Clark) 오픈AI정책 책임자는 블룸버그에 “GPT2는 일관성 있는 문장을 생성할 수 있지만 이것이 정확하지 않은 정보일 수 있다”며 “따라서 가짜뉴스 생산에 이용될 수 있어 내부적으로 공개하지 않기로 결정했다”고 설명했다.

이미 국내에서도 몇몇 언론사들이 ‘AI 로봇기자’를 도입하고 있다. 데이터를 입력하면 AI기자가 자동으로 기사를 작성한다.

하지만 아직까지 부족한 것이 많아 스포츠나 금융 같이 숫자 데이터를 기반으로 한 단문형 기사 작성에만 사용하고 있다. 이와 비교했을 때 오픈AI GPT2는 사람이 작성한 것과 비교해도 손색이 없을 정도로 높은 수준의 기사를 작성할 수 있다는 평가다.

한편 GPT2에 사용된 ‘자연어 처리’ 기술은 지난 몇 년간 많은 기업들이 관심을 보이면서 빠르게 발전해왔다. 구글 번역기와 AI 음성비서의 번역 기능 등이 대표적인 활용 사례다.

샘 보우만(Sam Bowman) 뉴욕대 자연어 처리 전문가는 “GPT2가 생성하는 텍스트는 매우 놀라울 정도”라며 “GPT2는 기존 기술보다 훨씬 복잡하고 높은 수준의 글을 쓸 수 있다”고 강조했다.

 

[테크M=곽예하 기자(yeha1798@techm.kr)]

뉴스