"구분 못하겠더라" 20년 전문가 한숨…'딥보이스' 대책 어디까지 왔나

[MT리포트-신종범죄의 습격 1부: 딥보이스, AI 범죄 잡는 AI](下)

범인 음성 찾는 AI 개발했지만…가짜 목소리 범죄 예방 '산 넘어 산'

대검찰청은 지난해 한국어에 특화된 '자동 화자(話者) 확인 시스템'을 개발했다. 증거녹취록의 음성을 입력하면 어떤 용의자의 목소리와 일치하는지를 자동으로 비교·대조해 동일인을 찾아주는 프로그램이다. 'CSI' 같은 과학수사물에서 범인의 지문을 입력하면 범죄자 데이터베이스를 뒤져 동일한 지문을 자동으로 검색해주던 지문확인 시스템의 음성판이다.

대검 관계자는 "2016년부터 범죄 용의자의 음성을 식별하는 기술을 꾸준히 연구한 결과"라며 "보이스피싱 등 음성 관련 범죄가 늘면서 이런 기술이 수사에서도 중요해졌다"고 말했다.

하지만 검찰이 어렵사리 개발한 이 기술도 최근 국내외에서 고개를 들기 시작한 '딥보이스(인공지능을 이용해 만들어낸 가짜 목소리) 범죄' 앞에서는 속수무책이다. 현재 시스템은 인공지능이 만들어내는 가짜 목소리를 가짜로 인식하지 못하기 때문이다. 대검이 첨단 신종범죄 대응방안의 우선대책으로 2027년까지 딥보이스 탐지 기술 개발에 나서기로 한 이유다.

대검 과학수사부는 큰 틀의 계획을 세운 상태다. '합성 유형 조사→합성음 탐지 기술 개발→음성 변조 탐지 기술 개발→결과물 보완·통합 솔루션 개발' 순으로 연구를 진행할 계획이다.

기술 개발에는 긴 시간이 걸릴 수밖에 없다. 민간에서도 카이스트를 비롯해 여러 연구소가 탐지 기술을 개발하고 있지만 수천 수만가지의 딥보이스 유형에 맞춰 각각의 탐지 기술을 개발해야 하는 만큼 속도가 더디다. 특정 컴퓨터바이러스를 탐지·제거하려면 특정 백신을 개발해야 하듯 AI 프로그램으로 만드는 딥페이크와 이를 잡는 AI 탐지기술은 '창과 방패의 싸움'이다.

최근의 딥보이스 기술은 수십년 동안 음성 분야에 몸을 담아온 전문가들도 진위를 가리지 못할 정도로 발전했다. 지난해 9월 열린 세계 최대 음성신호처리학회 '인터스피치'에 참석했던 김경화 대검 음성분석실장은 "사람이 말하는 것처럼 감정을 표현하고 말하는 사람의 얼굴 모양과 음성을 나이에 맞춰 조작할 수도 있는 수준"이라고 전했다.

전문가들 사이에서 딥보이스 기술이 딥페이크 영상과 합쳐져 악용될 경우 피해 규모를 상상하기 어렵다는 얘기가 나오는 게 이 때문이다. 딥페이크 영상을 잡아내는 기술 개발도 꾸준히 이어지고 있다. 삼성SDS 사내벤처 팀나인과 최종원 중앙대 첨단영상대학원 교수 연구팀이 신분증 등 인물 이미지의 위변조 여부를 99.9%까지 판단하는 탐지 기술을 개발했다. 마이크로소프트는 2021년 1월 세계 최대 가전 전시회 CES에서 영상의 퇴색 정도를 분석하는 방식으로 딥페이크 영상물을 가려내는 가짜뉴스 유포 방지용 기술을 선보였다.

유하진 서울시립대 컴퓨터과학부 교수는 "탐지기술 연구가 시작된 게 길게 봐야 3~4년 전이라 상용화된 탐지 기술은 거의 없는 상황"이라며 "인공지능 기술 발전에 따라 딥보이스 기술도 빠른 속도로 발전하고 있어 지금부터라도 대비하지 않으면 앞으로 새로운 유형의 딥보이스 범죄에 전혀 대응할 수 없는 상황이 발생할 수도 있을 것"이라고 말했다.

삼성SDS 사내벤처 '팀나인'이 만든 딥페이크 탐지 솔루션 시연 예시. /사진제공=삼성SDS

마이크로소프트가 2021년 1월 세계 최대 IT·가전 전시회 CES에서 선보인 딥페이크 영상 탐지 솔루션. 좌우가 비슷해 보이지만 해당 이미지가 딥페이크로 추정되는 순간 빨간색으로 이미지가 딥페이크일 확률이 나타난다. /사진=마이크로소프트 블로그

23년차 검찰 음성분석관도 "전화사기 일단 끊는 수밖에요" 이유는

-김경화 대검 음성분석실장 인터뷰

"딥보이스 사기 전화가 오면요? 검찰 직원들도 '일단 끊는 방법밖에 없지 않겠냐'고 하던데요."

김경화 대검찰청 음성분석실장(감정관·언어학 박사)은 지난 10일 머니투데이 인터뷰에서 '인공지능(AI)으로 합성·변조된 목소리를 진짜 목소리와 구분하기가 정말 힘드냐'는 질문에 이렇게 말했다.

김 실장은 2000년부터 대검 음성분석실에서 근무한 검찰 내 대표적인 음성분석 전문가다. 대검 음성분석실에선 주로 전화 통화상 목소리가 실제 피의자의 목소리와 동일한지, 녹음파일이 조작됐는지를 가려내는 일을 한다.

김 실장은 "'국제 음성신호처리학회'에서 매년 훈련된 감정관들이 참여하는 합성음 탐지 챌린지를 여는데 구분율이 점점 떨어진다"며 "전문가들도 식별하기 어려워지는 상황"이라고 전했다. AI 음성 합성·변조 기술이 경력 20년 이상의 내로라하는 전문가도 맨귀로는 진위를 파악하기 힘들 정도로 발전했다는 얘기다.

AI 음성 기술 자체가 나쁜 것은 아니다. 이를테면 네이버는 지난해 돌아가신 부모님의 목소리로 글을 읽어주는 '엄마의 목소리를 부탁해'라는 캠페인을 진행해 뜨거운 호응을 받았다. 하지만 실제 목소리와 구분이 힘든 AI 목소리가 범죄에 악용됐을 때는 파괴력이 크다.

해외에서는 돈을 노린 딥보이스 일당이 CEO(최고경영자)의 목소리를 흉내내 거액을 가로챘다는 뉴스가 심심찮게 보도된다. 국내에서도 보이스피싱 전화를 받은 사람 사이에서 아들·딸 목소리로 전화가 왔다는 경험담을 내놓는 이들이 적잖다. 검찰에 따르면 보이스피싱 피해액은 지난해에만 5438억원에 달했다. 아직까지는 어색한 보이스피싱 범죄의 음성이 '내가 잘 아는 사람'의 목소리로 바뀔 때 피해가 어느 만큼 커질 수 있는지는 예상하기조차 어렵다.

김 실장은 "정치인이나 연예인의 목소리를 합성해 말한 적도 없는 말을 한 것처럼 대중을 속이면 사회적으로 큰 혼란이 생길 수도 있다"고 말했다. 지난해엔 AI가 제작한 볼로디미르 젤렌스키 우크라이나 대통령의 '항복 선언' 영상이 유튜브에 퍼져 논란이 됐다. 김 실장은 "SNS(소셜네트워크서비스)에서 짧게는 몇 분, 몇 초 분량의 음성과 영상을 따도 가짜 음성과 영상을 만들 수 있다"며 "유명인이 아니라 일반 시민들도 딥보이스 음성합성·변조로 명예훼손·허위사실 유포 같은 사건의 피해자가 될 가능성이 크다"고 말했다.

딥보이스 탐지가 가능해지면 이런 사건으로 범인으로 몰린 사람이 누명을 벗을 수 있고 진범을 잡아낼 증거를 확보할 수도 있다. 대검은 2019년부터 딥보이스 기술과 국내외 전문가를 파악하면서 의견을 청취, 관련 연구를 준비했다. 아직 시장 수요가 많지 않아 정부가 나서야 한다는 판단에서다.

김 실장은 "민간 기업 입장에서 통합형 탐지 기술 개발을 해도 팔 곳이 결국 검찰 등 몇몇 기관밖에 없을텐데 개발 유인이 적지 않겠냐"며 "빠르게 발전하는 합성·변조 기술에 맞춰 탐지 기술을 개발하려면 충분한 인력과 예산 지원이 필요하다"고 말했다.

딥페이크 규제 나선 中…'가짜 콘텐츠 단속' 美·EU는 어떻게

범죄 등에 악용되는 딥페이크 기술이 전세계적으로 새로운 유형의 정치·경제·사회 문제로 떠오르면서 대책 논의가 시작된 가운데 중국이 주요국 가운데 처음으로 기술 규제에 나섰다.

11일 AFP 등 외신에 따르면 중국 중국 국가사이버정보판공실(CAC)이 지난 10일부터 '인터넷 정보 서비스 딥 합성 관리 규정'을 시행했다. 인공지능(AI) 기술을 이용해 사진이나 영상, 오디오를 합성하는 딥페이크 기술로 허위 정보를 퍼뜨리거나 범죄 등에 이용하는 것을 막겠다는 목적이다.

WSJ에 따르면 이 규정은 인공지능이 만들어낸 콘텐츠 사용을 금지한다. 딥페이크 기술을 사용해 콘텐츠를 만들 때는 '딥페이크 기술이 사용됐다는 사실을 명시해야 하고 원본을 추적할 수 있도록 워터마크(디지털 표시)를 넣도록 했다.

딥페이크 기술로 누군가의 이미지나 목소리를 합성해 편집하려고 할 때는 당사자 동의를 구해야 한다. 언론 보도에서 딥페이크 기술을 사용할 때는 정부가 승인한 매체 원본만 활용할 수 있게 했다.

미국을 중심으로 서구에서는 중국의 이번 규제가 다분히 정치적인 의도가 깔린 조치라는 분석이 나온다. AFP는 "중국이 공산당에 잠재적 위협으로 간주되는 기술을 신속하게 규제해왔고 이번 조치도 그 일환"이라고 지적했다.

미국에서는 딥페이크 규제 시도가 언론 자유를 침해할 수 있다는 우려 때문에 좀처럼 진전되지 않고 있다. 아마존, 마이크로소프트, IBM은 개인정보보호를 이유로 2020년 개발한 AI 안면인식 기술을 미국 경찰당국에 제공하는 것을 중단하거나 철회하겠다고 발표했다.

유럽연합(EU)에서도 플랫폼 기업들에 딥페이크 기술의 허위 정보 확산을 완화하는 방법을 찾도록 권고할 뿐 기술 자체를 금지하지는 않는다.

딥페이크보다 무서운 딥보이스…국내 대책 논의 첫발도 못떼

"인공지능(AI) 기술을 온전하게 누리기 위해서도 인공지능을 악용한 딥보이스·딥페이크 범죄를 예방하는 시스템 개발과 제도 정비, 이에 앞선 사회적 디지털 윤리 논의가 필수다."

국내외에서 딥보이스(인공지능 음성기술 기반 보이스피싱)·딥페이크 범죄가 빠르게 늘면서 사법당국과 관련업계에서 이런 얘기가 나온다. 범죄에 악용될 가능성 때문에 인공지능 기술의 진보가 가로막히거나 인공지능 기술의 발달로 범죄 피해가 확대 재생산되는 것은 막아야 한다는 것이다.

딥보이스 범죄가 발생하기 전 '진짜 같은 가짜' 목소리를 탐지해 피해를 예방해주는 기술은 아직 상용화 전 단계다. 수천 수만가지로 제작된 딥보이스 제작소스를 일일이 파악해 탐지하는 기술을 만들기도 어렵지만 이런 기술을 연구, 개발하기 위해 필요한 제반 제도부터 제대로 마련되지 않아 기술 개발에 속도가 붙기 쉽지 않은 여건 탓이다.

딥보이스 범죄를 다루는 수사당국이나 관련 기술을 개발하는 업계에서 먼저 제도 정비와 사회적 논의를 요구하는 게 이 때문이다. 이를테면 딥보이스 탐지기술 고도화를 위해서는 개인정보에 해당할 수 있는 일반 음성 데이터 수집과 활용 범위에 대한 논의가 선행돼야 한다. 딥보이스 기술을 활용하게 될 사업자 범위와 이들의 기술적 역량을 어떻게 평가할지도 문제다.

기술 개발 과정은 물론, 개발 이후 적용 단계에서도 부딪힐 수밖에 없는 개인정보보호 문제 역시 풀어야 할 숙제다. 아마존, 마이크로소프트, IBM이 2020년 개발한 AI 안면인식 기술을 미국 경찰당국에 제공하는 것을 중단하거나 철회하겠다고 발표한 것도 이런 이유에서였다.

전문가들은 개인정보보호와 범죄 예방이라는 명제 사이에서 어디까지 인공지능을 활용할 것인지에 대한 사회적 합의가 중요하다고 조언한다.

아쉽게도 국내에서 관련 논의는 아직 첫 발도 못 뗀 상태다. 현재 논의는 보이스피싱 처벌 강화나 피해자 구제에 머문다. 딥보이스 범죄 예방을 포함한 신종범죄에 대한 인식 자체가 낯선 상황이다.

국회에 제출, 발의된 법안도 해외에서 발신된 전화나 문자메시지의 경우 휴대폰에 표시되도록 의무화하는 전기통신사업법 개정안이나 보이스피싱의 범위를 계좌이체뿐 아니라 직접 만나 돈을 건네받는 대면편취형 범죄로 확대하는 내용의 전기통신금융사기 피해 방지 및 피해금 환급에 관한 특별법 일부개정안이 대부분이다.

범죄 예방 기술에 초점을 맞추면 딥보이스를 제작할 때 출처를 식별하거나 범죄에 악용되지 않도록 '워터마크'를 의무화해야 한다는 의견도 나온다. 일반적으로는 로고나 이미지 등 눈에 띄는 워터마크가 흔하지만 픽셀 단위 수준에서 패턴을 숨겨 넣어 사람의 눈에는 띄지 않지만 컴퓨터에서는 식별할 수 있는 워터마크도 있다. 음성에서도 사람의 귀에는 들리지 않도록 소리를 인코딩하는 방법이 있다.

채은선 NIA(한국지능정보사회진흥원) 수석연구원은 "딥보이스 문제는 정보통신망법, 공직선거법, 지능정보화기본법, 민법 등 폭넓게 관련된다"며 "제작·유통에서부터 관련 부작용 예방 등 전반적인 규율을 위해 제작 단계에서의 규제, 서비스 제공자 의무, 피해자 보호대책 등에 대한 논의를 시작해야 할 시점"이라고 말했다.

기자 사진 조준영 기자
기자 사진 정경훈 기자
기자 사진 심재현 기자
기자 사진 김창현 기자
기자 사진 김하늬 기자
기자 사진 차현아 기자
기자 사진 황국상 기자

이 기사 어땠나요?

응원해요 0
놀라워요 0
멋져요 1
좋아요 0
관심있어요 0
궁금해요 0

유니콘팩토리

전체 "구분 못하겠더라" 20년 전문가 한숨…'딥보이스' 대책 어디까지 왔나

최근 검색어

추천태그

최신기사

"구분 못하겠더라" 20년 전문가 한숨…'딥보이스' 대책 어디까지 왔나

공유하기

글자크기

[MT리포트-신종범죄의 습격 1부: 딥보이스, AI 범죄 잡는 AI](下)

이 기사 어땠나요?

이 시각 많이 보는 기사