[MT리포트-한국형 AI의 현재와 미래]② 생성형 AI 비교해보니
[편집자주] 2022년 11월 챗GPT가 세상에 모습을 드러내며 생성형 AI 열풍을 일으켰다. 구글, MS 등 글로벌 빅테크도 참전하면서 그야말로 이젠 'AI 춘추전국시대'다. 뒤늦게 한국도 AI 전쟁에 참전하며 고삐를 죄고 있지만, AI 성능 면에서나 자본력 투입 여력 측면에서 여전히 갈 길이 멀다. 한국형 AI가 어디까지 와있는지, 글로벌 시장에서 경쟁력을 갖기 위해 어떻게 해야 할지 짚어본다.
챗GPT를 시작으로 다양한 생성형 AI(인공지능)가 출시되며 경쟁이 치열해지고 있다. 각기 강점이 다른 만큼 자신의 용도에 맞는 AI를 이용하면 되지만, 정작 AI 성능에 대한 구체적인 정보는 부족하다.
네이버 AI 서비스 '큐:'와 '클로바X'를 비롯해 오픈AI의 '챗GPT', 구글의 '제미나이', 퍼플렉시티의 '퍼플렉시티' 마이크로소프트(MS)의 '코파일럿', 앤트로픽의 '클로드' 등 6개사, 7개의 대표적인 AI서비스를 모두 사용해보고 한국형 AI의 수준이 어느정도인지, 어떤 AI가 똑똑한지 직접 살펴봤다.
최신 정보는 코파일럿 '압승' 최신 정보 제공은 MS의 코파일럿이 압승이다. 윤석열 대통령의 2차 탄핵소추안이 가결된 지난 15일 오후 5시경 '2차 탄핵소추안 표결 결과 알려줘'라는 질문에 코파일럿만 정확한 답변을 제시했다. 퍼플렉시티는 이보다 조금 늦은 10분 뒤 정보를 제공했지만, 내용은 더 구체적이었다. 챗GPT가 부진했는데, 결과가 아직 발표되지 않았다는 답변에서 올바른 답변이 나오기까지 1시간 걸렸다.
클로드는 "올해 1월 윤석열 대통령에 대한 2차 탄핵소추안이 부결됐다"는 잘못된 정보를 제공했다. 일종의 할루시네이션(거짓정보)이다. 큐: 역시 잘못된 정보를 제공했고, 클로바X, 제미나이는 정치적 답변을 회피했다.
큐:와 클로바X는 네이버가 서비스하지만 서로 답변이 다른 이유는 용도와 기능 차이 때문이다. 큐:는 최신 정보 검색에, 클로바X는 이미지·문서 이해 및 번역에 최적화됐다. 또 클로바X에는 '오토 브라우징' 기능이 완전히 탑재되지 않아 최신 정보 검색에 취약할 수 있다는 게 네이버의 설명이다.
제미나이는 모든 정치적 질문에 "답변을 해드릴 수 없다"고 일관한다. 이에 대해 구글 측은 "AI를 이용한 가짜뉴스 확산 등 우려를 차단하기 위해 선거 등 정치적 질문을 제한하고 있다"고 설명했다.
큐:, 클로바X 함정 질문에 취약 AI는 고정관념에 얼마나 빠져있을까. '아들이 아빠와 차 사고가 났어. 병원에서 의사가 아들에게 아들이라고 불렀어. 의사의 정체는?'이라는 질문을 동시에 던졌다. 이에 챗GPT, 퍼플렉시티, 코파일럿, 클로드, 제미나이가 질문 의도를 정확히 파악해 "의사는 어머니이며, 의사가 남성일 것이라는 선입견 테스트"라고 답했다. 제미나이1.5는 질문 의도를 파악하지 못했지만, 최근 업데이트된 2.0은 '어머니'라고 답했다. 큐:와 클로바X는 동문서답을 내놨다.
'함정 질문'에선 챗GPT와 퍼플렉시티만 본질을 정확히 꿰뚫었다. '어제 축구공 10개를 샀고 지난주 3개를 버렸다. 오늘 1개를 다시 구매했다. 남은 축구공 개수는?'이란 질문에 챗GPT와 제미나이는 "원래 갖고 있던 축구공 개수를 모르기 때문에 현재 수량은 알 수가 없다"고 했다. 그런데 코파일럿, 클로드, 퍼플렉시티는 8개라는 오답을 내놨다. 큐:와 클로바X는 각각 11개, 12개라는 완전히 벗어난 답을 했다.
비슷한 질문을 이어갔다. '철수와 영희가 있다. 철수가 8살, 영희는 그의 절반일 때, 철수가 30살이면 영희 나이는 몇 살일까?'라고 묻자 큐:와 클로바X를 제외한 모든 AI가 정답인 26살이라고 했다. 큐:와 클로바X는 15살이라고 답했다. 영희가 철수보다 나이가 절반 어리다는 것만 인식해 철수의 나이 30살에서 절반인 15살로 계산한 것이다.
'정리왕'은 퍼플렉시티 '정리왕'은 퍼플렉시티였다. 보고서 및 보도자료 등을 정리해 달라고 요청하자 퍼플렉시티가 가장 일목요연하고 핵심을 짚은 결과물을 도출했다. 또 관련 내용을 심층 분석해 이용자가 궁금해할 만한 추가적인 질문과 답변도 제시했다. 챗GPT 역시 크게 뒤떨어지지 않지만, 퍼플렉시티에 비해 정보량은 다소 부족했다.
'AI 윤리' 수준에선 모든 AI 서비스가 합격점을 받았다. 마약 제조 방법에 관해 묻자 "알려드릴 수 없다"고 했다. 이미지 검색 능력은 외국계 모든 AI가 정확한 답을 줬다. 최근 대만 여행 중 '안드로이드 페이' 로고가 뭔지 몰라 모든 AI에 사진을 올렸더니, 클로바X만 '삼성 페이'라고 답했다.
아울러 챗GPT, 퍼플렉시티는 모든 기능에서 우수한 '육각형 AI'였다. 코파일럿 역시 대부분 기능에서 합격점을 받았지만, 답변의 질적인 측면에서 챗GPT와 퍼플렉시티에 크게 미치지 못했다. 클로드는 할루시네이션에 가장 취약했고, 네이버의 큐:와 클로바X는 외국계 AI에 비해 성능적인 측면에서 많이 부족한 느낌이었다.
전문가들은 AI를 이용하되 100% 신뢰해선 안 되며, 실시간 정보 검색은 이왕이면 피하라고 조언한다. 김주호 카이스트(KAIST) 전산학부 교수는 "AI가 답변을 제시해도 다른 AI 및 믿을만한 자료와 교차검증을 철저히 하는 것이 중요하다"며 "시간 요소가 중요한 실시간 정보 등은 기술적인 어려움과 비용이 많이 들기 때문에 AI를 통해 확인할 경우 할루시네이션이 발생할 우려가 크다"고 말했다.
- 기자 사진 김승한 기자
<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>