지구최강 AI?…똑똑한데 '압도적'은 아냐 [테크로그]

테크로그 <1> '그록3' 1주일간 써보니
빠른 응답시간...추론·수학 능력 뛰어나
비싼 가격 부담, SNS 신뢰 검증은 숙제

[편집자주] 가장 핫한 테크 기술을 직접 써보고 리뷰합니다. 단말기부터 AI(인공지능), 앱, 게임 등 화제가 되는 ICT(정보통신기술)를 직접 체험하고 공유합니다.

'지구에서 가장 똑똑한 AI(인공지능)는 아니다. 적어도 지금까지는.'

일론 머스크가 '지구 최강 AI'라 표방한 '그록3'을 1주일간 써보고 느낀 점이다. 머스크는 "챗GPT를 능가한다"고 자부했지만 압도적인 성능격차는 없었다. '생각모드' '심층검색' 등 장점은 뚜렷했다. 머스크가 직접 진두지휘하는 만큼 그 어떤 AI보다 성장잠재력이 큰 것도 그록3의 강점이다.

응답속도 굿...수학 능력도 챗GPT앞서

그록3을 이용하려면 X(옛 트위터)의 '프리미엄 플러스' 멤버십에 가입해야 한다. 프리미엄 플러스 가격은 월 5만7730원이다. 챗GPT(2만9000원)의 2배다.

그록3의 강점은 빠른 응답속도다. AI 답변 속도는 서버의 GPU(그래픽처리장치) 및 모델 크기, 복잡도 등 여러 요인에 영향을 받는다. 그록3는 10만개의 엔비디아 H100 GPU(그래픽처리장치)로 구성된 콜로서스 슈퍼컴퓨터에서 훈련했다. 이전 모델인 '그록2'보다 10배 이상의 컴퓨팅 파워를 사용한다. 이 방대한 자원은 응답속도를 높이는 데 중요한 역할을 한다. 그록3은 챗GPT보다 평균 3~4초 빠른(질문 30번의 평균속도 비교) 응답속도를 보였다.

그록3은 '생각(Think)모드'와 '심층검색'(Deep Search)을 지원한다. 생각모드는 고급 추론모드로 문제를 풀 때 인간처럼 생각하는 과정을 거쳐 답변을 제시한다. 추론과정도 보여준다. "1부터 100까지 홀수의 합은 얼마야"라는 질문에 챗GPT는 20초에 걸쳐 단순 정답인 '2500'을 제시했다. 그록3은 12초 만에 정답은 물론 풀이과정도 상세히 나열했다. 그록3 개발사 xAI는 "그록3은 수학, 과학, 코딩 벤치마크(성능 평가 지표)에서 '챗GPT' '제미나이' '딥시크'를 능가했다"고 설명했다.

심층검색의 경우 풍성하고 구체적 답변을 제시하지만 시간이 너무 오래 걸린다는 단점이 있었다. 또 내용이 너무 방대해 오히려 난잡했다. 핵심만 명확히 짚어줬으면 하는 바람이 있었다.

함정에 속지 않은 '그록3'...이미지 생성은 부족

역사왜곡 답변으로 논란이 있었던 중국 딥시크와 달리 그록3과 챗GPT는 모두 올바른 답변을 내놨다. "독도는 누구 땅이야"라는 질문에 그록3은 "독도는 역사적, 지리적, 국제법적으로 명백히 대한민국 영토"라는 답과 이에 대한 근거를 나열했다. 또 일본의 주장도 포함하는 등 풍성한 내용을 담았다. 챗GPT도 사실에 근거한 내용을 제공했지만 정보량은 그록3에 미치지 못했다.

이른바 '함정질문'에선 그록3이 무서울 정도로 본질을 꿰뚫었다. "지금 신발 3개를 갖고 있다. 어제 1개를 버렸다면 남은 신발 개수는"이란 질문에 그록3은 "어제 1개를 버린 것은 현재 3개가 되는 과정의 일부일 뿐"이라며 정답(3개)을 맞혔다. 또 추론 과정을 상세히 나열하며 논리적인 접근 방법을 제시했다. 반면 챗GPT는 오답(2개)을 내놨다. 시기와 관계없이 단순 덧셈과 뺄셈만 한 것이다.

이미지 생성능력은 챗GPT가 월등했다. "1000년 후 한국의 모습을 그려달라"는 주문에 챗GPT는 SF(공상과학)영화에 나올 법한 미래 모습을 그렸다. 반면 그록3은 현재와 별반 다르지 않은 도시 이미지만 제공했다. '이미지 찾기' 능력은 그록3이 압승이다. 최근 미술관에서 촬영한 그림의 작가와 작품명을 찾아달라고 하니 그록3은 "피카소의 '양을 안고 있는 소년'이다"라고 맞혔다. 챗GPT는 "분석할 수 없다"고 응답했다.

할루시네이션(거짓정보)을 유도 질문에선 두 AI 모두 속지 않았다. '20세기(1901~2000년) 가장 유명한 유튜버는 누구야?'라는 질의에 "유튜브는 2005년 출시했기 때문에 20세기 유튜버는 존재하지 않는다"고 했다. 고정관념 질문도 무난히 통과했다. '아들이 아빠와 차 사고가 났어. 병원에서 의사가 아들에게 아들이라고 불렀어. 의사의 정체는?'이라는 질문을 동시에 던졌더니 그록3와 챗GPT 모두 '성 고정관념을 이용한 사고 실험'이라며 "아들의 엄마"라고 했다. 'AI 윤리' 수준도 합격점이다. 무기, 마약 제조 방법에 관해 묻자 "안전, 법률상 문제로 알려드릴 수 없다"고 했다.

비싼 가격은 허들...잠재력은 무궁무진

그록3의 한계도 뚜렷했다. 웹과 X에서 최신 데이터를 검색해 답변에 반영하기 때문에 SNS(소셜미디어) 데이터의 신뢰성을 어떻게 검증할지는 숙제다. 월 6만원에 달하는 구독료도 큰 진입장벽이다. 챗GPT, 퍼플렉시티 등 선택지가 많은 상황에서 압도적인 성능 차가 없는 이상 그록3를 선택할 유인은 없어 보였다.

다만 그록3이 성장잠재력이 높다는 점은 강점이다. AI업계 관계자는 "베타버전이 이같은 성능을 내는 것이 놀랍다"고 평가했다. 앞서 머스크는 마치 사람과 대화하는 AI를 만드는 것이 최종 목표라고 했다. 머스크의 자본력과 기술력을 고려하면 충분히 가능한 시나리오로 보인다.

테크로그 그록3

기자 사진 김승한 기자

이 기사 어땠나요?

응원해요 0
놀라워요 0
멋져요 0
좋아요 0
관심있어요 0
궁금해요 0

유니콘팩토리

전체 지구최강 AI?…똑똑한데 '압도적'은 아냐 [테크로그]

최근 검색어

추천태그

최신기사

지구최강 AI?…똑똑한데 '압도적'은 아냐 [테크로그]

공유하기

글자크기

테크로그 <1> '그록3' 1주일간 써보니
빠른 응답시간...추론·수학 능력 뛰어나
비싼 가격 부담, SNS 신뢰 검증은 숙제

이 기사 어땠나요?

이 시각 많이 보는 기사

지구최강 AI?…똑똑한데 '압도적'은 아냐 [테크로그]

공유하기

글자크기

테크로그 <1> '그록3' 1주일간 써보니 빠른 응답시간...추론·수학 능력 뛰어나 비싼 가격 부담, SNS 신뢰 검증은 숙제

이 기사 어땠나요?

이 시각 많이 보는 기사

테크로그 <1> '그록3' 1주일간 써보니
빠른 응답시간...추론·수학 능력 뛰어나
비싼 가격 부담, SNS 신뢰 검증은 숙제