진짜 일 잘하는 AI는 무엇?…올거나이즈, 에이전트 벤치마크 공개

[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

기업의 LLM(거대언어모델) 도입을 지원하는 스타트업 올거나이즈가 3일 LLM의 에이전트로서의 역량을 평가하는 '올인원 벤치마크'를 발표했다.

올인원 벤치마크는 LLM의 에이전트 성능을 종합적으로 평가하는 플랫폼이다. 도메인별 지식뿐 아니라 문제 해결을 위한 툴 선택 및 활용 능력, 대화의 맥락 이해, 수집된 정보 활용 등 능력을 평가한다. 평가 결과는 대시보드 형태로 제공하며 수요기업은 필요에 따라 적합한 LLM을 선택할 수 있다.

현재 해당 벤치마크는 올거나이즈가 라마3를 기반으로 개발한 자체 소형언어모델(sLLM)을 비롯해 오픈AI의 GPT-4o, LG의 엑사원, 딥시크의 V3 등 12개의 LLM을 평가해 결과를 제공하고 있다.

평가에는 다양한 상황에서 스스로 외부 도구를 호출하는 '툴 콜링' 능력, 한국어 환경에서의 툴 콜링 능력, 유통·항공 등 실제 산업 현장과 상황에서 LLM의 문제 해결 능력 등 3가지 능력을 중심으로 언어 이해, 지식수준, 명령 준수 등 LLM 자체 능력 등도 평가한다.

새로운 LLM의 성능 확인도 손쉽게 구현했다. 새로 나온 LLM 이름을 입력하면 플랫폼이 모델의 API(응용프로그램 프로그래밍 인터페이스)를 자동으로 구현하고, 평가를 진행하는 방식이다. LLM이 개발될 때마다 각 벤치마크의 개별 코드를 실행해 동일 작업을 진행해야 하는 기존 문제점을 해결했다.

이창수 올거나이즈 대표는 "기업이 생산성 향상을 위해 AI 모델을 도입하는 데 도움이 되는 LLM 평가 플랫폼을 지속적으로 업데이트해 나갈 예정"이라며 "나아가 에이전트 역할을 제대로 수행하는 LLM을 개발하기 위해 기존 LLM의 에이전트 성능을 확인하고 이를 향상하기 위한 학습 방법을 심도 있게 연구하고 있다"고 전했다.