[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.] 영상이해 초거대 AI(인공지능) 개발 기업 트웰브랩스가 고도화된 영상언어 생성 모델 'Pegasus-1.2'(페가수스-1.2)를 공개했다고 13일 밝혔다.
2023년 11월 처음 공개된 페가수스는 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델이다. 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 영상 기반 텍스트 생성 기능들을 최초로 선보인 바 있다.
이번에 공개된 페가수스-1.2는 기존 버전 대비 크게 개선됐다. 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력을 강화하고, 짧은 영상부터 1시간 분량 장편 영상까지 다양한 길이의 영상을 처리할 수 있게 정확도를 높였다. 이미 한 번 처리한 영상은 다음 분석 시 더 빠르고 경제적으로 처리할 수 있다.
특히, 이번 모델은 상대적으로 가벼운 모델 크기로도 뛰어난 성능을 구현했다. GPT-4o와 구글 제미나이 1.5 프로보다 빠른 응답 속도를 보였다는 게 회사 측 설명이다. 업계 선두주자의 API와 비교했을 때 더 뛰어난 성능을 더 낮은 비용으로 제공한다는 얘기다.
이승준 트웰브랩스 최고기술책임자(CTO)는 "페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고 다양한 산업 현장의 요구사항을 충족시킬 수 있게 됐다"고 말했다.