AI(인공지능) 스타트업 디노티시아가 LLM(거대언어모델) 파운데이션 모델 'DNA'를 허깅페이스에 오픈소스로 공개하고 베타테스트를 시작한다고 12일 밝혔다.
이번에 공개한 'DNA 1.0 8B Instruct' 모델은 80억 개의 파라미터 규모로, 라마(Llama) 아키텍처 기반의 이중언어 모델이다. 한국어 이해와 생성에 최적화된 모델로, 작은 모델 크기로도 고품질의 한국어 서비스를 제공할 수 있도록 한 것이 특징이다.
디노티시아는 DNA 개발을 위해 고품질 한국어 데이터셋을 사용해 지속적 사전 학습(CPT)을 진행했다. 또 지도 학습 미세조정(SFT) 및 직접 선호 최적화(DPO) 등 기술로 자연스러운 대화 능력과 수행 능력을 강화했다.
앞서 한국어 언어모델 벤치마크인 'KMMLU'에서는 평균 점수 53.26점을 기록하며, 최근 발표한 LG엑사원3.5 (45.30점) 및 엔씨소프트 VARCO (38.49점), 알리바바 Qwen2 (45.66점), 야놀자 EEVE (42.17점) 등 주요 경쟁 모델을 능가하는 점수를 기록했다.
디노티시아는 DNA 파운데이션 모델을 기반으로 생성AI 어시스턴트의 베타 테스트를 시작한다. 한국 문화와 맥락을 깊이 이해하는 기능을 통해 검색, 요약, 번역, 데이터 분석, 보고서 작성, 코딩 등 분야에서 한국 사용자들에게 가장 적합한 AI솔루션을 제공한다는 목표다.
정무경 디노티시아 대표는 "누구나 사용할 수 있는 고성능 LLM 모델을 제공해 한국의 AI 기술 발전에 이바지할 것"이라며 "베타 테스트를 통한 사용자 피드백을 퍼스널·엣지 LLM디바이스, 니모스에 적극 반영해 최상의 서비스를 제공할 계획"이라고 말했다.
[머니투데이 스타트업 미디어 플랫폼 유니콘팩토리]
이번에 공개한 'DNA 1.0 8B Instruct' 모델은 80억 개의 파라미터 규모로, 라마(Llama) 아키텍처 기반의 이중언어 모델이다. 한국어 이해와 생성에 최적화된 모델로, 작은 모델 크기로도 고품질의 한국어 서비스를 제공할 수 있도록 한 것이 특징이다.
디노티시아는 DNA 개발을 위해 고품질 한국어 데이터셋을 사용해 지속적 사전 학습(CPT)을 진행했다. 또 지도 학습 미세조정(SFT) 및 직접 선호 최적화(DPO) 등 기술로 자연스러운 대화 능력과 수행 능력을 강화했다.
앞서 한국어 언어모델 벤치마크인 'KMMLU'에서는 평균 점수 53.26점을 기록하며, 최근 발표한 LG엑사원3.5 (45.30점) 및 엔씨소프트 VARCO (38.49점), 알리바바 Qwen2 (45.66점), 야놀자 EEVE (42.17점) 등 주요 경쟁 모델을 능가하는 점수를 기록했다.
디노티시아는 DNA 파운데이션 모델을 기반으로 생성AI 어시스턴트의 베타 테스트를 시작한다. 한국 문화와 맥락을 깊이 이해하는 기능을 통해 검색, 요약, 번역, 데이터 분석, 보고서 작성, 코딩 등 분야에서 한국 사용자들에게 가장 적합한 AI솔루션을 제공한다는 목표다.
정무경 디노티시아 대표는 "누구나 사용할 수 있는 고성능 LLM 모델을 제공해 한국의 AI 기술 발전에 이바지할 것"이라며 "베타 테스트를 통한 사용자 피드백을 퍼스널·엣지 LLM디바이스, 니모스에 적극 반영해 최상의 서비스를 제공할 계획"이라고 말했다.
[머니투데이 스타트업 미디어 플랫폼 유니콘팩토리]
- 기자 사진 고석용 기자 gohsyng@mt.co.kr 다른 기사 보기
<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>