한국형 거대언어모델 '고니'…"공학박사 저리 가라네~"

박건희 기자 기사 입력 2024.04.22 04:00

URL이 복사되었습니다. 원하는 곳에 붙여넣기 해주세요.

공유하기
글자크기

[2024 키플랫폼 - 디지털 전환 시대의 혁신과 리더십]
KISTI, 과학기술 데이터 특화 LLM 'KONI(고니)' 선보여

[편집자주] 우리 삶을 바꿀 중대한 글로벌 이슈와 어젠다를 톺아보는 머니투데이 연례 콘퍼런스 키플랫폼(K.E.Y. PLATFORM)이 2024년 우리 기업들이 현재의 경제 생태계에서 살아남고 성장하는데 필수적인 디지털 전환(DX)을 위한 혁신과 리더십에 대해 국내외 최고 전문가들의 인사이트를 지상중계합니다.
2024년 출범한 KISTI 초거대AI연구단은 한국형 LLM을 만들기 위한 '드림팀'으로 꾸려졌다. /사진제공=KISTI
2024년 출범한 KISTI 초거대AI연구단은 한국형 LLM을 만들기 위한 '드림팀'으로 꾸려졌다. /사진제공=KISTI

'한국형 과학기술 전문 LLM(거대언어모델)'을 개발한 국내 과학기술 데이터 최고 책임기관인 한국과학기술정보연구원(KISTI)이 국회, 육군 등 보안이 중요한 곳의 디지털 전환에 나선다. KISTI는 올해 초 LLM 학습 전문가인 이경하 단장을 필두로 '초거대AI(인공지능)연구단'을 발족했다. 지난해 12월에 내놓은 첫 한국어 기반 과학기술정보 LLM인 'KONI(한국명 고니·로고) 13b'에 이어 성능은 높이고 크기는 다양화한 LLM을 개발해 자체 AI를 필요로 하는 기관·기업을 지원한다는 계획이다.

LLM은 '챗GPT'와 같은 생성형 AI의 '뇌'에 해당한다. 텍스트와 이미지를 학습하고 기억해 분석·요약·새로운 콘텐츠 생산 등 목적에 맞는 임무를 수행한다. 생성형 AI의 유용성은 결국 LLM의 성능에 달렸는데 모델의 파라미터(매개변수) 규모가 클수록 성능이 뛰어나다. 모델이 학습한 정보를 서로 연결해 처리하는 역할을 파라미터가 맡기 때문이다. 메타의 '라마3'는 700억개의 파라미터를 갖고 있다. 오픈AI의 'GPT-4'는 16개 모델을 연결하는 방식으로 약 1조8000억개의 파라미터를, 네이버 '하이퍼클로바X'는 3000억~4000억개 수준의 파라미터를 갖춘 것으로 추정된다.

LLM은 웹사이트나 애플리케이션의 기능을 누구나 사용할 수 있도록 외부에 공개한 인터페이스인 '오픈 API(Application Programming Interface)'를 통해 많은 분야에서 활용한다. 하지만 이 방법엔 한계가 있다. 기밀보안이 필요한 산업분야에선 오픈 API를 통한 LLM 사용이 어려워서다. 문서요약이나 번역서비스를 맡기기 위해 중요정보가 든 데이터를 외부 LLM에 학습시킨다면 해당 LLM을 보유한 기업에 기밀정보를 자발적으로 누설하는 모양새가 되기 때문이다.

KISTI가 오픈 API를 거치지 않으면서도 특정분야에 특화된 질문에 잘 답변하는 '자체 LLM'을 만들려는 이유다. KISTI가 보유한 방대한 과학기술정보 데이터가 LLM의 학습자료로 사용된다. 이렇게 만든 '과학기술 전문 LLM'은 텍스트뿐만 아니라 도표, 수식, 화학식, 코드 등 다양한 비텍스트 기반 과학기술 데이터를 이해하고 분석까지 가능한 '초거대 AI'의 뇌가 된다. 누구나 대화하듯 자연스러운 질문을 던져 신뢰할 만한 과학지식을 얻을 수 있다. 연구자는 기존 과학기술정보를 독해, 분석 및 작성하는데 개별적으로 많은 시간을 소요할 필요없이 AI를 활용하면 된다. 과학기술 정책입안자는 키워드별 분석기능을 이용해 최신 연구동향과 통계정보를 파악할 수 있다.

초거대 AI, 국내 과학기술정보 서비스 이렇게 바꾼다/그래픽=이지혜
초거대 AI, 국내 과학기술정보 서비스 이렇게 바꾼다/그래픽=이지혜
KISTI는 이미 지난해 12월 첫 한국형 LLM인 '고니 13b'를 공개했다. '과학기술정보 특화 LLM 개발사업'의 일환으로 KISTI 초거대AI연구단(당시 초거대언어모델개발애자일팀)이 개발했다. 올해 개발될 모델에는 기존 LLM이 갖는 '할루시네이션' 현상을 최소화하기 위해 논문, 보고서, 과학기술정보에 '검색증강생성'(RAG) 기술을 적용한다.

할루시네이션은 대량의 정보를 무작위로 학습한 AI가 맥락에 맞지 않는 허위정보를 생성하는 오류를 말한다. RAG 기술은 실제 데이터베이스에 저장된 사실정보에 답변하도록 하는 기술이다. '고니 13b'는 KISTI가 보유한 과학기술 데이터를 학습했다. 국가 R&D(연구·개발)보고서, 국내 논문데이터 세트, 국내 신문 말뭉치 등 한국어 데이터다. 이 과정을 통해 기존 LLM과 달리 과학기술·산업분야에 특화된 한국어 LLM이 탄생했다.

KISTI는 "고니는 정보보안이 중요한 국책연구기관이나 국회, 육군군수사령부에서 활용할 수 있는 LLM이 될 것"이라고 설명했다. 고니는 현재 약 130억개의 파라미터를 갖고 있다. 현재 이보다 큰 규모를 가진 모델개발도 이뤄진다. KISTI 초거대AI연구단은 여기에 더해 기존 LLM에 비해 전산사용을 절약하는 소규모 설치형 LLM인 'sLLM'(small LLM) 등 파라미터 규모를 다양화한 LLM을 개발해 각 기관이 목적에 맞게 도입하도록 할 계획이다. 김재수 KISTI 원장은 "고니의 성능을 2027년까지 점차 높여 '공학박사 수준'의 AI 정보서비스가 가능하도록 할 것"이라고 목표를 밝혔다.
KONI(고니)의 로고 /사진제공=KISTI
KONI(고니)의 로고 /사진제공=KISTI

'KISTI' 기업 주요 기사

관련기사

  • 기자 사진 박건희 기자

이 기사 어땠나요?

이 시각 많이 보는 기사