[유니밸리-한국과학기술원 6-3]
K-테크 스타트업 왕중왕전 결선팀-드림투리얼
인공지능(AI) 서비스 개발의 핵심은 데이터다. 문제는 데이터 수집·가공 등 라벨링 작업이 만만치 않다는 것이다. 인형 눈알 붙이듯 노동집약적 방식으로 데이터 라벨링이 이뤄지다 보니 시간적, 금전적 비용 부담이 커지는 것은 물론 정확성도 떨어진다. 김명철 드림투리얼 대표(28·카이스트 전기·전자공학부 박사과정)도 이 같은 어려움을 겪다가 문제를 해결하고자 AI 및 시뮬레이션 분야의 전문가들과 함께 창업에 나섰다.
김 대표는 "AI 서비스 개발 과정에서 데이터 라벨링에 드는 시간과 비용의 비중이 85%에 달한다"며 "AI 개발과 모델 성능 향상에 데이터가 미치는 영향은 치명적"이라고 설명했다. 산업 전반에 인공지능이 보급되는 것을 막고 있는 주요 원인이 바로 데이터라는 것. 그는 "얼굴 인식을 제외하면 사실상 AI 서비스가 별로 없다"면서 "돈을 퍼붓고 있지만 학습데이터 부족 때문에 개발 속도는 느린 게 현실"이라고 지적했다.
실제 미국 AI 스타트업의 경우 평균 라벨링 비용이 230만달러(약 30억원)에 달하고, 멀티 카메라 트랙킹 데이터를 10만장 라벨링한 연구실에서는 70억원의 비용이 요구됐다고 김 대표는 설명했다. 이같이 리얼 데이터는 데이터 복잡도에 따라 비용이 천문학적으로 증가해버린다는 게 문제다.
드림투리얼은 데이터 라벨링에 드는 비용과 시간을 혁신적으로 줄여주는 솔루션 '오토데이터'를 개발했다. 오토데이터는 1개 데이터당 120분 걸리던 고난도 라벨링 작업을 1분 내로 끝낼 수 있다. 또한 기존에는 라벨링 건수에 비례해 인력이 필요했지만 오토데이터는 별도의 라벨링이 필요치 않아 해당 인력비를 아낄 수 있다. 김 대표는 오토데이터가 현실과 가장 유사한 시뮬레이션 가상환경에서 학습데이터를 추출하기 때문이라고 설명했다. 단순히 학습데이터만 생성하는 게 아니라 고객사의 AI 서비스 개발부터 공급까지 학습데이터 문제를 함께 고민하며 풀어준다.
오토데이터는 가상 시뮬레이터를 통해 학습데이터를 제작하는 '데이터젠(Data Gen)', 학습 결과에 대한 문제점을 진단하는 '데이터 클리닉(Data Clinic)', 데이터 클리닉을 통해 분석한 결과를 합성 데이터에 반영해 문제를 해결하는 '데이터 업데이트(Data Update)'로 구성된다. 현재 데이터젠의 기술 개발은 완료됐고, 데이터 클리닉과 데이터 업데이트는 개발 중이다. 김 대표는 "'오토데이터'는 시뮬레이션 기반 고객사 맞춤형 AI 학습데이터 케어 솔루션으로 기존의 방식보다 빠르고 저렴하고 정확하다"면서 "특히 지속적인 데이터 케어를 제공함으로써 AI 학습데이터 시장의 새로운 패러다임을 제시할 것"이라고 말했다.
김 대표는 지난달 말 드림투리얼을 설립했다. 창업한 지 2주도 안 된 신생기업이지만 이미 플라잎, 골프존, 유니티 등과 기술검증(PoC)을 통해 성능을 확인한 유망 스타트업으로 꼽힌다. 드림투리얼팀은 지난해 상반기 카이스트의 학생창업오디션 프로그램 E*5에서 우승한데 이어 X-IST 과기원창업경진대회와 KAIST 창업어워드에서 우수상을 수상했다.
한편, 드림투리얼은 오는 14일 코엑스에서 열리는 '그린비즈니스위크 2022-K테크 스타트업 왕중왕전' 학생창업 부문 결선에 진출, 해당 솔루션을 소개할 예정이다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']
김 대표는 "AI 서비스 개발 과정에서 데이터 라벨링에 드는 시간과 비용의 비중이 85%에 달한다"며 "AI 개발과 모델 성능 향상에 데이터가 미치는 영향은 치명적"이라고 설명했다. 산업 전반에 인공지능이 보급되는 것을 막고 있는 주요 원인이 바로 데이터라는 것. 그는 "얼굴 인식을 제외하면 사실상 AI 서비스가 별로 없다"면서 "돈을 퍼붓고 있지만 학습데이터 부족 때문에 개발 속도는 느린 게 현실"이라고 지적했다.
실제 미국 AI 스타트업의 경우 평균 라벨링 비용이 230만달러(약 30억원)에 달하고, 멀티 카메라 트랙킹 데이터를 10만장 라벨링한 연구실에서는 70억원의 비용이 요구됐다고 김 대표는 설명했다. 이같이 리얼 데이터는 데이터 복잡도에 따라 비용이 천문학적으로 증가해버린다는 게 문제다.
드림투리얼은 데이터 라벨링에 드는 비용과 시간을 혁신적으로 줄여주는 솔루션 '오토데이터'를 개발했다. 오토데이터는 1개 데이터당 120분 걸리던 고난도 라벨링 작업을 1분 내로 끝낼 수 있다. 또한 기존에는 라벨링 건수에 비례해 인력이 필요했지만 오토데이터는 별도의 라벨링이 필요치 않아 해당 인력비를 아낄 수 있다. 김 대표는 오토데이터가 현실과 가장 유사한 시뮬레이션 가상환경에서 학습데이터를 추출하기 때문이라고 설명했다. 단순히 학습데이터만 생성하는 게 아니라 고객사의 AI 서비스 개발부터 공급까지 학습데이터 문제를 함께 고민하며 풀어준다.
오토데이터는 가상 시뮬레이터를 통해 학습데이터를 제작하는 '데이터젠(Data Gen)', 학습 결과에 대한 문제점을 진단하는 '데이터 클리닉(Data Clinic)', 데이터 클리닉을 통해 분석한 결과를 합성 데이터에 반영해 문제를 해결하는 '데이터 업데이트(Data Update)'로 구성된다. 현재 데이터젠의 기술 개발은 완료됐고, 데이터 클리닉과 데이터 업데이트는 개발 중이다. 김 대표는 "'오토데이터'는 시뮬레이션 기반 고객사 맞춤형 AI 학습데이터 케어 솔루션으로 기존의 방식보다 빠르고 저렴하고 정확하다"면서 "특히 지속적인 데이터 케어를 제공함으로써 AI 학습데이터 시장의 새로운 패러다임을 제시할 것"이라고 말했다.
김 대표는 지난달 말 드림투리얼을 설립했다. 창업한 지 2주도 안 된 신생기업이지만 이미 플라잎, 골프존, 유니티 등과 기술검증(PoC)을 통해 성능을 확인한 유망 스타트업으로 꼽힌다. 드림투리얼팀은 지난해 상반기 카이스트의 학생창업오디션 프로그램 E*5에서 우승한데 이어 X-IST 과기원창업경진대회와 KAIST 창업어워드에서 우수상을 수상했다.
한편, 드림투리얼은 오는 14일 코엑스에서 열리는 '그린비즈니스위크 2022-K테크 스타트업 왕중왕전' 학생창업 부문 결선에 진출, 해당 솔루션을 소개할 예정이다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']
'드림투리얼' 기업 주요 기사
- 기자 사진 김유경 기자
<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>