"'이미지→자연어' AI모델…편견 최소화, 맥락 파악이 관건"

밴쿠버(캐나다)한국과학기자협회 공동취재단 기자, 밴쿠버(캐나다)=김인한 기사 입력 2023.06.19 18:16

URL이 복사되었습니다. 원하는 곳에 붙여넣기 해주세요.

공유하기
글자크기

[2023 CVPR-③]LG AI연구원 주최 첫 워크숍
AI '이미지 캡셔닝' 현주소와 미래 논한 석학들

18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'. / 사진=LG
18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'. / 사진=LG

"편견과 고정관념을 지우고 상식·지식과 맥락을 파악하는 인공지능(AI) 기술로 진화시켜야 합니다."

LG AI연구원은 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열리는 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'에서 서울대 AI대학원, 셔터스톡과 함께 '캡셔닝 AI'를 주제로 워크숍을 개최했다. 이날 워크숍에 강연자로 참석한 글로벌 전문가들은 이미지 캡셔닝 AI 모델을 진보시키려면 기술적 난관을 넘어서야 한다고 입을 모았다.

LG AI연구원이 현지에서 첫 선을 보인 '생성형 AI' 상용화 서비스인 '캡셔닝 AI'는 사람처럼 처음 보는 이미지를 자연어로 설명할 수 있다. 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 생성한다. 워크숍에서는 이처럼 이미지 캡셔닝 연구를 주도하는 전세계 연구자들이 이미지 캡셔닝 기술 구현의 조건과 어려움을 논의했다.


질 좋은 데이터로 맥락·지식 학습 늘려야


애나 로르바흐(Anna Rohrbach) 미국 버클리 캘리포니아대(UC버클리) 리서치 사이언티스트(연구원) 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회에서 온라인 강연 후 질의를 받고 있다. / 사진=LG
애나 로르바흐(Anna Rohrbach) 미국 버클리 캘리포니아대(UC버클리) 리서치 사이언티스트(연구원) 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회에서 온라인 강연 후 질의를 받고 있다. / 사진=LG
애나 로르바흐(Anna Rohrbach) 미국 버클리 캘리포니아대(UC버클리) 리서치 사이언티스트(연구원)는 AI가 이미지를 이해하고 대표성을 확보한 설명을 만들어내려면 '맥락(Context)' 선택이 중요하다고 강조했다.

로르바흐 연구원은 컴퓨터 비전 분야 대가인 트레버 대럴(Trevor Darrell) UC버클리 교수 연구실 소속으로 독일 막스플랑크 정보과학연구소장인 번트 쉴레(Bernt Schiele) 교수의 제자이기도 하다.

로르바흐 연구원은 "특히 뉴스 캡션(Caption·사진에 붙인 설명)을 AI가 생성하려면 기사 내 데이터 문맥을 잘 선택하는 게 중요하다"며 "통상적으로 캡션은 일부 문장에 의해서 만들어지기 때문"이라고 말했다.

또 이미지 캡셔닝 AI의 대표적인 문제로 꼽히는 '환각'(Hallucination)을 줄이는 기술도 필요하다고 강조했다. AI 분야에서 환각은 AI가 주어진 데이터 또는 맥락에 근거하지 않은 잘못된 정보를 생성하는 경우를 말한다. 거짓을 마치 사실처럼 제시하는 경우다.

코르델리아 슈미드(Cordelia Schmid) 프랑스 국립컴퓨터과학연구소 연구책임자 겸 구글 리서치 프랑스 연구원은 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'에서 이미지 캡셔닝 고도화 전략을 소개하고 있다. / 사진=LG
코르델리아 슈미드(Cordelia Schmid) 프랑스 국립컴퓨터과학연구소 연구책임자 겸 구글 리서치 프랑스 연구원은 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'에서 이미지 캡셔닝 고도화 전략을 소개하고 있다. / 사진=LG
코르델리아 슈미드(Cordelia Schmid) 프랑스 국립컴퓨터과학연구소 연구책임자 겸 구글 리서치 프랑스 연구원은 '위키피디아' 내 정보와 사진을 검색하며 지식을 늘려가는 방식으로 대규모 메모리를 만드는 이미지 캡셔닝 전략을 소개했다. 이를 활용하면 사진을 보고 지식이 필요한 질문을 할 때 컴퓨터가 정보를 빠르게 검색하고 답할 수 있다는 것이다.

슈미드 연구원은 "이런 방식으로 대규모 지식을 축적하면 시각적 질문에 대한 답변 뿐 아니라 이미지 캡셔닝에서도 최고 성능을 얻을 수 있다"고 말했다.

그는 영상 인식에서는 화면 해설이 담긴 유튜브 영상 1500만개를 학습하는 방식으로 사건이 일어나는 기간과 설명을 동시에 파악하는 방식을 적용한 모델 'Vid2Seq'도 소개했다. 슈미드 연구원은 "영상을 쪼개 사건을 파악하는 것은 사건 간 연결이 어렵다"며 "사건에 시간 정보를 부여하면 다양한 사건이 일어나는 고밀도 영상도 설명을 만들어낼 수 있다"고 말했다.


이미지 캡셔닝 AI 한계 지적도 이어져


 하미드 팔랑기(Hamid Palangi) 마이크로소프트 리서치 수석연구원 겸 워싱턴대 교수는 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'에서 이미징 캡셔닝 평가의 어려움을 소개하고 있다. / 사진=LG
하미드 팔랑기(Hamid Palangi) 마이크로소프트 리서치 수석연구원 겸 워싱턴대 교수는 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'에서 이미징 캡셔닝 평가의 어려움을 소개하고 있다. / 사진=LG
하미드 팔랑기(Hamid Palangi) 마이크로소프트 리서치 수석연구원 겸 워싱턴대 교수는 '이미지 캡셔닝 평가의 어려움'을 주제로 발표하며 "AI가 생성한 이미지 캡션의 맥락은 이해하기 복잡하고 어렵다"고 밝혔다.

그러면서 "이미지 캡셔닝 평가가 어려운 이유는 AI 언어 모델 자체의 문제일 수도 있고 데이터나 다른 기능 등 다방면에서 문제가 발생할 수 있기 때문"이라며 "이 같은 문제는 모든 AI 연구자들이 함께 풀어야 하는 문제이고, 더 정교한 AI 모델을 만들기 위해 더 많은 문제제기가 필요하다"고 말했다.

잭 헤셀(Jack Hessel) 미국 앨런인공지능연구소 사이언티스트도 이미지 캡셔닝의 성능을 높이려면 AI가 상식을 뛰어넘는 추론을 할 수 있도록 정교해져야 한다고 강조했다.

그는 "대규모 어휘를 학습한 모델도 전체적인 장면 이해에 필요한 요소가 상식에 맞지 않아 놓치는 경우가 많다"며 "현상을 관찰해 가장 설득할 수 있는 설명을 만드는 귀추법 등을 적용할 필요가 있다"고 설명했다.

잭 헤셀(Jack Hessel) 미국 앨런인공지능연구소 사이언티스트 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'에서 캡셔닝 AI 성능 향상 연구를 소개하고 있다. / 사진=LG
잭 헤셀(Jack Hessel) 미국 앨런인공지능연구소 사이언티스트 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 열린 '2023 CVPR(컴퓨터 비전 및 패턴 인지) 학회'에서 캡셔닝 AI 성능 향상 연구를 소개하고 있다. / 사진=LG
  • 기자 사진 밴쿠버(캐나다)한국과학기자협회 공동취재단 기자
  • 기자 사진 밴쿠버(캐나다)=김인한

이 기사 어땠나요?

이 시각 많이 보는 기사