칭찬은 AI도 춤추게 한다?…간단하게 AI 성능 높인 韓 연구팀 비법은

박건희 기자 기사 입력 2025.04.21 10:58

URL이 복사되었습니다. 원하는 곳에 붙여넣기 해주세요.

공유하기
글자크기

윤성환 UNIST 인공지능대학원 교수 연구팀
AI 실수에도 보상 값 유지…성능 안정화
세계 3대 AI 학회서 발표 논문 채택

윤성환 UNIST 인공지능대학원 교수 연구팀이 환경 변화에도 성능이 저하하지 않고 안정적으로 작동하는 AI 강화학습 기법을 개발했다. /사진=MT AI로 생성한 이미지
윤성환 UNIST 인공지능대학원 교수 연구팀이 환경 변화에도 성능이 저하하지 않고 안정적으로 작동하는 AI 강화학습 기법을 개발했다. /사진=MT AI로 생성한 이미지

작은 실수를 저지른 AI(인공지능)에 강한 벌점을 부과하지 않고 보상을 평탄하게 유지했더니, AI 성능이 좋아졌다. 이렇게 학습한 AI는 경험해보지 않은 새로운 환경에서도 성능을 유지했다.

UNIST(울산과학기술원)는 윤성환 인공지능대학원 교수 연구팀이 환경 변화에도 성능이 저하하지 않고 안정적으로 작동하는 AI 강화학습 기법을 개발했다고 21일 밝혔다.

연구 결과는 세계 3대 AI 학회로 꼽히는 'ICLR'의 구두 발표 논문으로 채택됐다. 학회에 제출된 1만여건 논문 중 상위 2%만 구두 발표의 기회를 얻는다.

강화학습은 정답을 미리 알려주는 지도학습과 달리, AI가 시행착오를 통해 얻는 보상을 최대화해 AI 스스로 문제해결 전략을 찾게 하는 학습 방법이다. 경험을 토대로 해결책을 찾는다는 점에서 인간의 사고방식과 비슷하다. 다만 기존 강화학습은 학습하지 않은 낯선 환경에서 성능이 급격히 떨어지는 한계가 있었다.

연구팀은 이를 해결했다. AI가 문제를 완벽하게 해결할 때와 그렇지 못할 때의 보상 차이를 완만하게 조절했다.

보상함수는 AI가 특정 행동을 했을 때 그 행동이 얼마나 좋았는지 점수로 나타낸 함수다. 반대 개념은 손실함수다. 예를 들어 로봇이 '앞으로 걷기' 동작을 성공적으로 수행하면 높은 점수(보상)를 받고, 넘어지면 낮은 점수(또는 실점)를 받도록 설계한다. 누적 보상은 행동이 이뤄진 전체 과정에서 AI가 받은 보상의 누적값이다. AI는 누적 보상을 최대화하는 방향으로 행동을 배운다.

이번 연구의 핵심은 누적 보상 값에 변화가 있더라도 AI가 이에 영향을 받지 않고 성능을 유지하게 한 데 있다. 기존 방식은 자율주행차가 눈길에서 감속 타이밍을 살짝 놓칠 경우 실점을 매겼고, '누적 보상을 최대화한다'는 AI의 기본 학습 규칙이 무너지자 AI의 성능도 따라 떨어졌다.

연구팀은 평균 보상 값이 80~90%에서 유지되도록 학습 기법을 바꿨다. AI가 정답에서 벗어난 정도를 계산한 '손실함수'가 갑자기 커지지 않도록 완만하고 평평한 구간을 찾고, 이를 학습에 적용했다. 그 결과 AI는 상황이 바뀌거나 경험이 없는 환경에서도 높은 수준의 안정성을 보였다.

제1 저자인 이현규 연구원은 "효과적이면서도 적용이 쉬운 방식"이라고 설명했다. 윤성환 교수는 "높은 수준의 일반화 성능을 갖는 강화학습 모델이 필요한 로보틱스, 자율주행 등에 활용할 수 있을 것"이라고 전망했다.

이번 연구는 정보통신기획평가원, 한국연구재단, UNIST의 지원을 받아 수행됐다.

'UNIST' 기업 주요 기사

관련기사

  • 기자 사진 박건희 기자

이 기사 어땠나요?

이 시각 많이 보는 기사