문현준 세종대 교수, VLM 최적화 기술 통합 서베이 논문 발표

115편 논문 분석...5대 핵심 기술 통합 프레임워크 제시
△사전학습 △파인튜닝 △프롬프트 △어댑터 △데이터 세트 정리
한국콘텐츠진흥원 지원...최상위 국제학술지에 논문 게재

권태혁 기자 | 2025.09.15 14:02

문현준 세종대 컴퓨터공학과 교수./사진제공=세종대

세종대학교는 최근 문현준 컴퓨터공학과 교수 연구팀이 이미지와 텍스트를 동시에 처리하는 'Vision-Language Model'(VLM)의 최적화 기술을 집대성했다고 15일 밝혔다.

현재 VLM에 대한 연구가 활발하게 진행되고 있으나 개별 기술을 중심으로 단편화돼 통합적 시각을 확보할 수 없다는 한계가 있다. 문 교수팀은 이를 보완하기 위해 2018~2025년 발표된 115편의 핵심 논문을 분석했다.

연구팀은 VLM을 구성하는 △사전 학습 모델 △파인튜닝 △프롬프트 엔지니어링 △어댑터 △벤치마크 데이터 세트 등 5대 핵심 요소를 세계 최초로 하나의 통합 프레임워크로 제시했다. 특히 전체 모델을 재학습하지 않고도 적은 연산 비용으로 성능을 유지하는 '파라미터 효율적' 방법론에 중점을 뒀다.

문 교수는 "이번 연구는 실제 시나리오에서 VLM을 최적화하려는 연구자와 실무자에게 기초자료를 제공하기 위해 기획됐다"며 "향후 확장성, 일반화, 편향 문제 해결과 상징적 추론, 다국어 적응 연구에도 기여할 수 있을 것"이라고 설명했다.

한편 이번 연구는 한국콘텐츠진흥원의 지원을 받아 수행됐다. 연구 결과는 'A comprehensive survey of Vision-Language Models: Pretrained models, fine-tuning, prompt engineering, adapters, and benchmark datasets'라는 제목으로 컴퓨터·AI 분야 국제학술지 'Information Fusion'(IF=15.5 JCR 상위 1.7%)에 게재됐다.