한국연구재단

메인으로

구독신청 독자의견

스토리R

무한한 영상을 만드는
생성형 AI의 새로운 공식
서울대학교 한보형 교수

이달의 과학기술인상 수상자의 연구 여정을 돌아보며, 그 속에서 탄생한 주요 성과와 과학기술이 열어갈 미래를 그려봅니다.

상상하던 세계를 현실로 그려내는 생성형 AI. 텍스트 한 줄만으로도 새로운 콘텐츠를 창조할 수 있어 널리 활용되고 있습니다. 하지만 생성형 AI 중에서도 비디오 생성은 영상 길이에 비례한 메모리 병목문제로 인해 여전히 도전의 영역으로 꼽히는데요. 이러한 구조적 제약에 과감히 뛰어든 한 연구자는 무한히 긴 영상을 생성할 수 있는 새로운 알고리즘을 개발하며 AI 영상 생성 연구의 새로운 지평을 열었습니다. 보이지 않는 데이터 세계를 현실로 재현하는 한보형 교수의 이야기를 소개합니다.

이달의 과학기술인상 우수한 연구개발 성과로 과학기술 발전에 공헌한 연구개발자를
매월 1명 선정하여 과학기술정보통신부 장관상과 상금 1천만 원을 수여하는 상

Chapter 01 인물탐구

한보형1973년생 소속 서울대학교 주요학력
  • 2000.08. ~ 2005.12.
    미국 매릴랜드대학교 컴퓨터과학 박사
  • 1997.03. ~ 2000.08.
    서울대학교 전기컴퓨터공학 석사
  • 1993.03. ~ 1997.02.
    서울대학교 컴퓨터공학 학사

Chapter 02 보이는 세계를 향한 첫걸음

어릴 적부터 수학적이고 이론적인 탐구를 좋아했던 한보형 교수는 자연스럽게 연구자의 꿈을 품었습니다. 그가 선택한 전공은 컴퓨터공학, 그중에서도 컴퓨터 알고리즘. 하지만 정교한 수식과 구조 속에서 문제를 해결해도 결과가 눈앞에 보이지 않는다는 점이 마음에 걸렸다고 하는데요. 그때 만난 것이 바로 ‘컴퓨터 비전’이었습니다. 컴퓨터 비전은 컴퓨터와 시스템이 스스로 데이터를 해석·분석하고 의미 있는 정보를 도출할 수 있도록 하는 AI 분야입니다. 지금은 자율주행, 의료영상 분석 등 다양한 산업의 핵심 기술로 자리 잡았지만, 한 교수가 처음 접했을 당시만 해도 기술 수준이 실용화될 정도에 미치지 못했다고 하는데요. 그럼에도 그는 카메라 얼굴 인식, 센서를 활용한 모션 인식 등 컴퓨터 비전 연구의 결과가 현실에 구현되기 시작한 모습을 직접 보며 혁신 가능성을 확인했습니다. 이 분야가 머지않아 AI 시대의 중심이 될 것이라는 촉이 느껴진 것이죠. 그렇게 한보형 교수는 컴퓨터 비전 연구에 첫발을 내디딘 이후 오랜 시간 다양한 영역을 탐구해 왔습니다. 딥러닝 연구가 태동하던 시기에는 영상 분할과 물체 추적 기술을 이끄는 토대를 닦았고, 이후에는 이미지 검색과 비디오 이해 등 응용 기술 발전에서도 의미 있는 성과를 쌓아왔죠. 그리고 현재는 생성 모델(Generative Modeling) 연구에 주력하며 보이지 않는 세계의 데이터를 현실로 재현하는 데 앞장서고 있습니다.

Chapter 03 새로운 알고리즘의 탄생

생성형 AI가 발전하면서 텍스트 한 줄로도 영상을 그려내는 시대가 도래했습니다. 하지만 기술이 아무리 진보해도 해결되지 않는 난제가 존재했는데요. 바로 생성하는 영상 길이에 비례해 메모리 사용량이 기하급수적으로 늘어나 산업적인 활용은 물론 학문적 연구에도 활용하기 어렵다는 것. 이를 해결하기 위해 한보형 교수는 정면으로 파고들었습니다. 그리고 마침내, 무한히 긴 영상을 생성할 수 있는 새로운 추론 알고리즘인 ‘FIFO-Diffusion(피포 디퓨전, First-In-First-Out)’을 개발했습니다.

  • [ 기존 ]
    확산(Diffusion) 모델
    영상을 생성하는 데 널리 활용되는 사전 학습 AI 모델로, 완전한 노이즈(잡음) 데이터 상태에서 노이즈를 점차 줄이면서 사용자가 제시한 설명에 알맞은 고품질 영상을 복원하는 방식이다.
  • [ 개발 ]
    피포 디퓨전(FIFO-Diffusion)
    순차적으로 프레임을 배치하는 ‘대각선 디노이징’ 기술을 적용해 앞쪽부터 단계적으로 영상을 생성하는 방식으로, 영상 길이가 늘어도 메모리 사용량이 고정돼 기존 모델의 한계를 극복할 수 있다.

“‘FIFO-Diffusion’은 기존 확산(diffusion) 기반 비디오 생성 모델의 구조적 제약을 극복하기 위한 새로운 접근입니다. 사전 학습된 모델을 그대로 활용하면서, 프레임을 마치 컨베이어 벨트처럼 순차적으로 처리하는 대각선 디노이징(Diagonal Denoising)* 방식을 도입해 메모리 사용량을 일정하게 유지하는 것이 핵심인데요. 여기에 긴 시퀀스를 작은 구간으로 나눠 안정성을 높이는 ‘잠재 구간 분할’과 상대적으로 깨끗한 프레임을 활용해 노이즈를 제거함으로써 품질을 개선하는 ‘미래 참조 디노이징’ 기법을 더해 장시간 영상에서도 높은 화질과 시간적 일관성을 확보했습니다.”

기존과는 달리 여러 프레임에 걸쳐 서로 다른 노이즈 레벨을 갖는 프레임들을 동시에 디노이징

피포 디퓨전으로 생성된 긴 비디오 예시
10,000 프레임에 해당하는 비디오를 생성했음에도 불구하고, 비디오의 내용과 품질이 정확히 유지되었다.
대각선 디노이징(diagonal denoising) 기법의 모식도
서로 다른 노이즈 레벨의 프레임들이 사전 학습된 디퓨전 모델에 입력되어 순차적으로 처리된다.

한보형 교수의 FIFO-Diffusion은 2024년 인공지능 최고 학회인 ‘NeurIPS’에 발표되어 국제적으로 주목받았습니다. 아울러 같은 해 삼성 휴먼테크 논문대상 금상을 수상하며 학계와 산업계 양쪽에서 성과를 인정받았죠. 또한 소스코드는 현재 소프트웨어 개발자들의 놀이터라고도 불리는 ‘깃허브(GitHub)’에서 450개 이상의 별(star)을 받으며 확산되고 있습니다. 이번 연구 성과는 단순 기술적 성취를 넘어 학문적으로 큰 의미를 지닙니다. 대규모의 추가 학습 없이도 성능과 확장성을 확보했다는 점은 생성형 모델 연구의 새로운 방향성을 제시했으며, 무한 길이 영상 생성이라는 개념은 장기적 맥락을 가진 데이터 생성·분석 연구의 새로운 가능성을 열어주었습니다. 사회·경제적 파급효과도 큽니다. 장시간 영상을 자동으로 생성하거나 반복 장면을 손쉽게 구현할 수 있어 콘텐츠 제작의 시간과 비용을 획기적으로 줄일 수 있기 때문입니다. “FIFO-Diffusion이 세계적으로 큰 관심을 받았어도 여전히 개선해야 할 과제가 존재합니다. 앞으로는 대각선 디노이징 아이디어를 학습 단계에도 도입해 학습과 추론의 불일치를 줄이고, 샘플링 과정을 효율화해 실시간 응용이 가능하도록 발전시킬 계획입니다. 또한 영화, 애니메이션, 게임, 광고, 메타버스 등 다양한 콘텐츠 제작 현장에 적용될 수 있도록 학계와 산업계의 긴밀한 협력을 통해 실용화 가능성을 높여갈 계획입니다.”

Chapter 04 멈추지 않는 여정

현재 한보형 교수는 AI 생성 모델의 미래를 설계하는 연구자로서의 길을 걷고 있습니다. 한편, 그가 바라보는 진정한 성과는 논문이나 수상보다 제자들의 성장입니다. 이를 위해 활발히 토론하며 자유롭게 아이디어를 제안할 수 있는 개방적인 연구 문화를 만드는 데 힘쓰고 있습니다. “연구자로서 좋은 결과를 얻은 순간도 뜻깊지만, 제자들이 성장하는 모습을 볼 때가 가장 좋습니다. 특히 연구실 졸업생들이 학계나 산업계에서 중추적인 역할을 하는 인재로 자리 잡았을 때 큰 자부심을 느껴요. 실제로 학계로 진출한 경우가 여럿 있고, 국내외 유수 기업에서도 다양하게 활약하고 있는데요. 이처럼 제자들이 제 자리에서 의미 있는 성과를 내는 모습을 지켜보는 것은 교수로서 더할 나위 없는 보람입니다.” 앞으로도 한보형 교수는 AI 기반 영상 생성 기술의 진화와 윤리적 활용을 함께 고민하며 연구와 교육의 두 길을 꾸준히 이어갈 계획입니다. 또한 컴퓨터 비전 분야의 가장 권위 있는 국제 학술대회인 ICCV뿐만 아니라, 관련 분야에서 손꼽히는 학회 및 학술지에서 프로그램 위원장이나 편집위원 등으로 활동하며 얻은 경험을 바탕으로 우리나라 컴퓨터 비전 연구의 국제적 위상을 높이는 데에도 힘쓸 예정입니다. 보이지 않는 세계를 현실로 구현하려는 그의 여정은 여전히 현재진행형입니다.

속닥속닥! 못 다한 이야기 연구자 TMI

  • 2025년 10월의 과학기술인상 수상을 진심으로 축하합니다. 이달의 과학기술인상 수상자로 선정되어 큰 영광입니다. 지난 20여 년간 컴퓨터 비전 연구를 이어오면서 새로운 문제를 정의하고 해결해 나가는 과정이 결코 쉽지 않았지만, 상까지 받으니 감회가 새롭습니다. 이번 성과는 저 혼자만의 것이 아니라 함께 연구를 수행해 온 연구팀의 열정과 헌신 덕분에 가능했습니다. 특히 학생들이 보여준 창의성과 집념에서는 배울 점이 참 많았습니다. 수상을 계기로 학문적 성취를 넘어 산업과 사회에도 실질적으로 이바지할 수 있는 책임 있는 연구를 이어가고자 합니다.
  • 가을의 문턱을 넘고 있습니다. 교수님의 근황도 전해주세요. 유독 바쁜 나날을 보내고 있는 것 같지만, 사실 예년과 크게 다르진 않습니다. 다만 대학원생들이 구글, 아마존, 퀄컴, 화웨이, 네이버, LG AI Research 등 국내외 기업에서 인턴십을 하고 있어 예전보다 연구실 분위기가 한결 여유로워졌습니다. 물론 주요 학회 논문 마감이 이어지고 있어 여전히 논문 준비로 분주하긴 합니다. (웃음) 최근에는 영재고와 과학고 학생들을 대상으로 강연할 기회가 있었는데요. 학생들의 열정적인 질문과 높은 수준의 관심 덕분에 저 역시 큰 자극을 받았습니다. 앞으로도 여러 기회를 통해 학생들이나 동료 연구자들과 활발히 소통하며 좋은 에너지를 나누고 싶습니다.
  • 인공지능기술은 산업뿐만 아니라 국민의 일상에도 빠르게 스며들고 있습니다.
    인공지능에 대하는 자세에 대해 생각하신 바가 있나요?
    AI를 막연히 두려워하거나 과신하기보다는 이를 이해하고 올바르게 활용하려는 태도를 갖는 것이 중요하다고 생각합니다. 특히 AI에 의존하는 것이 아니라 비판적 사고를 바탕으로 능동적으로 기술을 사용하는 자세가 필요하다고 봅니다. 결국 AI는 사람의 삶을 더 편리하고 풍요롭게 만들 수 있는 ‘도구’거든요. 한편, 학계와 산업계는 단순히 AI 기술의 성능을 높이는 데 그치지 않고 신뢰성·투명성·사회적 책임과 같은 가치를 함께 고민해야 합니다. 그래야만 AI가 장기적으로 지속 가능한 방향으로 발전할 수 있습니다. 연구자와 기업이 협력해 안전하면서도 유용한 AI 생태계를 만들어 간다면, 사회 전체에 긍정적인 영향을 줄 수 있을 것입니다.
  • 교수님이 최근 국제 학술대회에서 주목하는 트렌드는 무엇인가요? 아무래도 대규모 데이터와 모델에 기반한 파운데이션 모델 연구, 멀티모달 학습을 통한 영상·언어·음성 융합, 로보틱스와의 결합, 그리고 생성 모델의 활용 확대이지 않을까 싶습니다. 아울러 효율적 학습과 신뢰성 확보 같은 문제도 중요한 화두입니다. 앞으로는 단순히 성능을 높이는 것을 넘어, 사회적 파급력과 책임성을 고려하는 방향으로 연구가 발전해 나가리라 기대합니다.
  • 미래 과학기술자를 꿈꾸는 학생들에게 조언 한마디. 과학적 사고방식을 가지기 바랍니다. 항상 논리적으로 생각하고, ‘왜 그런가?’를 끊임없이 고민하며, 다양한 가능성을 고려하는 습관은 우수한 인력으로 성장하는 밑거름이 됩니다. 또한 공부나 연구를 할 때도 단순히 적은 노력으로 만족스러운 결과를 얻는 데 치중하기보다는 110점 혹은 그 이상의 목표를 세우고 도전하는 자세가 중요합니다. 이런 습관과 태도가 꾸준한 성장과 발전으로 이어진다고 생각합니다.