Open-Sora 2.0 — $200K로 상용 수준 비디오 생성 모델 학습

HPC-AI Tech (ColossalAI 팀)에서 개발한 오픈소스 비디오 생성 프레임워크. 11B 파라미터 모델을 $200K로 학습, VBench에서 OpenAI Sora 대비 격차 0.69% 달성.


개요

  • ⭐ 28,800+ 스타, 🍴 2,900+ 포크
  • Apache 2.0 라이선스
  • FLUX(text-to-image diffusion)를 베이스로 한 3단계 학습 파이프라인

모델 아키텍처 & 학습

3단계 학습 과정:

  1. FLUX 기반 T2I 강화 — 텍스트-이미지 생성 능력 강화
  2. 저해상도 motion modeling — 2D→3D 컨볼루션으로 시간적 일관성 학습
  3. 고해상도 fine-tuning — 최종 해상도에서 디테일 품질 향상

학습 비용:

  • H200 GPU 200K
  • 경쟁 모델 대비 1/5~1/10 수준

성능

  • VBench: OpenAI Sora 대비 격차 4.52% → 0.69%로 대폭 축소
  • HunyuanVideo 11B, Step-Video 30B와 동급 성능

기능

  • Text-to-Video, Image-to-Video 지원
  • 해상도 256px~768px
  • 해상도·비율·길이 자유 커스터마이징
  • VAE: HunyuanVideo VAE (4×8×8 압축비)

배포

Sources