Open-Sora 2.0 — $200K로 상용 수준 비디오 생성 모델 학습
HPC-AI Tech (ColossalAI 팀)에서 개발한 오픈소스 비디오 생성 프레임워크. 11B 파라미터 모델을 $200K로 학습, VBench에서 OpenAI Sora 대비 격차 0.69% 달성.
개요
- ⭐ 28,800+ 스타, 🍴 2,900+ 포크
- Apache 2.0 라이선스
- FLUX(text-to-image diffusion)를 베이스로 한 3단계 학습 파이프라인
모델 아키텍처 & 학습
3단계 학습 과정:
- FLUX 기반 T2I 강화 — 텍스트-이미지 생성 능력 강화
- 저해상도 motion modeling — 2D→3D 컨볼루션으로 시간적 일관성 학습
- 고해상도 fine-tuning — 최종 해상도에서 디테일 품질 향상
학습 비용:
- H200 GPU 200K
- 경쟁 모델 대비 1/5~1/10 수준
성능
- VBench: OpenAI Sora 대비 격차 4.52% → 0.69%로 대폭 축소
- HunyuanVideo 11B, Step-Video 30B와 동급 성능
기능
- Text-to-Video, Image-to-Video 지원
- 해상도 256px~768px
- 해상도·비율·길이 자유 커스터마이징
- VAE: HunyuanVideo VAE (4×8×8 압축비)
배포
- Docker 지원,
git clone후.env설정으로 바로 사용 가능 - HuggingFace: hpcai-tech/Open-Sora-v2
Sources
- GitHub: https://github.com/hpcaitech/Open-Sora
- HuggingFace: https://huggingface.co/hpcai-tech/Open-Sora-v2
- 논문: arXiv 2503.09642