Lyra 2.0 — 단일 이미지에서 탐색 가능한 3D 월드를 생성하는 NVIDIA 프레임워크

NVIDIA의 Lyra 2.0은 단일 이미지로부터 지속적이고 탐색 가능한 3D 월드를 생성하는 프레임워크다. 장거리 비디오 생성과 명시적 3D 재구성을 결합해, 실시간 렌더링 가능한 3D Gaussian 씬을 만든다.

핵심 요약

Hugging Face 카드 기준 2026년 4월 공개
입력은 단일 이미지와 카메라 파라미터
출력은 3D Gaussian scene representation과 .ply 형태의 결과물
파이프라인은 2단계
1. 전역 기하 일관성을 갖는 장거리 비디오 생성
2. 생성된 시퀀스를 explicit 3D representation으로 재구성
베이스 모델은 WAN-14B, 전체 파라미터는 14B
라이선스는 NVIDIA Internal Scientific Research and Development Model License
production, public deployment, commercial distribution에 대한 제한이 강함

Lyra 2.0은 text-to-video 계열보다 한 단계 더 나아가, 단일 이미지에서 world model 성격의 3D 공간을 복원하는 방향에 가깝다.
Open-Sora 같은 비디오 생성 노트와 함께 보면, 영상 생성과 3D world reconstruction이 점점 한 파이프라인 안에서 수렴하고 있음을 보여준다.
다만 NVIDIA의 내부 R&D 라이선스라서, 실제 제품화나 배포용으로 보기에는 부적합하다.