Lyra 2.0 — 단일 이미지에서 탐색 가능한 3D 월드를 생성하는 NVIDIA 프레임워크

NVIDIA의 Lyra 2.0은 단일 이미지로부터 지속적이고 탐색 가능한 3D 월드를 생성하는 프레임워크다. 장거리 비디오 생성과 명시적 3D 재구성을 결합해, 실시간 렌더링 가능한 3D Gaussian 씬을 만든다.

핵심 요약

  • Hugging Face 카드 기준 2026년 4월 공개
  • 입력은 단일 이미지와 카메라 파라미터
  • 출력은 3D Gaussian scene representation과 .ply 형태의 결과물
  • 파이프라인은 2단계
    1. 전역 기하 일관성을 갖는 장거리 비디오 생성
    2. 생성된 시퀀스를 explicit 3D representation으로 재구성
  • 베이스 모델은 WAN-14B, 전체 파라미터는 14B
  • 라이선스는 NVIDIA Internal Scientific Research and Development Model License
  • production, public deployment, commercial distribution에 대한 제한이 강함

기술 포인트

  • 공간적 망각(spatial forgetting)을 줄이기 위해 프레임별 3D geometry를 보관하고 정보 라우팅에 사용
  • temporal drifting을 줄이기 위해 self-augmented histories로 학습
  • 생성 prior와 기하적 대응 관계를 분리해 사용
  • 결과적으로 spatially persistent scene generation과 real-time rendering을 동시에 지향

입력 / 출력

입력

  • 이미지 1장
  • 카메라 포즈 / 카메라 파라미터
  • 추천 입력 해상도: 480 × 832
  • 권장 카메라 프레임 수: 81

출력

  • 3D Gaussian scene
  • point cloud 스타일 파일, 예: .ply

실무 해석

  • Lyra 2.0은 text-to-video 계열보다 한 단계 더 나아가, 단일 이미지에서 world model 성격의 3D 공간을 복원하는 방향에 가깝다.
  • Open-Sora 같은 비디오 생성 노트와 함께 보면, 영상 생성과 3D world reconstruction이 점점 한 파이프라인 안에서 수렴하고 있음을 보여준다.
  • 다만 NVIDIA의 내부 R&D 라이선스라서, 실제 제품화나 배포용으로 보기에는 부적합하다.

관련 노트

Sources