IT & Tech

Tencent HunyuanWorld-Voyager 공개 — 사진 한 장으로 탐험 가능한 3D 세계 생성

3분테크 2025. 9. 6. 07:26
반응형

Tencent는 단일 이미지를 기반으로 탐험 가능한 3D 영상 세계를 생성하는 AI 모델 HunyuanWorld-Voyager를 오픈소스로 공개했습니다. 사용자가 사진을 모델에 입력하고 “forward”, “turn_left”와 같은 카메라 경로 명령을 입력하면, 해당 장면을 2초 분량(약 49 프레임)의 깊이 포함 RGB 영상으로 생성하며 이후 이어 붙여 더 긴 장면으로 확장할 수 있습니다.


🔧 모델 구조와 기술 혁신 요소

  • Voyager는 World-Consistent Video Diffusion 구조로, 긴 움직임에도 공간 일관성을 유지하며 월드 캐시(world cache)로 이전 프레임의 3D 포인트를 저장하고 재사용해 지오메트리 오류를 줄입니다.
  • AI는 단일 사진에서 영상을 만들되, 자동으로 깊이(depth) 정보와 함께 영상-포인트 클라우드 매핑까지 생성함으로써 3D 복원을 지원합니다.
  • 스탠포드에서 제안한 WorldScore 벤치마크에서 전체 점수 77.6로 우수한 평가를 받아, WonderWorld, CogVideoX-I2V 모델을 앞섰습니다.

⏳ 성능 및 사용 요건 — 현실적 한계와 가능성

  • 모델 실행에는 최소 60 GB GPU 메모리 이상이 필요하며, 권장 사용량은 80 GB입니다. 이는 일반 PC 환경에서 동작 가능 수준은 아니지만, 고성능 GPU 환경에서 빠르게 영상 생성이 가능합니다.
  • 생성된 비디오를 연결해 수분 단위의 탐험 영상을 구성할 수 있으며, 깊이 정보 기반으로 3D 포인트 클라우드 변환도 가능합니다.
  • 다만, 긴 회전(Rotation) 또는 360도 이동 시 누적 오차가 생기며, 완전한 3D 구조보다는 영상 기반의 '3D 체감' 경험에 가깝습니다.

🚀 활용 사례 및 경쟁 구조

  • 이 모델은 게임 제작, 가상 현실 체험, 디지털 콘텐츠 제작에서 이미지를 탐험 가능한 공간으로 즉시 전환할 수 있는 가능성을 제공합니다.
  • 동종 기술로는 Google의 Genie 3이나 Dynamics Lab의 Mirage 2 등이 있지만, Tencent 모델은 영상 기반 3D 재구성과 오픈 출처 공개라는 점에서 차별적입니다.
  • 또한 Tencent는 Hunyuan3D 2.0을 통해 텍스트 또는 이미지를 고해상도 3D 메쉬와 질감 자산으로 생성하는 기술도 함께 공개하며, 중국 기업으로는 드물게 3D AI 생태계 전반을 개방 중심으로 구축 중입니다.

🛡 라이선스와 정책적 제한

  • Voyager 모델은 오픈소스 공개되었지만, 유럽·영국·한국에서는 사용 금지, 상업적 대규모 사용자 기반部署 시 Tencent의 추가 승인 요구가 있습니다.
  • Hunyuan3D 2.0 기반 모델(예: Hunyuan3D-Web 기반 자산 생성 플랫폼)은 기본적으로 연구·교육 및 소규모 상업적 이용 가능하지만, pretrained 모델 배포나 플랫폼 운영 목적 사용은 제한 사항이 있습니다.

📌 핵심 요약

  • Tencent, 단일 사진으로 탐험 가능한 3D 영상 생성 모델 HunyuanWorld-Voyager 공개
  • World-Consistent 영상 확산 및 3D 포인트 캐시 기반 공간 일관성 확보
  • 약 60 GB GPU 요구, 49프레임 출력, 이어 붙여 길게 탐험 가능
  • Genie 3 등 해외 기종 대비 출처 공개 및 영상 기반 복원 방식에서 차별화
  • EU·UK·한국에서 제한, 상업 활용 시 별도 승인 필요

“흔한 풍경 사진 한 장으로 가상 세계를 걷는 시대가 열립니다. 완성형 3D는 아니어도, 사진 속 공간을 ‘탐험 가능하게’ 만드는 이 기술은 새로운 콘텐츠 생성의 단초가 될 수 있습니다.”

반응형