Tencent har nyligen introducerat HunyuanWorld-Voyager en innovativ AI-modell som använder avancerad videodiffusion för att generera 3D-världar från en enda bild. Denna teknik möjliggör skapandet av explorable 3D-system genom att generera video som simulerar rörelse genom tre-dimensionella miljöer, vilket öppnar upp för nya möjligheter inom 3D-modellering och innehållsskapande.
Så fungerar tekniken
HunyuanWorld-Voyager bygger på en unik diffusionsmodellarkitektur som skiljer sig markant från tidigare metoder.
Processen är förvånansvärt enkel för slutanvändaren. Du matar in en enda bild tillsammans med en specificerad kamerabana och systemet genererar en RGB-D-videosequens där varje bildruta kommer med justerad djupinformation. Detta möjliggör verkligt tredimensionell navigation genom scenen.
Voyager kan generera videosequenser som täcker stora avstånd och komplexa kamerarörelser. Systemet kan hantera panorering, lutning och framåtgående rörelser genom den genererade 3D-miljön.

Tekniska krav
- Testad på en enskild 80GB GPU.
- Miniminnekrav: 60GB GPU-minne för 540p-upplösning.
- Rekommenderat: 80GB GPU-minne för optimum kvalitet.
Tencent har gjort HunyuanWorld-Voyager tillgängligt som ett system med öppna vikter, vilket betyder att forskare och utvecklare kan ladda ner och experimentera med tekniken. Modellen finns tillgänglig både på GitHub och Hugging Face.