ShapeLLM-Omni designad för att förstå och generera 3D-innehåll

ShapeLLM-Omni är en ny 3D-native stor språkmodell som kan förstå och generera 3D-tillgångar och textual content i valfri sekvens.
Modellen bygger på Qwen2.5-vl:s multimodala kapaciteter och utökar dess förmågor until 3D-domänen.
ShapeLLM-Omni stöder multipla funktioner inklusive text-till-3D, bild-till-3D, 3D-bildtexter och 3D-redigering genom textinstruktioner.

ShapeLLM-Omni är en helt ny typ av multimodal AI-modell som inte bara förstår och genererar textual content och bilder, utan även 3D-objekt. Det här är ett stort steg framåt för AI-världen, där tidigare modeller som GPT-4o varit begränsade until tvådimensionella medier. ShapeLLM-Omni är byggd för att förstå, generera och redigera 3D-resurser – och kan kombinera dessa med textual content och bilder i valfri ordning.

Hur fungerar modellen?

Kärnan i ShapeLLM-Omni är en avancerad 3D Vector-Quantized Variational Autoencoder (VQVAE). Den här komponenten omvandlar 3D-objekt (t.ex. mesh-modeller) until en diskret sekvens av tokens, vilket gör det möjligt för modellen att bearbeta 3D-data på samma sätt som textual content eller bild.

Modellen använder en voxelbaserad illustration (64³ voxelgrid) som komprimeras until en mindre latent illustration (16³ grid) och därefter until 1024 diskreta tokens per objekt. Dessa tokens används sedan av språkmodellen för att generera, förstå och redigera 3D-innehåll.

För att träna modellen har forskarna byggt ett gigantiskt dataset kallat 3D-Alpaca, med över 700 000 högkvalitativa 3D-resurser och miljontals exempel på text-till-3D, bild-till-3D, 3D-till-text och 3D-redigering.

Mer data:

Source link

What Most B2B Contact Data Comparisons Get Wrong

SocialPost AI: Features, Benefits, and Alternatives

Seedance 2.0: Features, Benefits, and Alternatives

When Models Stop Listening: How Feature Collapse Quietly Erodes Machine Learning Systems

You Only Need 3 Things to Turn AI Experiments into AI Advantage

How a Research Lab Made Entirely of LLM Agents Developed Molecules That Can Block a Virus

Production-ready agentic AI: key challenges and solutions

Implementing the Hangman Game in Python

Most Popular

Chinese universities want students to use more AI, not less

Nya föräldrakontroller i ChatGPT ger föräldrar insyn i AI-användning

How artificial intelligence can help achieve a clean energy future | MIT News

Our Picks

Hybrid Neuro-Symbolic Fraud Detection: Guiding Neural Networks with Domain Rules

What Most B2B Contact Data Comparisons Get Wrong

Building a Like-for-Like solution for Stores in Power BI

ShapeLLM-Omni designad för att förstå och generera 3D-innehåll

Hur fungerar modellen?

Mer data:

Related Posts