ShapeLLM-Omni designad för att förstå och generera 3D-innehåll

ShapeLLM-Omni är en ny 3D-native stor språkmodell som kan förstå och generera 3D-tillgångar och textual content i valfri sekvens.
Modellen bygger på Qwen2.5-vl:s multimodala kapaciteter och utökar dess förmågor until 3D-domänen.
ShapeLLM-Omni stöder multipla funktioner inklusive text-till-3D, bild-till-3D, 3D-bildtexter och 3D-redigering genom textinstruktioner.

ShapeLLM-Omni är en helt ny typ av multimodal AI-modell som inte bara förstår och genererar textual content och bilder, utan även 3D-objekt. Det här är ett stort steg framåt för AI-världen, där tidigare modeller som GPT-4o varit begränsade until tvådimensionella medier. ShapeLLM-Omni är byggd för att förstå, generera och redigera 3D-resurser – och kan kombinera dessa med textual content och bilder i valfri ordning.

Hur fungerar modellen?

Kärnan i ShapeLLM-Omni är en avancerad 3D Vector-Quantized Variational Autoencoder (VQVAE). Den här komponenten omvandlar 3D-objekt (t.ex. mesh-modeller) until en diskret sekvens av tokens, vilket gör det möjligt för modellen att bearbeta 3D-data på samma sätt som textual content eller bild.

Modellen använder en voxelbaserad illustration (64³ voxelgrid) som komprimeras until en mindre latent illustration (16³ grid) och därefter until 1024 diskreta tokens per objekt. Dessa tokens används sedan av språkmodellen för att generera, förstå och redigera 3D-innehåll.

För att träna modellen har forskarna byggt ett gigantiskt dataset kallat 3D-Alpaca, med över 700 000 högkvalitativa 3D-resurser och miljontals exempel på text-till-3D, bild-till-3D, 3D-till-text och 3D-redigering.

Mer data:

Source link

Topp 10 AI-filmer genom tiderna

OpenAIs nya webbläsare ChatGPT Atlas

51% av all internettrafik består nu av botar

Unlocking Multimodal Video Transcription with Gemini

Sourcing, Annotation, and Managing Costs Explained | Shaip

Världens första AI-läkarklinik öppnar i Saudiarabien

STOP Building Useless ML Projects – What Actually Works

Google NotebookLM är nu tillgänglig på Android och iOS

Most Popular

Grad-CAM from Scratch with PyTorch Hooks

ChatGPT’s New Image Generator, Studio Ghibli Craze and Backlash, Gemini 2.5, OpenAI Academy, 4o Updates, Vibe Marketing & xAI Acquires X

Regression Discontinuity Design: How It Works and When to Use It

Our Picks

Why Should We Bother with Quantum Computing in ML?

Federated Learning and Custom Aggregation Schemes

How To Choose The Perfect AI Tool In 2025 » Ofemwire

ShapeLLM-Omni designad för att förstå och generera 3D-innehåll

Hur fungerar modellen?

Mer data:

Related Posts