Close Menu
    Trending
    • Why Should We Bother with Quantum Computing in ML?
    • Federated Learning and Custom Aggregation Schemes
    • How To Choose The Perfect AI Tool In 2025 » Ofemwire
    • Implementing DRIFT Search with Neo4j and LlamaIndex
    • Agentic AI in Finance: Opportunities and Challenges for Indonesia
    • Dispatch: Partying at one of Africa’s largest AI gatherings
    • Topp 10 AI-filmer genom tiderna
    • OpenAIs nya webbläsare ChatGPT Atlas
    ProfitlyAI
    • Home
    • Latest News
    • AI Technology
    • Latest AI Innovations
    • AI Tools & Technologies
    • Artificial Intelligence
    ProfitlyAI
    Home » ShapeLLM-Omni designad för att förstå och generera 3D-innehåll
    Latest AI Innovations

    ShapeLLM-Omni designad för att förstå och generera 3D-innehåll

    ProfitlyAIBy ProfitlyAIJune 8, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    • ShapeLLM-Omni är en ny 3D-native stor språkmodell som kan förstå och generera 3D-tillgångar och textual content i valfri sekvens.
    • Modellen bygger på Qwen2.5-vl:s multimodala kapaciteter och utökar dess förmågor until 3D-domänen.
    • ShapeLLM-Omni stöder multipla funktioner inklusive text-till-3D, bild-till-3D, 3D-bildtexter och 3D-redigering genom textinstruktioner.

    ShapeLLM-Omni är en helt ny typ av multimodal AI-modell som inte bara förstår och genererar textual content och bilder, utan även 3D-objekt. Det här är ett stort steg framåt för AI-världen, där tidigare modeller som GPT-4o varit begränsade until tvådimensionella medier. ShapeLLM-Omni är byggd för att förstå, generera och redigera 3D-resurser – och kan kombinera dessa med textual content och bilder i valfri ordning.

    Hur fungerar modellen?

    Kärnan i ShapeLLM-Omni är en avancerad 3D Vector-Quantized Variational Autoencoder (VQVAE). Den här komponenten omvandlar 3D-objekt (t.ex. mesh-modeller) until en diskret sekvens av tokens, vilket gör det möjligt för modellen att bearbeta 3D-data på samma sätt som textual content eller bild.

    Modellen använder en voxelbaserad illustration (64³ voxelgrid) som komprimeras until en mindre latent illustration (16³ grid) och därefter until 1024 diskreta tokens per objekt. Dessa tokens används sedan av språkmodellen för att generera, förstå och redigera 3D-innehåll.

    För att träna modellen har forskarna byggt ett gigantiskt dataset kallat 3D-Alpaca, med över 700 000 högkvalitativa 3D-resurser och miljontals exempel på text-till-3D, bild-till-3D, 3D-till-text och 3D-redigering.

    Mer data:

    1. ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding
    2. Projektets GitHub-sida
    3. Officiell forskningswebbplats



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleGemini introducerar funktionen schemalagda åtgärder i Gemini-appen
    Next Article Test: ChatGPT vs Googles Imagen 4 vs FLUX 1.1 – Vilken AI-bildgenerator är bäst?
    ProfitlyAI
    • Website

    Related Posts

    Latest AI Innovations

    Topp 10 AI-filmer genom tiderna

    October 22, 2025
    Latest AI Innovations

    OpenAIs nya webbläsare ChatGPT Atlas

    October 22, 2025
    Latest AI Innovations

    51% av all internettrafik består nu av botar

    October 21, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Unlocking Multimodal Video Transcription with Gemini

    August 29, 2025

    Sourcing, Annotation, and Managing Costs Explained | Shaip

    April 3, 2025

    Världens första AI-läkarklinik öppnar i Saudiarabien

    May 17, 2025

    STOP Building Useless ML Projects – What Actually Works

    July 1, 2025

    Google NotebookLM är nu tillgänglig på Android och iOS

    May 20, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    Most Popular

    Grad-CAM from Scratch with PyTorch Hooks

    June 17, 2025

    ChatGPT’s New Image Generator, Studio Ghibli Craze and Backlash, Gemini 2.5, OpenAI Academy, 4o Updates, Vibe Marketing & xAI Acquires X

    April 11, 2025

    Regression Discontinuity Design: How It Works and When to Use It

    May 7, 2025
    Our Picks

    Why Should We Bother with Quantum Computing in ML?

    October 22, 2025

    Federated Learning and Custom Aggregation Schemes

    October 22, 2025

    How To Choose The Perfect AI Tool In 2025 » Ofemwire

    October 22, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 ProfitlyAI All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.