Close Menu
    Trending
    • Creating AI that matters | MIT News
    • Scaling Recommender Transformers to a Billion Parameters
    • Hidden Gems in NumPy: 7 Functions Every Data Scientist Should Know
    • Is RAG Dead? The Rise of Context Engineering and Semantic Layers for Agentic AI
    • ChatGPT Gets More Personal. Is Society Ready for It?
    • Why the Future Is Human + Machine
    • Why AI Is Widening the Gap Between Top Talent and Everyone Else
    • Implementing the Fourier Transform Numerically in Python: A Step-by-Step Guide
    ProfitlyAI
    • Home
    • Latest News
    • AI Technology
    • Latest AI Innovations
    • AI Tools & Technologies
    • Artificial Intelligence
    ProfitlyAI
    Home » AudioX: En kraftfull ny AI som förvandlar allt till ljud
    Latest AI Innovations

    AudioX: En kraftfull ny AI som förvandlar allt till ljud

    ProfitlyAIBy ProfitlyAIApril 16, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Tänk dig en AI som kan skapa musik eller ljudeffekter genom att bara titta på en bild, läsa en textual content eller se en video. Det är summary vad AudioX gör – och det är både imponerande och lite skrämmande hur bra den faktiskt är.

    AudioX är en ny diffusions-transformer-modell som kan generera högkvalitativa ljud från olika typer av ingångar. Utvecklad av forskare vid Hong Kong College of Science and Expertise (HKUST), representerar den ett betydande framsteg inom multimodal AI för ljudgenerering.

    Det som gör AudioX speciellt är dess förmåga att hantera många olika typer av indata. Until skillnad från tidigare modeller som vanligtvis fokuserat på enbart text-till-ljud eller bild-till-ljud, kan AudioX ta emot och bearbeta:

    • Musik.
    • Textual content (beskrivningar eller instruktioner).
    • Video (även tysta videor).
    • Bilder.
    • Befintliga ljudklipp.

    Modellen har tränats på enorma datamängder, inklusive 190 000 ljudinspelningar med tillhörande textbeskrivningar och 6 miljoner musikstycken med detaljerade metadata. Detta gör att AudioX kan skapa kontextuellt lämpliga ljudlandskap för en mängd olika ingångar.

    AudioX utföra imponerande uppgifter som: text-till-ljud du kan skriva en beskrivning som ”ett piano spelar en melankolisk melodi medan regn faller på ett fönster”, och AudioX skapar ett realistiskt ljud baserat på detta.

    Video-till-ljud: En av de mest imponerande funktionerna är förmågan att skapa ljud until tysta videor. Tänk dig en tyst video av någon som spelar tennis – AudioX kan generera realistiska ljudeffekter av tennisbollar som träffar racketar, publikens reaktioner, och spelarnas rörelser på banan.

    Bild-till-ljud, Visa modellen en bild av en strand, och den kan generera passande ljudeffekter av vågor, måsar och vindbrus.

    Eftersom modellen också kan köras på grafikkort med bara 8GB VRAM, blir den tillgänglig för många fler användare än de som har tillgång until toppmodern hårdvara. Koden och datauppsättningarna kommer att göras tillgängliga på AudioX projektsida och GitHub-sidan, males en exakt tidpunkt för detta har inte angetts.

    Mer data:



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleAI-utvecklingen 2025: Mindre, billigare och allt mer integrerad i våra liv
    Next Article What is vibe coding, exactly?
    ProfitlyAI
    • Website

    Related Posts

    Latest AI Innovations

    51% av all internettrafik består nu av botar

    October 21, 2025
    Latest AI Innovations

    Ny forskning visar varför AI-bilder ser så konstiga ut

    October 21, 2025
    Latest AI Innovations

    ChatGPT får ny automatisk minnesfunktion

    October 20, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Forget ChatGPT? Alibaba’s Qwen3 Might Be the New AI King

    April 29, 2025

    TruthScan vs Undetectable AI: Can TruthScan Win Over AI Humanizers?

    October 6, 2025

    Regeringens AI-satsning: Myndigheter ska kunna dela känslig data

    June 18, 2025

    Visual Pollen Classification Using CNNs and Vision Transformers

    October 1, 2025

    Nya Firebase Studio från Google förvandlar idéer till applikationer med AI-kraft

    April 10, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    Most Popular

    How to Train a Chatbot Using RAG and Custom Data

    June 25, 2025

    How to Use Gyroscope in Presentations, or Why Take a JoyCon to DPG2025

    April 21, 2025

    OpenAI Releases o3 and o4-mini, AI Is Causing “Quiet Layoffs,” Executive Order on Youth AI Education & GPT-4o’s Controversial Update

    April 29, 2025
    Our Picks

    Creating AI that matters | MIT News

    October 21, 2025

    Scaling Recommender Transformers to a Billion Parameters

    October 21, 2025

    Hidden Gems in NumPy: 7 Functions Every Data Scientist Should Know

    October 21, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 ProfitlyAI All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.