Close Menu
    Trending
    • Gemini introducerar funktionen schemalagda åtgärder i Gemini-appen
    • AIFF 2025 Runway’s tredje årliga AI Film Festival
    • AI-agenter kan nu hjälpa läkare fatta bättre beslut inom cancervård
    • Not Everything Needs Automation: 5 Practical AI Agents That Deliver Enterprise Value
    • Prescriptive Modeling Unpacked: A Complete Guide to Intervention With Bayesian Modeling.
    • 5 Crucial Tweaks That Will Make Your Charts Accessible to People with Visual Impairments
    • Why AI Projects Fail | Towards Data Science
    • The Role of Luck in Sports: Can We Measure It?
    ProfitlyAI
    • Home
    • Latest News
    • AI Technology
    • Latest AI Innovations
    • AI Tools & Technologies
    • Artificial Intelligence
    ProfitlyAI
    Home » AudioX: En kraftfull ny AI som förvandlar allt till ljud
    Latest AI Innovations

    AudioX: En kraftfull ny AI som förvandlar allt till ljud

    ProfitlyAIBy ProfitlyAIApril 16, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Tänk dig en AI som kan skapa musik eller ljudeffekter genom att bara titta på en bild, läsa en textual content eller se en video. Det är summary vad AudioX gör – och det är både imponerande och lite skrämmande hur bra den faktiskt är.

    AudioX är en ny diffusions-transformer-modell som kan generera högkvalitativa ljud från olika typer av ingångar. Utvecklad av forskare vid Hong Kong College of Science and Expertise (HKUST), representerar den ett betydande framsteg inom multimodal AI för ljudgenerering.

    Det som gör AudioX speciellt är dess förmåga att hantera många olika typer av indata. Until skillnad från tidigare modeller som vanligtvis fokuserat på enbart text-till-ljud eller bild-till-ljud, kan AudioX ta emot och bearbeta:

    • Musik.
    • Textual content (beskrivningar eller instruktioner).
    • Video (även tysta videor).
    • Bilder.
    • Befintliga ljudklipp.

    Modellen har tränats på enorma datamängder, inklusive 190 000 ljudinspelningar med tillhörande textbeskrivningar och 6 miljoner musikstycken med detaljerade metadata. Detta gör att AudioX kan skapa kontextuellt lämpliga ljudlandskap för en mängd olika ingångar.

    AudioX utföra imponerande uppgifter som: text-till-ljud du kan skriva en beskrivning som ”ett piano spelar en melankolisk melodi medan regn faller på ett fönster”, och AudioX skapar ett realistiskt ljud baserat på detta.

    Video-till-ljud: En av de mest imponerande funktionerna är förmågan att skapa ljud until tysta videor. Tänk dig en tyst video av någon som spelar tennis – AudioX kan generera realistiska ljudeffekter av tennisbollar som träffar racketar, publikens reaktioner, och spelarnas rörelser på banan.

    Bild-till-ljud, Visa modellen en bild av en strand, och den kan generera passande ljudeffekter av vågor, måsar och vindbrus.

    Eftersom modellen också kan köras på grafikkort med bara 8GB VRAM, blir den tillgänglig för många fler användare än de som har tillgång until toppmodern hårdvara. Koden och datauppsättningarna kommer att göras tillgängliga på AudioX projektsida och GitHub-sidan, males en exakt tidpunkt för detta har inte angetts.

    Mer data:



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleAI-utvecklingen 2025: Mindre, billigare och allt mer integrerad i våra liv
    Next Article What is vibe coding, exactly?
    ProfitlyAI
    • Website

    Related Posts

    Latest AI Innovations

    Gemini introducerar funktionen schemalagda åtgärder i Gemini-appen

    June 7, 2025
    Latest AI Innovations

    AIFF 2025 Runway’s tredje årliga AI Film Festival

    June 7, 2025
    Latest AI Innovations

    AI-agenter kan nu hjälpa läkare fatta bättre beslut inom cancervård

    June 7, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

    April 30, 2025

    The Rise of the “AI-First” Company Is About to Reshape the Future of Work

    May 6, 2025

    OnePlus 13 kommer med omfattande AI-funktioner

    May 28, 2025

    Best Veryfi OCR Alternatives in 2024

    April 4, 2025

    Undetectable AI’s Chatbot vs. ChatGPT: Bypassing AI Detection?

    April 8, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    Most Popular

    We Need a Fourth Law of Robotics in the Age of AI

    May 7, 2025

    Exploring Multimodal LLMs? Applications, Challenges, and How They Work

    April 4, 2025

    Hugging Face lanserar en gratis AI-agent

    May 7, 2025
    Our Picks

    Gemini introducerar funktionen schemalagda åtgärder i Gemini-appen

    June 7, 2025

    AIFF 2025 Runway’s tredje årliga AI Film Festival

    June 7, 2025

    AI-agenter kan nu hjälpa läkare fatta bättre beslut inom cancervård

    June 7, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 ProfitlyAI All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.