Close Menu
    Trending
    • Optimizing Data Transfer in Distributed AI/ML Training Workloads
    • Achieving 5x Agentic Coding Performance with Few-Shot Prompting
    • Why the Sophistication of Your Prompt Correlates Almost Perfectly with the Sophistication of the Response, as Research by Anthropic Found
    • From Transactions to Trends: Predict When a Customer Is About to Stop Buying
    • America’s coming war over AI regulation
    • “Dr. Google” had its issues. Can ChatGPT Health do better?
    • Evaluating Multi-Step LLM-Generated Content: Why Customer Journeys Require Structural Metrics
    • Why SaaS Product Management Is the Best Domain for Data-Driven Professionals in 2026
    ProfitlyAI
    • Home
    • Latest News
    • AI Technology
    • Latest AI Innovations
    • AI Tools & Technologies
    • Artificial Intelligence
    ProfitlyAI
    Home » AudioX: En kraftfull ny AI som förvandlar allt till ljud
    Latest AI Innovations

    AudioX: En kraftfull ny AI som förvandlar allt till ljud

    ProfitlyAIBy ProfitlyAIApril 16, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Tänk dig en AI som kan skapa musik eller ljudeffekter genom att bara titta på en bild, läsa en textual content eller se en video. Det är summary vad AudioX gör – och det är både imponerande och lite skrämmande hur bra den faktiskt är.

    AudioX är en ny diffusions-transformer-modell som kan generera högkvalitativa ljud från olika typer av ingångar. Utvecklad av forskare vid Hong Kong College of Science and Expertise (HKUST), representerar den ett betydande framsteg inom multimodal AI för ljudgenerering.

    Det som gör AudioX speciellt är dess förmåga att hantera många olika typer av indata. Until skillnad från tidigare modeller som vanligtvis fokuserat på enbart text-till-ljud eller bild-till-ljud, kan AudioX ta emot och bearbeta:

    • Musik.
    • Textual content (beskrivningar eller instruktioner).
    • Video (även tysta videor).
    • Bilder.
    • Befintliga ljudklipp.

    Modellen har tränats på enorma datamängder, inklusive 190 000 ljudinspelningar med tillhörande textbeskrivningar och 6 miljoner musikstycken med detaljerade metadata. Detta gör att AudioX kan skapa kontextuellt lämpliga ljudlandskap för en mängd olika ingångar.

    AudioX utföra imponerande uppgifter som: text-till-ljud du kan skriva en beskrivning som ”ett piano spelar en melankolisk melodi medan regn faller på ett fönster”, och AudioX skapar ett realistiskt ljud baserat på detta.

    Video-till-ljud: En av de mest imponerande funktionerna är förmågan att skapa ljud until tysta videor. Tänk dig en tyst video av någon som spelar tennis – AudioX kan generera realistiska ljudeffekter av tennisbollar som träffar racketar, publikens reaktioner, och spelarnas rörelser på banan.

    Bild-till-ljud, Visa modellen en bild av en strand, och den kan generera passande ljudeffekter av vågor, måsar och vindbrus.

    Eftersom modellen också kan köras på grafikkort med bara 8GB VRAM, blir den tillgänglig för många fler användare än de som har tillgång until toppmodern hårdvara. Koden och datauppsättningarna kommer att göras tillgängliga på AudioX projektsida och GitHub-sidan, males en exakt tidpunkt för detta har inte angetts.

    Mer data:



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleAI-utvecklingen 2025: Mindre, billigare och allt mer integrerad i våra liv
    Next Article What is vibe coding, exactly?
    ProfitlyAI
    • Website

    Related Posts

    Latest AI Innovations

    AI-musik splittrar Sverige: hitlåt portas från topplistan

    January 22, 2026
    Latest AI Innovations

    Nvidia blåsväder efter kontakt med piratbiblioteket Anna’s Archive

    January 22, 2026
    Latest AI Innovations

    AI Voice Agents for Shopify: 24/7 Phone Support That Turns Questions Into Conversions

    January 21, 2026
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Martin Trust Center for MIT Entrepreneurship welcomes Ana Bakshi as new executive director | MIT News

    October 2, 2025

    ChatGPT’s New Image Generator, Studio Ghibli Craze and Backlash, Gemini 2.5, OpenAI Academy, 4o Updates, Vibe Marketing & xAI Acquires X

    April 11, 2025

    How to Facilitate Effective AI Programming

    December 29, 2025

    What Is Sociophonetics and Why It Matters for AI

    December 9, 2025

    En ny super prompt kan potentiellt öka kreativiteten i LLM

    October 23, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    Most Popular

    This data set helps researchers spot harmful stereotypes in LLMs

    April 30, 2025

    Method teaches generative AI models to locate personalized objects | MIT News

    October 16, 2025

    DuckDuckGo lanserar integritetsfokuserat AI-abonnemang för 9,99 dollar

    September 10, 2025
    Our Picks

    Optimizing Data Transfer in Distributed AI/ML Training Workloads

    January 23, 2026

    Achieving 5x Agentic Coding Performance with Few-Shot Prompting

    January 23, 2026

    Why the Sophistication of Your Prompt Correlates Almost Perfectly with the Sophistication of the Response, as Research by Anthropic Found

    January 23, 2026
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 ProfitlyAI All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.