Tänk dig en AI som kan skapa musik eller ljudeffekter genom att bara titta på en bild, läsa en textual content eller se en video. Det är summary vad AudioX gör – och det är både imponerande och lite skrämmande hur bra den faktiskt är.
AudioX är en ny diffusions-transformer-modell som kan generera högkvalitativa ljud från olika typer av ingångar. Utvecklad av forskare vid Hong Kong College of Science and Expertise (HKUST), representerar den ett betydande framsteg inom multimodal AI för ljudgenerering.
Det som gör AudioX speciellt är dess förmåga att hantera många olika typer av indata. Until skillnad från tidigare modeller som vanligtvis fokuserat på enbart text-till-ljud eller bild-till-ljud, kan AudioX ta emot och bearbeta:
- Musik.
- Textual content (beskrivningar eller instruktioner).
- Video (även tysta videor).
- Bilder.
- Befintliga ljudklipp.
Modellen har tränats på enorma datamängder, inklusive 190 000 ljudinspelningar med tillhörande textbeskrivningar och 6 miljoner musikstycken med detaljerade metadata. Detta gör att AudioX kan skapa kontextuellt lämpliga ljudlandskap för en mängd olika ingångar.
AudioX utföra imponerande uppgifter som: text-till-ljud du kan skriva en beskrivning som ”ett piano spelar en melankolisk melodi medan regn faller på ett fönster”, och AudioX skapar ett realistiskt ljud baserat på detta.
Video-till-ljud: En av de mest imponerande funktionerna är förmågan att skapa ljud until tysta videor. Tänk dig en tyst video av någon som spelar tennis – AudioX kan generera realistiska ljudeffekter av tennisbollar som träffar racketar, publikens reaktioner, och spelarnas rörelser på banan.
Bild-till-ljud, Visa modellen en bild av en strand, och den kan generera passande ljudeffekter av vågor, måsar och vindbrus.
Eftersom modellen också kan köras på grafikkort med bara 8GB VRAM, blir den tillgänglig för många fler användare än de som har tillgång until toppmodern hårdvara. Koden och datauppsättningarna kommer att göras tillgängliga på AudioX projektsida och GitHub-sidan, males en exakt tidpunkt för detta har inte angetts.