Dia är en öppen källkods text-till-tal (TTS) modell utvecklad av två personer på bara tre månader. Modellen genererar dialoger med anmärkningsvärt naturlig och expressiv röst, med förmågan att producera hela konversationer i ett enda genomdrag, vilket skiljer sig från traditionella TTS-modeller.
Användarna kan efterlikna specifika röster genom att tillhandahålla ett referensljudexempel tillsammans med dess transkription. Denna kapabilitet gör att Dia-1.6B kan användas för en mängd olika tillämpningar, inklusive röstsyntes och anpassning av berättande.
Funktioner – Dialoggenerering och avancerade ljudkontroller
Referensljud och transkription: För att använda röstkloningsfunktionaliteten behöver användarna ange ett ljudexempel samt en skriftlig model av det talade innehållet, Genererar naturligt klingande dialog mellan flera talare och hanterar emotionella övergångar och timing effektivt.
Röstkloning: Dia-1.6B gör det möjligt att efterlikna specifika röster, vilket innebär att användare kan skapa personliga eller unika ljudklipp baserade på en referensröst.
Stöder icke-verbal kommunikation som:
- Skålande och hostande.
- Harkling och suckar.
- Sång och mummel.
- Applåder och visslingar.
Dia är en 1.6 miljarder parametrar stor modell som genererar dialoger direkt från ett manus, med möjlighet att skapa hela konversationer i ett enda genomdrag. Modellen stöder för närvarande endast engelska och kan generera röster med olika nyanser och emotionella uttryck.
Mer information:
- GitHub-repositoriet: Detaljerad info och källkod är tillgänglig på GitHub.
- Hugging Face: Modellen är också listad på Hugging Face, vilket möjliggör enkel distribuerad användning av teknologin: Hugging Face Model.
- Demo-sida: Användare kan testa modellen through en demo som finns på denna länk.