Forskare vid College of Washington (UW) har utvecklat ett banbrytande hörlursystem kallat Spatial Speech Translation, som kan översätta flera talare samtidigt, samtidigt som det bevarar riktningen och egenskaperna hos deras röster. Detta system använder sig av vanliga brusreducerande hörlurar med inbyggda mikrofoner för att skapa en mer naturlig och användbar översättningsupplevelse i bullriga miljöer.
Systemet använder två huvudsakliga AI-modeller
- En modell som skannar rummet i 360 grader för att identifiera och spåra talare.
- En modell som översätter talet samtidigt som den bevarar röstkaraktären.
Teknologin baseras på två huvudsakliga AI-modeller. Den första modellen identifierar talarna och deras riktning genom att dela upp det omgivande ljudlandskapet i mindre segment. Den andra modellen översätter talet från språk som spanska, franska och tyska till engelska samt bevarar de unika kännetecknen och känslomässiga tonerna i talarens röst.
Demo video av Spatial Speech Translation
Systemet fungerar på vanliga enheter med Apple M2-chip och undviker molnanvändning för integritet. Testning i olika miljöer visade att användare föredrog en fördröjning på 3-4 sekunder för bättre noggrannhet.
Systemet kan revolutionera kommunikationssituationer, särskilt i miljöer med mycket bakgrundsljud, som museer, skolor eller på flygplatser, genom att möjliggöra för användare att lyssna på specifika talare utan att distraheras av omgivande ljud. Det kan också potentiellt förbättra tillgången till information för personer med hörselnedsättning.