AI-hörlurar översätter flera talare samtidigt klonar deras röster i 3D

Forskare vid College of Washington (UW) har utvecklat ett banbrytande hörlursystem kallat Spatial Speech Translation, som kan översätta flera talare samtidigt, samtidigt som det bevarar riktningen och egenskaperna hos deras röster. Detta system använder sig av vanliga brusreducerande hörlurar med inbyggda mikrofoner för att skapa en mer naturlig och användbar översättningsupplevelse i bullriga miljöer.

Systemet använder två huvudsakliga AI-modeller

En modell som skannar rummet i 360 grader för att identifiera och spåra talare.
En modell som översätter talet samtidigt som den bevarar röstkaraktären.

Teknologin baseras på två huvudsakliga AI-modeller. Den första modellen identifierar talarna och deras riktning genom att dela upp det omgivande ljudlandskapet i mindre segment. Den andra modellen översätter talet från språk som spanska, franska och tyska till engelska samt bevarar de unika kännetecknen och känslomässiga tonerna i talarens röst.

Demo video av Spatial Speech Translation

Systemet fungerar på vanliga enheter med Apple M2-chip och undviker molnanvändning för integritet. Testning i olika miljöer visade att användare föredrog en fördröjning på 3-4 sekunder för bättre noggrannhet.

Systemet kan revolutionera kommunikationssituationer, särskilt i miljöer med mycket bakgrundsljud, som museer, skolor eller på flygplatser, genom att möjliggöra för användare att lyssna på specifika talare utan att distraheras av omgivande ljud. Det kan också potentiellt förbättra tillgången till information för personer med hörselnedsättning.

Mer info:

AI headphones translate multiple speakers at once

Spatial-Speech-Translation Github

Source link

TeeDIY: Features, Benefits, Alternatives and Pricing

What Most B2B Contact Data Comparisons Get Wrong

SocialPost AI: Features, Benefits, and Alternatives

Ny AI-jailbreak-teknik kringgår säkerhetsåtgärder hos stora språkmodeller

Undetectable AI vs. Grammarly’s AI Humanizer: What’s Better with ChatGPT?

Nya Firebase Studio från Google förvandlar idéer till applikationer med AI-kraft

How Relevance Models Foreshadowed Transformers for NLP

The Machine Learning “Advent Calendar” Bonus 2: Gradient Descent Variants in Excel

Most Popular

Pope Leo XIV Declares AI a Threat to Human Dignity and Workers’ Rights

OpenAI stödjer AI animerad film kallad Critterz

Modern DataFrames in Python: A Hands-On Tutorial with Polars and DuckDB

Our Picks

Why Care About Prompt Caching in LLMs?

How Vision Language Models Are Trained from “Scratch”

Why physical AI is becoming manufacturing’s next advantage

AI-hörlurar översätter flera talare samtidigt klonar deras röster i 3D

Mer info:

Related Posts