AI-hörlurar översätter flera talare samtidigt klonar deras röster i 3D

Forskare vid College of Washington (UW) har utvecklat ett banbrytande hörlursystem kallat Spatial Speech Translation, som kan översätta flera talare samtidigt, samtidigt som det bevarar riktningen och egenskaperna hos deras röster. Detta system använder sig av vanliga brusreducerande hörlurar med inbyggda mikrofoner för att skapa en mer naturlig och användbar översättningsupplevelse i bullriga miljöer.

Systemet använder två huvudsakliga AI-modeller

En modell som skannar rummet i 360 grader för att identifiera och spåra talare.
En modell som översätter talet samtidigt som den bevarar röstkaraktären.

Teknologin baseras på två huvudsakliga AI-modeller. Den första modellen identifierar talarna och deras riktning genom att dela upp det omgivande ljudlandskapet i mindre segment. Den andra modellen översätter talet från språk som spanska, franska och tyska till engelska samt bevarar de unika kännetecknen och känslomässiga tonerna i talarens röst.

Demo video av Spatial Speech Translation

Systemet fungerar på vanliga enheter med Apple M2-chip och undviker molnanvändning för integritet. Testning i olika miljöer visade att användare föredrog en fördröjning på 3-4 sekunder för bättre noggrannhet.

Systemet kan revolutionera kommunikationssituationer, särskilt i miljöer med mycket bakgrundsljud, som museer, skolor eller på flygplatser, genom att möjliggöra för användare att lyssna på specifika talare utan att distraheras av omgivande ljud. Det kan också potentiellt förbättra tillgången till information för personer med hörselnedsättning.

Mer info:

AI headphones translate multiple speakers at once

Spatial-Speech-Translation Github

Source link

TeeDIY: Features, Benefits, Alternatives and Pricing

What Most B2B Contact Data Comparisons Get Wrong

SocialPost AI: Features, Benefits, and Alternatives

AI text-to-speech programs could “unlearn” how to imitate certain people

Teaching a Neural Network the Mandelbrot Set

SocialPost AI: Features, Benefits, and Alternatives

Going beyond pilots with composable and sovereign AI

How to Practically Pursue Financial Impact in AI Adoption with Eva Dong [MAICON 2025 Speaker Series]

Most Popular

GPT-5, Google DeepMind Genie 3, Cloudflare vs. Perplexity, OpenAI’s Open Source Models, Claude 4.1 & New Data on AI Layoffs

Anthropic lanserar Claude Opus 4 och Claude Sonnet 4

Introducing Server-Sent Events in Python | Towards Data Science

Our Picks

Why Care About Prompt Caching in LLMs?

How Vision Language Models Are Trained from “Scratch”

Why physical AI is becoming manufacturing’s next advantage

AI-hörlurar översätter flera talare samtidigt klonar deras röster i 3D

Mer info:

Related Posts