Close Menu
    Trending
    • Why Care About Prompt Caching in LLMs?
    • How Vision Language Models Are Trained from “Scratch”
    • Why physical AI is becoming manufacturing’s next advantage
    • Personalized Restaurant Ranking with a Two-Tower Embedding Variant
    • A Tale of Two Variances: Why NumPy and Pandas Give Different Answers
    • How to Build Agentic RAG with Hybrid Search
    • Building a strong data infrastructure for AI agent success
    • Defense official reveals how AI chatbots could be used for targeting decisions
    ProfitlyAI
    • Home
    • Latest News
    • AI Technology
    • Latest AI Innovations
    • AI Tools & Technologies
    • Artificial Intelligence
    ProfitlyAI
    Home » AI-hörlurar översätter flera talare samtidigt klonar deras röster i 3D
    Latest AI Innovations

    AI-hörlurar översätter flera talare samtidigt klonar deras röster i 3D

    ProfitlyAIBy ProfitlyAIMay 12, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Forskare vid College of Washington (UW) har utvecklat ett banbrytande hörlursystem kallat Spatial Speech Translation, som kan översätta flera talare samtidigt, samtidigt som det bevarar riktningen och egenskaperna hos deras röster. Detta system använder sig av vanliga brusreducerande hörlurar med inbyggda mikrofoner för att skapa en mer naturlig och användbar översättningsupplevelse i bullriga miljöer.

    Systemet använder två huvudsakliga AI-modeller

    1. En modell som skannar rummet i 360 grader för att identifiera och spåra talare.
    2. En modell som översätter talet samtidigt som den bevarar röstkaraktären.

    Teknologin baseras på två huvudsakliga AI-modeller. Den första modellen identifierar talarna och deras riktning genom att dela upp det omgivande ljudlandskapet i mindre segment. Den andra modellen översätter talet från språk som spanska, franska och tyska till engelska samt bevarar de unika kännetecknen och känslomässiga tonerna i talarens röst.

    Demo video av Spatial Speech Translation

    Systemet fungerar på vanliga enheter med Apple M2-chip och undviker molnanvändning för integritet. Testning i olika miljöer visade att användare föredrog en fördröjning på 3-4 sekunder för bättre noggrannhet.

    Systemet kan revolutionera kommunikationssituationer, särskilt i miljöer med mycket bakgrundsljud, som museer, skolor eller på flygplatser, genom att möjliggöra för användare att lyssna på specifika talare utan att distraheras av omgivande ljud. Det kan också potentiellt förbättra tillgången till information för personer med hörselnedsättning.

    Mer info:

    AI headphones translate multiple speakers at once

    Spatial-Speech-Translation Github



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleMeta planerar att förse sina Ray-Ban AI-glasögon med ansiktsigenkänning
    Next Article Enigma Labs Multiverse en avancerad AI-modell för multiplayer-världar
    ProfitlyAI
    • Website

    Related Posts

    Latest AI Innovations

    TeeDIY: Features, Benefits, Alternatives and Pricing

    March 11, 2026
    Latest AI Innovations

    What Most B2B Contact Data Comparisons Get Wrong

    March 10, 2026
    Latest AI Innovations

    SocialPost AI: Features, Benefits, and Alternatives

    February 12, 2026
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    AI text-to-speech programs could “unlearn” how to imitate certain people

    July 15, 2025

    Teaching a Neural Network the Mandelbrot Set

    January 9, 2026

    SocialPost AI: Features, Benefits, and Alternatives

    February 12, 2026

    Going beyond pilots with composable and sovereign AI

    January 19, 2026

    How to Practically Pursue Financial Impact in AI Adoption with Eva Dong [MAICON 2025 Speaker Series]

    October 2, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    Most Popular

    GPT-5, Google DeepMind Genie 3, Cloudflare vs. Perplexity, OpenAI’s Open Source Models, Claude 4.1 & New Data on AI Layoffs

    August 12, 2025

    Anthropic lanserar Claude Opus 4 och Claude Sonnet 4

    May 23, 2025

    Introducing Server-Sent Events in Python | Towards Data Science

    August 4, 2025
    Our Picks

    Why Care About Prompt Caching in LLMs?

    March 13, 2026

    How Vision Language Models Are Trained from “Scratch”

    March 13, 2026

    Why physical AI is becoming manufacturing’s next advantage

    March 13, 2026
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 ProfitlyAI All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.