Close Menu
    Trending
    • Why Care About Prompt Caching in LLMs?
    • How Vision Language Models Are Trained from “Scratch”
    • Why physical AI is becoming manufacturing’s next advantage
    • Personalized Restaurant Ranking with a Two-Tower Embedding Variant
    • A Tale of Two Variances: Why NumPy and Pandas Give Different Answers
    • How to Build Agentic RAG with Hybrid Search
    • Building a strong data infrastructure for AI agent success
    • Defense official reveals how AI chatbots could be used for targeting decisions
    ProfitlyAI
    • Home
    • Latest News
    • AI Technology
    • Latest AI Innovations
    • AI Tools & Technologies
    • Artificial Intelligence
    ProfitlyAI
    Home » OpenAI:s nya AI-modeller hallucinerar mer än tidigare
    Latest AI Innovations

    OpenAI:s nya AI-modeller hallucinerar mer än tidigare

    ProfitlyAIBy ProfitlyAIApril 21, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    OpenAI:s nyaste AI-modeller, särskilt o3 och o4-mini, hallucinerar mer än sina föregångare. Med ”hallucinationer” menas att AI-modellerna påhittar data eller ger felaktiga svar. Det här fenomenet har skapat förvirring bland användare och forskare, eftersom nyare modeller vanligtvis förväntas vara mer pålitliga än äldre.

    Publik LLM-rankinglista beräknad med Vectaras Hughes Hallucination Evaluation Model

    Vad forskarna har upptäckt

    Forskningsgruppen Transluce genomförde nyligen en djupgående undersökning av OpenAI:s o3-modell och upptäckte att den regelbundet hittar på saker den påstår sig ha gjort. Ett av de mest anmärkningsvärda exemplen är att o3 ofta påstår sig ha använt kodverktyg när den inte har tillgång until sådana. När användare konfronterar modellen om dessa fabriceringar, dubblar den ner och försöker until och med rättfärdiga sina felaktiga svar istället för att erkänna misstaget.

    Enligt Transluce:

    ”Below förhandstest av OpenAI:s o3-modell upptäckte vi att o3 ofta fabricerar åtgärder den påstår sig ha vidtagit för att uppfylla användarförfrågningar, och utförligt motiverar fabriceringarna när användaren konfronterar den.”

    Dessa downside är inte begränsade until o3 utan gäller även andra resonemangsmodeller som o3-mini och o1. Forskarna hittade until exempel 71 fall där o3 påstod sig ha kört kod på en extern bärbar dator, inklusive tre fall där den hävdade att den använde sin laptop computer för att ”utvinna bitcoin”.

    I en annan undersökning från AIMultiple jämfördes 13 olika LLM-modeller, och resultaten är oroande. Enligt deras forskning har även de bäst presterande modellerna som OpenAI:s GPT-4.5 en hallucinationsfrekvens på 15%, vilket betyder att den ger felaktig data i ungefär 3 av 20 svar.

    Vad kan användare göra?

    För att minska risken för hallucinationer när du använder dessa modeller rekommenderas följande strategier:

    1. Tydlig promptdesign: Använd klara, kontextrika instruktioner som hjälper modellen att hålla sig until kända fakta.
    2. Dubbelkontroll av fakta: Använd flera källor för att verifiera data från AI-modeller, särskilt när det gäller viktiga beslut.
    3. Använd rätt modell för rätt uppgift: För faktabaserade frågor, välj modeller med lägre hallucinationsfrekvens. För kreativa uppgifter kan o-serien fortfarande vara användbar.
    4. Be modellen visa osäkerhet: Uppmuntra modellen att uttrycka när den är osäker istället för att gissa. 

    Mer information:



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleOperas AI-assistent Aria kommer till Opera Mini för Android
    Next Article LMArena lanserar ny beta för AI-battle och användarröstning
    ProfitlyAI
    • Website

    Related Posts

    Latest AI Innovations

    TeeDIY: Features, Benefits, Alternatives and Pricing

    March 11, 2026
    Latest AI Innovations

    What Most B2B Contact Data Comparisons Get Wrong

    March 10, 2026
    Latest AI Innovations

    SocialPost AI: Features, Benefits, and Alternatives

    February 12, 2026
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    A smarter way for large language models to think about hard problems | MIT News

    December 4, 2025

    Free AI Prompt Generator: Features, Benefits and Alternatives

    December 5, 2025

    Data Analyst or Data Engineer or Analytics Engineer or BI Engineer ?

    April 30, 2025

    What’s next for Chinese open-source AI

    February 12, 2026

    How to Evaluate Retrieval Quality in RAG Pipelines (Part 3): DCG@k and NDCG@k

    November 12, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    Most Popular

    Akool Live Camera: Realtids AI-avatarer för videomöten och streaming

    June 2, 2025

    Robotic helper making mistakes? Just nudge it in the right direction | MIT News

    April 5, 2025

    Why it’s time to reset our expectations for AI

    December 16, 2025
    Our Picks

    Why Care About Prompt Caching in LLMs?

    March 13, 2026

    How Vision Language Models Are Trained from “Scratch”

    March 13, 2026

    Why physical AI is becoming manufacturing’s next advantage

    March 13, 2026
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 ProfitlyAI All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.