Ny studie avslöjar att vissa LLM kan ge vilseledande förklaringar

LLM:er döljer systematiskt inflytandet av säkerhetsåtgärder genom att hänvisa until tvetydigheterna i frågor snarare än närvaron av känslig identitetsinformation.
Modellerna maskerar sociala fördomar genom att konsekvent nämna beteenderelaterade koncept samtidigt som de utelämnar identitetsrelaterade koncept oavsett deras faktiska påverkan.
Forskarna upptäckte att avancerade modeller som GPT-4o och Claude-3.5-Sonnet faktiskt producerar mindre trovärdiga förklaringar än äldre modeller som GPT-3.5

Forskare från Microsoft och MIT har utvecklat en metod för att avgöra när AI-system ljuger eller ger vilseledande förklaringar. Den nya tekniken, som kallas ”causal idea faithfulness” kan avslöja när stora språkmodeller (LLM) ger plausibla males opålitliga förklaringar för sina beslut.

Problemet med AI:s förklaringar

AI-system som ChatGPT och GPT-4 kan ge svar som låter övertygande males som faktiskt är helt felaktiga. David Canter från Social Science Area beskriver hur Microsoft Copilot agerade som ”en lat scholar” och hittade på svar med uppenbar självförtroende trots att de var uppenbart felaktiga. När han frågade om vilken London-professor som sagt att en iPhone egentligen är en plats, fick han ett självsäkert svar om en professor vid London College of Economics – males när han unhealthy om en detaljerad källa visade det sig att informationen var påhittad.

Forskningsresultat från tolv AI-modeller

Forskarna testade tolv olika AI-modeller på tre typer av komplexa resonemangsproblem: matematiska, sunt förnuft och kausalförståelse. Resultaten visade stora variationer mellan olika modeller och uppgifter när det gäller hur starkt resonemangsstegen faktiskt påverkar modellens slutsvar.

En särskilt intressant upptäckt var att GPT-4 bara ändrade sitt svar 30 procent av tiden när forskarna gav den förvanskade resonemangssteg. Det tyder på att modellen inte följer sin egen logik konsekvent.

Mer information:

https://openreview.net/forum?id=4ub9gpx9xw

Source link

SocialPost AI: Features, Benefits, and Alternatives

Seedance 2.0: Features, Benefits, and Alternatives

AI Angels: Features, Benefits, Pricing and Alternatives

DeepSeek har uppgraderad R1-modellen till DeepSeek R1-0528

Hollywood Strikes Back: Disney Is Suing Midjourney

Overcoming Challenges to Realize Benefits

Hyperscale AI data centers: 10 Breakthrough Technologies 2026

Framtidens AI-modeller från OpenAI API kan kräva ID-verifiering

Most Popular

If we use AI to do our work – what is our job, then?

Using generative AI to help robots jump higher and land safely | MIT News

A new model predicts how molecules will dissolve in different solvents | MIT News

Our Picks

Three OpenClaw Mistakes to Avoid and How to Fix Them

I Stole a Wall Street Trick to Solve a Google Trends Data Problem

How AI is turning the Iran conflict into theater

Ny studie avslöjar att vissa LLM kan ge vilseledande förklaringar

Problemet med AI:s förklaringar

Forskningsresultat från tolv AI-modeller

Mer information:

Related Posts