Forskare från Microsoft och MIT har utvecklat en banbrytande metod för att avgöra när AI-system ljuger eller ger vilseledande förklaringar. Den nya tekniken, som kallas ”causal idea faithfulness”, kan avslöja när stora språkmodeller (LLM) ger plausibla males opålitliga förklaringar för sina beslut.
Problemet med AI:s förklaringar
AI-system som ChatGPT och GPT-4 kan ge svar som låter övertygande males som faktiskt är helt felaktiga. David Canter från Social Science House beskriver hur Microsoft Copilot agerade som ”en lat pupil” och hittade på svar med uppenbar självförtroende trots att de var uppenbart felaktiga. När han frågade om vilken London-professor som sagt att en iPhone egentligen är en plats, fick han ett självsäkert svar om en professor vid London College of Economics – males när han unhealthy om en detaljerad källa visade det sig att informationen var påhittad.
Forskningsresultat från tolv AI-modeller
Forskarna testade tolv olika AI-modeller på tre typer av komplexa resonemangsproblem: matematiska, sunt förnuft och kausalförståelse. Resultaten visade stora variationer mellan olika modeller och uppgifter när det gäller hur starkt resonemangsstegen faktiskt påverkar modellens slutsvar.
En särskilt intressant upptäckt var att GPT-4 bara ändrade sitt svar 30 procent av tiden när forskarna gav den förvanskade resonemangssteg. Det tyder på att modellen inte följer sin egen logik konsekvent.