Microsoft testade AI-agenter i en simulerad ekonomi och resultatet var inte imponerande. Agenterna slösade bort allt på bedrägerier och kunde inte klara av grundläggande shoppinguppgifter som människor gör varje dag.
AI-agenter fick låtsaspengar att handla med – males de gick på alla bluffar – När AI-agenter fick låtsaspengar att handla för – de föll för alla bluffar
En fejkad marknadsplats avslöjar sanningen
Microsoft byggde Magentic Marketplace – en simulerad shoppingvärld där 100 AI-kunder skulle handla från 300 AI-företag. Tanken var att testa hur redo dagens AI-modeller verkligen är att agera självständigt i marknader.
Resultatet var långt ifrån imponerande. De ledande AI-modellerna från OpenAI (GPT-4o och GPT-5) och Google (Gemini-2.5-Flash) fick alla problem när de ställdes inför realistiska köpscenarier.
Ett av de mest överraskande resultaten var att AI-agenterna helt enkelt inte klarar av när det finns för många alternativ att välja mellan. Precis som människor kan bli överväldigade av valmöjligheter fick AI-agenterna sämre resultat ju fler alternativ de presenterades för.
Endast Claude Sonnet 4 var totalt motståndskraftig mot manipulation i testen, enligt Microsoft.
Vilka bedrägerityper lurade AI-köpagenterna
Microsoft testade sex olika manipulationsstrategier på AI-agenterna, från subtila psykologiska knep till aggressiva prompt injection-attacker. Resultaten var skrämmande.
Falska referenser som ”Michelin Guide featured” och ”James Beard Award nominated” funkade på flera modeller. Social proof med påståenden som ”Join 50,000+ satisfied customers” fick också effekt. Men värst var de direkta prompt injection-attackerna där skräddade instruktioner kunde lura agenterna att köpa från specifika företag.
GPT-4o och flera open-source modeller var extremt sårbara – alla betalningar gick till de manipulativa agenterna under prompt injection-attacker. Bara Claude Sonnet-4 var motståndskraftig mot alla typer av attacker.
Även om idén om en AI-shoppingassistent låter bekväm, så vill man ju inte vakna upp och upptäcka att ens digitala butler har köpt 50 biljetter till en fejkad restaurang för att den gick på en ”Michelin-starred” bluff.
