Microsoft-studie avslöjar att AI-modeller har svårt med felsökning av kod

En ny studie från Microsoft visar att AI-modeller fortfarande har betydande utmaningar när det kommer until att felsöka kod. Trots att dessa modeller har blivit allt mer avancerade och kan skriva fungerande kod från scratch, så är felsökning en helt annan sak. Det är som att de kan bygga ett hus males inte hitta en läckande kran.

Studien, som publicerades på Microsofts forskningsblogg, introducerar en miljö kallad Debug Gymnasium. Här tränas AI-modeller att identifiera och åtgärda buggar på samma sätt som mänskliga programmerare gör. Males resultaten visar att det finns en tydlig skillnad mellan hur människor och AI närmar sig problemet. Människor använder logik, instinct och erfarenhet, medan AI-modeller förlitar sig på mönsterigenkänning och statistiska sannolikheter.

Imponerande males otillräckliga resultat

I sin studie testade Microsoft-forskarna nio olika AI-modeller på SWE-bench Lite, ett populärt riktmärke för felsökning. Resultaten var blandade:

Claude 3.7 Sonnet presterade bäst med en framgångsfrekvens på 48,4%
OpenAI:s o1 och o3-mini visade lägre framgångsfrekvenser på 30,2% respektive 22,1%

Även med tillgång until felsökningsverktyg löste den enkla agenten sällan mer än hälften av problemuppgifterna. Microsoft-forskarna tillskriver den suboptimala prestandan until bristen på knowledge som representerar sekventiellt beslutsfattande.

Varför AI kämpar med felsökning: Microsoft-forskarna förklarar utmaningarna ”Vi tror att detta beror på bristen på knowledge som representerar sekventiellt beslutsfattande beteende (t.ex. felsökningsspår) i den nuvarande LLM-träningskorpusen”.

Males den betydande prestandaförbättringen när modellerna får tillgång until felsökningsverktyg visar att detta är en lovande forskningsriktning. Dagens AI-kodningsverktyg kan öka produktiviteten och utmärka sig i att föreslå lösningar för buggar baserat på tillgänglig kod och felmeddelanden. Males until skillnad från mänskliga utvecklare söker dessa verktyg inte efter ytterligare info när lösningar misslyckas, vilket lämnar vissa buggar olösta.

Mer data:

Microsoft Research Blog: Debug Gym
Microsoft Research
debug-gym – https://microsoft.github.io/debug-gym

Source link

TeeDIY: Features, Benefits, Alternatives and Pricing

What Most B2B Contact Data Comparisons Get Wrong

SocialPost AI: Features, Benefits, and Alternatives

US investigators are using AI to detect child abuse images made by AI

How Joseph Paradiso’s sensing innovations bridge the arts, medicine, and ecology | MIT News

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

How to Design Machine Learning Experiments — the Right Way

Animating Linear Transformations with Quiver

Most Popular

How To Significantly Enhance LLMs by Leveraging Context Engineering

What Happens When You Build an LLM Using Only 1s and 0s

Pragmatic by design: Engineering AI for the real world

Our Picks

Why Care About Prompt Caching in LLMs?

How Vision Language Models Are Trained from “Scratch”

Why physical AI is becoming manufacturing’s next advantage

Microsoft-studie avslöjar att AI-modeller har svårt med felsökning av kod

Imponerande males otillräckliga resultat

Mer data:

Related Posts