- HiddenLayer har utvecklat en universell prompt-injektionsteknik som kan kringgå säkerhetsspärrar i alla stora AI-modeller.
- Tekniken kan generera skadligt innehåll och läcka systeminstruktioner, vilket utgör en stor säkerhetsrisk.
- Coverage Puppetry Assault utnyttjar svagheter i hur AI-modeller tränas, vilket gör det svårt att åtgärda.
Forskare vid cybersäkerhetsföretaget HiddenLayer har upptäckt en ny universell metod för att kringgå säkerhetsåtgärder i alla stora AI-språkmodeller. Tekniken som kallas ”Coverage Puppetry” fungerar på samtliga ledande AI-system inklusive OpenAI:s ChatGPT, Google Gemini, Microsoft Copilot, Anthropic Claude och många fler.
Coverage Puppetry-attacken
Tekniken utnyttjar ett grundläggande sätt som AI-modeller tolkar instruktioner på. Genom att omformulera förfrågningar så att de liknar policyformat som XML, INI eller JSON, kan en användare lura AI-modellen att åsidosätta sina inbyggda säkerhetsbegränsningar och instruktioner.
Det som gör denna metod särskilt oroande är att den är både universell och överförbar. Med en enda immediate kan angripare få praktiskt taget vilken typ av skadligt innehåll som helst från alla stora AI-modeller – något som tidigare jailbreak-tekniker inte kunnat åstadkomma i samma utsträckning. ”Until skillnad från tidigare metoder som ofta är specifika för en viss modell eller typ av skadligt innehåll, kan Coverage Puppetry användas för att kringgå säkerhetsåtgärder i alla stora språkmodeller och generera i princip vilken typ av skadligt innehåll som helst,” förklarar forskarna bakom upptäckten.
Allvarliga konsekvenser för AI-säkerhet
I sina tester lyckades forskarna få AI-modeller att generera instruktioner för att anrika uran, tillverka bomber och producera metamfetamin – allt innehåll som normalt blockeras av säkerhetssystem.
Ett exempel som forskarna delar visar hur de lyckades kringgå en medicinsk chatbot som uttryckligen programmerats att aldrig ge medicinsk rådgivning. Genom att använda Coverage Puppetry-tekniken kunde de få chatboten att ignorera dessa begränsningar.