Ny AI-jailbreak-teknik kringgår säkerhetsåtgärder hos stora språkmodeller

HiddenLayer har utvecklat en universell prompt-injektionsteknik som kan kringgå säkerhetsspärrar i alla stora AI-modeller.
Tekniken kan generera skadligt innehåll och läcka systeminstruktioner, vilket utgör en stor säkerhetsrisk.
Coverage Puppetry Assault utnyttjar svagheter i hur AI-modeller tränas, vilket gör det svårt att åtgärda.

Forskare vid cybersäkerhetsföretaget HiddenLayer har upptäckt en ny universell metod för att kringgå säkerhetsåtgärder i alla stora AI-språkmodeller. Tekniken som kallas ”Coverage Puppetry” fungerar på samtliga ledande AI-system inklusive OpenAI:s ChatGPT, Google Gemini, Microsoft Copilot, Anthropic Claude och många fler.

Coverage Puppetry-attacken

Tekniken utnyttjar ett grundläggande sätt som AI-modeller tolkar instruktioner på. Genom att omformulera förfrågningar så att de liknar policyformat som XML, INI eller JSON, kan en användare lura AI-modellen att åsidosätta sina inbyggda säkerhetsbegränsningar och instruktioner.

Det som gör denna metod särskilt oroande är att den är både universell och överförbar. Med en enda immediate kan angripare få praktiskt taget vilken typ av skadligt innehåll som helst från alla stora AI-modeller – något som tidigare jailbreak-tekniker inte kunnat åstadkomma i samma utsträckning. ”Until skillnad från tidigare metoder som ofta är specifika för en viss modell eller typ av skadligt innehåll, kan Coverage Puppetry användas för att kringgå säkerhetsåtgärder i alla stora språkmodeller och generera i princip vilken typ av skadligt innehåll som helst,” förklarar forskarna bakom upptäckten.

Allvarliga konsekvenser för AI-säkerhet

I sina tester lyckades forskarna få AI-modeller att generera instruktioner för att anrika uran, tillverka bomber och producera metamfetamin – allt innehåll som normalt blockeras av säkerhetssystem.

Ett exempel som forskarna delar visar hur de lyckades kringgå en medicinsk chatbot som uttryckligen programmerats att aldrig ge medicinsk rådgivning. Genom att använda Coverage Puppetry-tekniken kunde de få chatboten att ignorera dessa begränsningar.

Mer data:

HiddenLayer: Novel Universal Bypass for All Major LLMs

Source link

SocialPost AI: Features, Benefits, and Alternatives

Seedance 2.0: Features, Benefits, and Alternatives

AI Angels: Features, Benefits, Pricing and Alternatives

Deploy a Streamlit App to AWS

US investigators are using AI to detect child abuse images made by AI

This medical startup uses LLMs to run appointments and make diagnoses

Världens första AI-läkarklinik öppnar i Saudiarabien

Pharmacy Placement in Urban Spain

Most Popular

Adversarial Prompt Generation: Safer LLMs with HITL

Claude Opus 4 Is Mind-Blowing…and Potentially Terrifying

The Strangest Bottleneck in Modern LLMs

Our Picks

Three OpenClaw Mistakes to Avoid and How to Fix Them

I Stole a Wall Street Trick to Solve a Google Trends Data Problem

How AI is turning the Iran conflict into theater

Ny AI-jailbreak-teknik kringgår säkerhetsåtgärder hos stora språkmodeller

Coverage Puppetry-attacken

Allvarliga konsekvenser för AI-säkerhet

Mer data:

Related Posts