Ny AI-jailbreak-teknik kringgår säkerhetsåtgärder hos stora språkmodeller

HiddenLayer har utvecklat en universell prompt-injektionsteknik som kan kringgå säkerhetsspärrar i alla stora AI-modeller.
Tekniken kan generera skadligt innehåll och läcka systeminstruktioner, vilket utgör en stor säkerhetsrisk.
Coverage Puppetry Assault utnyttjar svagheter i hur AI-modeller tränas, vilket gör det svårt att åtgärda.

Forskare vid cybersäkerhetsföretaget HiddenLayer har upptäckt en ny universell metod för att kringgå säkerhetsåtgärder i alla stora AI-språkmodeller. Tekniken som kallas ”Coverage Puppetry” fungerar på samtliga ledande AI-system inklusive OpenAI:s ChatGPT, Google Gemini, Microsoft Copilot, Anthropic Claude och många fler.

Coverage Puppetry-attacken

Tekniken utnyttjar ett grundläggande sätt som AI-modeller tolkar instruktioner på. Genom att omformulera förfrågningar så att de liknar policyformat som XML, INI eller JSON, kan en användare lura AI-modellen att åsidosätta sina inbyggda säkerhetsbegränsningar och instruktioner.

Det som gör denna metod särskilt oroande är att den är både universell och överförbar. Med en enda immediate kan angripare få praktiskt taget vilken typ av skadligt innehåll som helst från alla stora AI-modeller – något som tidigare jailbreak-tekniker inte kunnat åstadkomma i samma utsträckning. ”Until skillnad från tidigare metoder som ofta är specifika för en viss modell eller typ av skadligt innehåll, kan Coverage Puppetry användas för att kringgå säkerhetsåtgärder i alla stora språkmodeller och generera i princip vilken typ av skadligt innehåll som helst,” förklarar forskarna bakom upptäckten.

Allvarliga konsekvenser för AI-säkerhet

I sina tester lyckades forskarna få AI-modeller att generera instruktioner för att anrika uran, tillverka bomber och producera metamfetamin – allt innehåll som normalt blockeras av säkerhetssystem.

Ett exempel som forskarna delar visar hur de lyckades kringgå en medicinsk chatbot som uttryckligen programmerats att aldrig ge medicinsk rådgivning. Genom att använda Coverage Puppetry-tekniken kunde de få chatboten att ignorera dessa begränsningar.

Mer data:

HiddenLayer: Novel Universal Bypass for All Major LLMs

Source link

Differential Privacy vs. Encryption: Securing AI for Data Anonymization

Will AI Slop Kill the Creator Economy? How to Survive as a Creator

Why AI is the New Social Media: A Shift from Connection to Personalization

OpenAI Is Now a For-Profit Company, Paving the Way for a Possible $1 Trillion IPO

Top 7 Sensible alternatives for document processing

Exploring the Proportional Odds Model for Ordinal Logistic Regression

5 Ways Data Quality Can Impact Your AI Solution

Get Ready for Your Next Career Move

Most Popular

Beyond ROC-AUC and KS: The Gini Coefficient, Explained Simply

AI’s giants want to take over the classroom

How To Detect AI Content On WordPress In 2025 » Ofemwire

Our Picks

Reading Research Papers in the Age of LLMs

The Machine Learning “Advent Calendar” Day 6: Decision Tree Regressor

TDS Newsletter: How to Design Evals, Metrics, and KPIs That Work

Ny AI-jailbreak-teknik kringgår säkerhetsåtgärder hos stora språkmodeller

Coverage Puppetry-attacken

Allvarliga konsekvenser för AI-säkerhet

Mer data:

Related Posts