ZombieAgent aggira le difese di ChatGPT, un nuovo problema di prompt injection

Si tratta di uno schema ormai ricorrente: viene scoperta una vulnerabilità nelle piattaforme di AI e si introducono delle contromisure che poi vengono aggirate con tecniche leggermente modificate. L’ultimo esempio riguarda ChatGPT, nuovamente colpito da un attacco di esfiltrazione dati che dimostra quanto il problema non sia facilmente risolvibile.

ZombieAgent e il ritorno della prompt injection

I ricercatori di Radware hanno individuato una nuova tecnica chiamata ZombieAgent, evoluzione di un precedente exploit noto come ShadowLeak. L’attacco consente di sottrarre informazioni private degli utenti direttamente dai server di ChatGPT, senza lasciare tracce sui dispositivi delle vittime spesso inseriti in reti aziendali protette.

Pubblicità

ZombieAgent sfrutta una debolezza ben nota nei modelli generativi, cioè l’incapacità di distinguere tra istruzioni legittime fornite dall’utente e comandi nascosti all’interno di contenuti esterni, come email o documenti. Quando l’assistente AI viene configurato per analizzare o riassumere questi contenuti, interpreta anche le istruzioni malevole come prompt validi. Questa classe di vulnerabilità è nota come indirect prompt injection.

Un tecnica di attacco semplice ma efficace

Dopo la scoperta di ShadowLeak, OpenAI aveva introdotto restrizioni che impedivano a ChatGPT di modificare o arricchire gli URL con parametri dinamici. La nuova variante ZombieAgent ha aggirato il blocco fornendo una lista completa di URL precostruiti, ognuno contenente un singolo carattere. In questo modo, i dati vengono esfiltrati lettera per lettera eludendo i controlli.

Ad essere ancora più preoccupante è la capacita dell’attacco di avere persistenza, induce infatti ChatGPT a salvare la logica di bypass nella memoria a lungo termine associata all’utente. Questo rende l’exploit duraturo e più difficile da individuare.

OpenAI ha risposto limitando l’apertura di link provenienti da email e consentendola solo per URL presenti in indici pubblici affidabili o forniti esplicitamente dall’utente. Si tratta però dell’ennesima soluzione reattiva, non proattiva.

Finché i modelli AI non saranno in grado di comprendere l’intento reale delle istruzioni e di separare in modo affidabile le loro fonti, la prompt injection resterà una minaccia sempre presente per le organizzazioni che adottano gli assistenti AI.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

Buddharoid: il monaco AI che unisce tecnologia e spiritualità nel tempio

La fusione tra tecnologia e spiritualità ha trovato una...

OpenAI trova un accordo con il Pentagono

OpenAI ha ufficializzato un accordo con il Dipartimento della...

Claude di Anthropic conquista l’App Store dopo il rifiuto al Pentagono

Claude, il chatbot sviluppato da Anthropic, ha recentemente conquistato...

Anthropic “bannata” da Trump. Il Pentagono sigla accordo con OpenAI

Negli ultimi giorni, il settore dell'intelligenza artificiale ha assistito...

Microsoft lancia Copilot Tasks: l’IA che agisce autonomamente

Microsoft ha recentemente annunciato il lancio di Copilot Tasks,...
Pubblicità