Si tratta di uno schema ormai ricorrente: viene scoperta una vulnerabilità nelle piattaforme di AI e si introducono delle contromisure che poi vengono aggirate con tecniche leggermente modificate. L’ultimo esempio riguarda ChatGPT, nuovamente colpito da un attacco di esfiltrazione dati che dimostra quanto il problema non sia facilmente risolvibile.
ZombieAgent e il ritorno della prompt injection
I ricercatori di Radware hanno individuato una nuova tecnica chiamata ZombieAgent, evoluzione di un precedente exploit noto come ShadowLeak. L’attacco consente di sottrarre informazioni private degli utenti direttamente dai server di ChatGPT, senza lasciare tracce sui dispositivi delle vittime spesso inseriti in reti aziendali protette.
ZombieAgent sfrutta una debolezza ben nota nei modelli generativi, cioè l’incapacità di distinguere tra istruzioni legittime fornite dall’utente e comandi nascosti all’interno di contenuti esterni, come email o documenti. Quando l’assistente AI viene configurato per analizzare o riassumere questi contenuti, interpreta anche le istruzioni malevole come prompt validi. Questa classe di vulnerabilità è nota come indirect prompt injection.
Un tecnica di attacco semplice ma efficace
Dopo la scoperta di ShadowLeak, OpenAI aveva introdotto restrizioni che impedivano a ChatGPT di modificare o arricchire gli URL con parametri dinamici. La nuova variante ZombieAgent ha aggirato il blocco fornendo una lista completa di URL precostruiti, ognuno contenente un singolo carattere. In questo modo, i dati vengono esfiltrati lettera per lettera eludendo i controlli.
Ad essere ancora più preoccupante è la capacita dell’attacco di avere persistenza, induce infatti ChatGPT a salvare la logica di bypass nella memoria a lungo termine associata all’utente. Questo rende l’exploit duraturo e più difficile da individuare.
OpenAI ha risposto limitando l’apertura di link provenienti da email e consentendola solo per URL presenti in indici pubblici affidabili o forniti esplicitamente dall’utente. Si tratta però dell’ennesima soluzione reattiva, non proattiva.
Finché i modelli AI non saranno in grado di comprendere l’intento reale delle istruzioni e di separare in modo affidabile le loro fonti, la prompt injection resterà una minaccia sempre presente per le organizzazioni che adottano gli assistenti AI.

