back to top

ZombieAgent aggira le difese di ChatGPT, un nuovo problema di prompt injection

Si tratta di uno schema ormai ricorrente: viene scoperta una vulnerabilità nelle piattaforme di AI e si introducono delle contromisure che poi vengono aggirate con tecniche leggermente modificate. L’ultimo esempio riguarda ChatGPT, nuovamente colpito da un attacco di esfiltrazione dati che dimostra quanto il problema non sia facilmente risolvibile.

ZombieAgent e il ritorno della prompt injection

I ricercatori di Radware hanno individuato una nuova tecnica chiamata ZombieAgent, evoluzione di un precedente exploit noto come ShadowLeak. L’attacco consente di sottrarre informazioni private degli utenti direttamente dai server di ChatGPT, senza lasciare tracce sui dispositivi delle vittime spesso inseriti in reti aziendali protette.

Pubblicità

ZombieAgent sfrutta una debolezza ben nota nei modelli generativi, cioè l’incapacità di distinguere tra istruzioni legittime fornite dall’utente e comandi nascosti all’interno di contenuti esterni, come email o documenti. Quando l’assistente AI viene configurato per analizzare o riassumere questi contenuti, interpreta anche le istruzioni malevole come prompt validi. Questa classe di vulnerabilità è nota come indirect prompt injection.

Un tecnica di attacco semplice ma efficace

Dopo la scoperta di ShadowLeak, OpenAI aveva introdotto restrizioni che impedivano a ChatGPT di modificare o arricchire gli URL con parametri dinamici. La nuova variante ZombieAgent ha aggirato il blocco fornendo una lista completa di URL precostruiti, ognuno contenente un singolo carattere. In questo modo, i dati vengono esfiltrati lettera per lettera eludendo i controlli.

Ad essere ancora più preoccupante è la capacita dell’attacco di avere persistenza, induce infatti ChatGPT a salvare la logica di bypass nella memoria a lungo termine associata all’utente. Questo rende l’exploit duraturo e più difficile da individuare.

OpenAI ha risposto limitando l’apertura di link provenienti da email e consentendola solo per URL presenti in indici pubblici affidabili o forniti esplicitamente dall’utente. Si tratta però dell’ennesima soluzione reattiva, non proattiva.

Finché i modelli AI non saranno in grado di comprendere l’intento reale delle istruzioni e di separare in modo affidabile le loro fonti, la prompt injection resterà una minaccia sempre presente per le organizzazioni che adottano gli assistenti AI.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

OpenAI sotto processo: le accuse di Musk sulla svolta for profit

Il contenzioso legale avviato da Elon Musk contro OpenAI...

ChatGPT Translate sfida il traduttore di Google

OpenAI presenta ChatGPT Translate, un nuovo tool di traduzione...

OpenAI presenta ChatGPT Salute e separa i dati sanitari dalle altre chat

OpenAI ha lanciato ChatGPT Salute, una nuova area dedicata...

OpenAI: i browser AI resteranno vulnerabili agli attacchi di prompt injection

OpenAI ha riconosciuto che gli attacchi di prompt injection...

ChatGPT è troppo entusiasta? Lo possiamo regolare

OpenAI ha sviluppato una nuova serie di nuove impostazioni...

ChatGPT sfida Google Search con una nuova funzionalità

OpenAI annuncia un aggiornamento per ChatGPT che introduce una...
PubblicitÃ