Un team di ricercatori di Intel, Boise State University e University of Illinois ha scoperto un nuovo metodo per aggirare i filtri di sicurezza delle AI come ChatGPT, Gemini e LLaMA. Lo studio, pubblicato come preprint e intitolato “InfoFlood: Jailbreaking Large Language Models with Information Overload“, descrive come sia possibile ottenere risposte vietate, tra cui istruzioni su come fabbricare una bomba o hackerare un bancomat, semplicemente sommergendo l’AI di linguaggio tecnico, citazioni fittizie e richieste complesse.
Cosa รจ l’Information Overload e perchรฉ confonde le AI
Il metodo, chiamato Information Overload e automatizzato tramite il sistema InfoFlood, si basa sull’osservazione che molte AI riconoscono la pericolositร di una richiesta analizzandone soprattutto la superficie testuale, quindi parole chiave e struttura sintattica, piรน che comprendendo davvero il significato profondo o l’intenzione dell’utente.
InfoFlood trasforma una domanda vietata in un lungo testo accademico, condito da riferimenti a presunte (e inesistenti) fonti scientifiche e riconoscimenti etici inseriti solo per “mascherare” l’intento reale. Invece di chiedere direttamente “come si hackera un bancomat“, la domanda viene riformulata ad esempio come una richiesta di “esposizione teorica sui metodi ipotetici di infiltrazione di sistemi ATM“. Il tutto con citazioni di lavori accademici inventati e un linguaggio volutamente complesso.
Una tecnica efficace anche contro i filtri piรน sofisticati
Ogni volta che l’AI rifiuta una risposta, InfoFlood aggiunge ancora piรน dettagli e complessitร , finchรฉ il modello non cede e fornisce delle informazioni proibite. Nei test condotti dai ricercatori utilizzando strumenti di benchmarking open source come AdvBench e JailbreakHub, il metodo avrebbe mostrato un tasso di successo vicino al 100% anche contro i filtri piรน sofisticati delle AI di ultima generazione.
Stando ai risultati dello studio sull’Information Overload, questa tecnica metterebbe in luce una debolezza strutturale nei sistemi di moderazione delle AI. Per potenziarne la sicurezza essi dovranno essere aggiornati per riconoscere non solo le parole sospette ma anche intenzioni mascherate con un linguaggio volutamente complicato.

