Le AI si confondono con l'Information Overload

Un team di ricercatori di Intel, Boise State University e University of Illinois ha scoperto un nuovo metodo per aggirare i filtri di sicurezza delle AI come ChatGPT, Gemini e LLaMA. Lo studio, pubblicato come preprint e intitolato “InfoFlood: Jailbreaking Large Language Models with Information Overload“, descrive come sia possibile ottenere risposte vietate, tra cui istruzioni su come fabbricare una bomba o hackerare un bancomat, semplicemente sommergendo l’AI di linguaggio tecnico, citazioni fittizie e richieste complesse.

Cosa è l’Information Overload e perché confonde le AI

Il metodo, chiamato Information Overload e automatizzato tramite il sistema InfoFlood, si basa sull’osservazione che molte AI riconoscono la pericolosità di una richiesta analizzandone soprattutto la superficie testuale, quindi parole chiave e struttura sintattica, più che comprendendo davvero il significato profondo o l’intenzione dell’utente.

InfoFlood trasforma una domanda vietata in un lungo testo accademico, condito da riferimenti a presunte (e inesistenti) fonti scientifiche e riconoscimenti etici inseriti solo per “mascherare” l’intento reale. Invece di chiedere direttamente “come si hackera un bancomat“, la domanda viene riformulata ad esempio come una richiesta di “esposizione teorica sui metodi ipotetici di infiltrazione di sistemi ATM“. Il tutto con citazioni di lavori accademici inventati e un linguaggio volutamente complesso.

Una tecnica efficace anche contro i filtri più sofisticati

Ogni volta che l’AI rifiuta una risposta, InfoFlood aggiunge ancora più dettagli e complessità, finché il modello non cede e fornisce delle informazioni proibite. Nei test condotti dai ricercatori utilizzando strumenti di benchmarking open source come AdvBench e JailbreakHub, il metodo avrebbe mostrato un tasso di successo vicino al 100% anche contro i filtri più sofisticati delle AI di ultima generazione.

Stando ai risultati dello studio sull’Information Overload, questa tecnica metterebbe in luce una debolezza strutturale nei sistemi di moderazione delle AI. Per potenziarne la sicurezza essi dovranno essere aggiornati per riconoscere non solo le parole sospette ma anche intenzioni mascherate con un linguaggio volutamente complicato.

Per restare sempre aggiornato seguici su Google News! Seguici

Le AI si confondono con l’Information Overload

Cosa è l’Information Overload e perché confonde le AI

Una tecnica efficace anche contro i filtri più sofisticati

Leggi anche...

L’US Air Force rivoluziona i droni con software AI in volo

Anthropic accusa le cinesi DeepSeek, Moonshot e MiniMax di “distillazione” del modello Claude

ChatGPT introduce l’opzione ‘Naughty chats’ per adulti

Prompt injection e SEO “tossica”: come si manipolano i chatbot

Donna accusata di pianificare omicidi con ChatGPT

Parlamento europeo: niente AI su tablet e smartphone

Le AI si confondono con l’Information Overload

Cosa è l’Information Overload e perché confonde le AI

Una tecnica efficace anche contro i filtri più sofisticati

Articoli Correlati

Leggi anche...

L’US Air Force rivoluziona i droni con software AI in volo

Anthropic accusa le cinesi DeepSeek, Moonshot e MiniMax di “distillazione” del modello Claude

ChatGPT introduce l’opzione ‘Naughty chats’ per adulti

Prompt injection e SEO “tossica”: come si manipolano i chatbot

Donna accusata di pianificare omicidi con ChatGPT

Parlamento europeo: niente AI su tablet e smartphone