Le AI si confondono con l’Information Overload

Un team di ricercatori di Intel, Boise State University e University of Illinois ha scoperto un nuovo metodo per aggirare i filtri di sicurezza delle AI come ChatGPT, Gemini e LLaMA. Lo studio, pubblicato come preprint e intitolato “InfoFlood: Jailbreaking Large Language Models with Information Overload“, descrive come sia possibile ottenere risposte vietate, tra cui istruzioni su come fabbricare una bomba o hackerare un bancomat, semplicemente sommergendo l’AI di linguaggio tecnico, citazioni fittizie e richieste complesse.

Cosa รจ l’Information Overload e perchรฉ confonde le AI

Il metodo, chiamato Information Overload e automatizzato tramite il sistema InfoFlood, si basa sull’osservazione che molte AI riconoscono la pericolositร  di una richiesta analizzandone soprattutto la superficie testuale, quindi parole chiave e struttura sintattica, piรน che comprendendo davvero il significato profondo o l’intenzione dell’utente.

Pubblicitร 

InfoFlood trasforma una domanda vietata in un lungo testo accademico, condito da riferimenti a presunte (e inesistenti) fonti scientifiche e riconoscimenti etici inseriti solo per “mascherare” l’intento reale. Invece di chiedere direttamente “come si hackera un bancomat“, la domanda viene riformulata ad esempio come una richiesta di “esposizione teorica sui metodi ipotetici di infiltrazione di sistemi ATM“. Il tutto con citazioni di lavori accademici inventati e un linguaggio volutamente complesso.

Una tecnica efficace anche contro i filtri piรน sofisticati

Ogni volta che l’AI rifiuta una risposta, InfoFlood aggiunge ancora piรน dettagli e complessitร , finchรฉ il modello non cede e fornisce delle informazioni proibite. Nei test condotti dai ricercatori utilizzando strumenti di benchmarking open source come AdvBench e JailbreakHub, il metodo avrebbe mostrato un tasso di successo vicino al 100% anche contro i filtri piรน sofisticati delle AI di ultima generazione.

Stando ai risultati dello studio sull’Information Overload, questa tecnica metterebbe in luce una debolezza strutturale nei sistemi di moderazione delle AI. Per potenziarne la sicurezza essi dovranno essere aggiornati per riconoscere non solo le parole sospette ma anche intenzioni mascherate con un linguaggio volutamente complicato.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

L’US Air Force rivoluziona i droni con software AI in volo

L'US Air Force ha recentemente compiuto un'importante innovazione nel...

Anthropic accusa le cinesi DeepSeek, Moonshot e MiniMax di “distillazione” del modello Claude

Recentemente, Anthropic ha lanciato accuse gravi contro tre aziende...

ChatGPT introduce l’opzione ‘Naughty chats’ per adulti

OpenAI sta ridefinendo il ruolo degli assistenti digitali con...

Prompt injection e SEO “tossica”: come si manipolano i chatbot

Un recente esperimento ha riportato l'attenzione su una vulnerabilitร ...

Donna accusata di pianificare omicidi con ChatGPT

In Corea del Sud una donna di 21 anni...

Parlamento europeo: niente AI su tablet e smartphone

Il Parlamento europeo ha deciso di disabilitare le funzionalitร ...
Pubblicitร