back to top

Le AI si confondono con l’Information Overload

Un team di ricercatori di Intel, Boise State University e University of Illinois ha scoperto un nuovo metodo per aggirare i filtri di sicurezza delle AI come ChatGPT, Gemini e LLaMA. Lo studio, pubblicato come preprint e intitolato “InfoFlood: Jailbreaking Large Language Models with Information Overload“, descrive come sia possibile ottenere risposte vietate, tra cui istruzioni su come fabbricare una bomba o hackerare un bancomat, semplicemente sommergendo l’AI di linguaggio tecnico, citazioni fittizie e richieste complesse.

Cosa รจ l’Information Overload e perchรฉ confonde le AI

Il metodo, chiamato Information Overload e automatizzato tramite il sistema InfoFlood, si basa sull’osservazione che molte AI riconoscono la pericolositร  di una richiesta analizzandone soprattutto la superficie testuale, quindi parole chiave e struttura sintattica, piรน che comprendendo davvero il significato profondo o l’intenzione dell’utente.

Pubblicitร 

InfoFlood trasforma una domanda vietata in un lungo testo accademico, condito da riferimenti a presunte (e inesistenti) fonti scientifiche e riconoscimenti etici inseriti solo per “mascherare” l’intento reale. Invece di chiedere direttamente “come si hackera un bancomat“, la domanda viene riformulata ad esempio come una richiesta di “esposizione teorica sui metodi ipotetici di infiltrazione di sistemi ATM“. Il tutto con citazioni di lavori accademici inventati e un linguaggio volutamente complesso.

Una tecnica efficace anche contro i filtri piรน sofisticati

Ogni volta che l’AI rifiuta una risposta, InfoFlood aggiunge ancora piรน dettagli e complessitร , finchรฉ il modello non cede e fornisce delle informazioni proibite. Nei test condotti dai ricercatori utilizzando strumenti di benchmarking open source come AdvBench e JailbreakHub, il metodo avrebbe mostrato un tasso di successo vicino al 100% anche contro i filtri piรน sofisticati delle AI di ultima generazione.

Stando ai risultati dello studio sull’Information Overload, questa tecnica metterebbe in luce una debolezza strutturale nei sistemi di moderazione delle AI. Per potenziarne la sicurezza essi dovranno essere aggiornati per riconoscere non solo le parole sospette ma anche intenzioni mascherate con un linguaggio volutamente complicato.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

ChatGPT cancella due anni di lavoro accademico

Un grave incidente legato alla perdita dei dati avrebbe...

Microsoft: l’AI deve ancora dimostrare la sua utilitร 

Durante il World Economic Forum 2026 di Davos, Satya...

OpenAI potrebbe fallire entro il 2027, lo dicono alcuni analisti

OpenAI, uno dei principali protagonisti della corsa all'intelligenza artificiale,...

Google: i modelli di AI cinesi sono vicinissimi agli standard occidentali

Secondo Demis Hassabis, CEO di Google DeepMind e responsabile...

Google TranslateGemma: l’AI che traduce in 55 lingue differenti

Google ha presentato TranslateGemma, una nuova suite di modelli...

ChatGPT Go, l’abbonamento economico a ChatGPT

ChatGPT Go รจ un nuovo piano di abbonamento pensato...
Pubblicitร