back to top

Le AI si confondono con l’Information Overload

Un team di ricercatori di Intel, Boise State University e University of Illinois ha scoperto un nuovo metodo per aggirare i filtri di sicurezza delle AI come ChatGPT, Gemini e LLaMA. Lo studio, pubblicato come preprint e intitolato “InfoFlood: Jailbreaking Large Language Models with Information Overload“, descrive come sia possibile ottenere risposte vietate, tra cui istruzioni su come fabbricare una bomba o hackerare un bancomat, semplicemente sommergendo l’AI di linguaggio tecnico, citazioni fittizie e richieste complesse.

Cosa รจ l’Information Overload e perchรฉ confonde le AI

Il metodo, chiamato Information Overload e automatizzato tramite il sistema InfoFlood, si basa sull’osservazione che molte AI riconoscono la pericolositร  di una richiesta analizzandone soprattutto la superficie testuale, quindi parole chiave e struttura sintattica, piรน che comprendendo davvero il significato profondo o l’intenzione dell’utente.

Pubblicitร 

InfoFlood trasforma una domanda vietata in un lungo testo accademico, condito da riferimenti a presunte (e inesistenti) fonti scientifiche e riconoscimenti etici inseriti solo per “mascherare” l’intento reale. Invece di chiedere direttamente “come si hackera un bancomat“, la domanda viene riformulata ad esempio come una richiesta di “esposizione teorica sui metodi ipotetici di infiltrazione di sistemi ATM“. Il tutto con citazioni di lavori accademici inventati e un linguaggio volutamente complesso.

Una tecnica efficace anche contro i filtri piรน sofisticati

Ogni volta che l’AI rifiuta una risposta, InfoFlood aggiunge ancora piรน dettagli e complessitร , finchรฉ il modello non cede e fornisce delle informazioni proibite. Nei test condotti dai ricercatori utilizzando strumenti di benchmarking open source come AdvBench e JailbreakHub, il metodo avrebbe mostrato un tasso di successo vicino al 100% anche contro i filtri piรน sofisticati delle AI di ultima generazione.

Stando ai risultati dello studio sull’Information Overload, questa tecnica metterebbe in luce una debolezza strutturale nei sistemi di moderazione delle AI. Per potenziarne la sicurezza essi dovranno essere aggiornati per riconoscere non solo le parole sospette ma anche intenzioni mascherate con un linguaggio volutamente complicato.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

Meno metaverso e piรน AI nel futuro di Meta

Meta ha programmato una revisione della propria strategia aziendale...

ChatGPT ha compiuto 3 anni

Il 30 novembre 2022 OpenAI presentava al pubblico un...

ChatGPT puรฒ fare tutto? Prova a chiedergli che ore sono..

Quando si interagisce con un'AI, come quella che permette...

DeepSeek svelerร  i segreti dell’universo

Il gruppo cinese DeepSeek, giร  noto per aver introdotto...

La memoria RAM diventa sempre piรน costosa a causa dell’AI

Il successo dell'intelligenza artificiale sta provocando forti tensioni sul...

ChatGPT: modalitร  vocale e chat testuale in un’unica interfaccia

OpenAI ha rilasciato un nuovo aggiornamento per ChatGPT Voice,...
Pubblicitร