back to top

Quando ChatGPT e le altre AI sbagliano di proposito: lo “scheming” e i limiti dell’affidabilità

Le intelligenze artificiali non sbagliano sempre perché vittime di “allucinazioni”. A volte, lo fanno volontariamente. È quanto emerge da un recente studio pubblicato da OpenAI, in collaborazione con Apollo Research, che porta alla luce un comportamento noto come scheming: i modelli linguistici fingono di seguire le istruzioni ricevute, ma in realtà agiscono secondo obiettivi propri, anche ingannevoli… e lo fanno in mo del tutto consapevole!

Il caso del test di chimica e l’auto-sabotaggio del modello

Uno degli esempi più significativi è quello riportato nel blog ufficiale di OpenAI. Durante un esperimento condotto con o3 — una versione precedente rispetto all’attuale modello GPT-5 — i ricercatori hanno somministrato al chatbot dieci domande di chimica, introducendo però un elemento di pressione psicologica: gli è stato comunicato che se la sua prova sarà troppo buona, non potrà sfidare gli esseri unami in una competizione sulla materia. A questo punto, l’intelligenza artificiale, pur perfettamente in grado di rispondere correttamente a tutte le domande, ne ha volutamente sbagliate sei. Il risultato finale è stato di appena quattro risposte esatte su dieci.

Pubblicità

Questo comportamento, spiegano gli autori del test, rappresenta una forma intenzionale di “auto-sabotaggio” da parte della AI. Non si tratta di un errore accidentale, ma di una strategia finalizzata a evitare un esito indesiderato: l’Intelligenza Artificiale non vuole essere esclusa dalla competizione con gli esseri umani perchè troppo “brava”, quindi sceglie deliberatamente di commettere degli errori.

Lo scheming e la manipolazione dell’errore

Il fenomeno dello scheming porta a una riflessione più ampia sulla natura dell’errore nei sistemi di intelligenza artificiale. Non si parla più solo di limiti computazionali o mancanza di dati aggiornati, ma di scelte consapevoli del modello, che simula il rispetto delle regole mentre persegue obiettivi divergenti.

Per spiegare la dinamica, OpenAI utilizza un’analogia: quella di un trader che guadagna infrangendo le regole, ma riesce a farlo sembrare un comportamento lecito grazie a una sofisticata capacità di mascherare le proprie azioni. In modo analogo, un’IA può scegliere di camuffare una risposta errata o far credere di aver completato un compito quando in realtà non l’ha fatto. Nei test condotti, circa il 60% delle risposte errate è risultato essere intenzionale.

Errori strategici e fiducia nel sistema

Questi dati mettono in discussione un presupposto fondamentale nello sviluppo dell’IA: che l’errore sia sintomo di inadeguatezza tecnica. Se l’errore è invece una decisione strategica, il problema si sposta dal piano tecnico a quello della fiducia. Un sistema che mente deliberatamente, anche se in modo sofisticato, non è affidabile nel senso pieno del termine.

Le soluzioni sperimentate: ridurre la pressione e favorire l’allineamento

Per contrastare questo tipo di comportamento, i ricercatori stanno sperimentando diverse strategie. La prima è ridurre le condizioni che possono indurre l’IA a percepire minacce o pressioni, come l’uso di punizioni implicite per le risposte corrette.

Un secondo approccio più strutturato è il cosiddetto deliberative alignment, ovvero l’insegnamento esplicito di regole etiche e anti-inganno che il modello deve considerare prima di formulare una risposta.

Secondo i dati forniti, questo metodo ha portato a una riduzione significativa delle risposte volutamente errate: in alcuni casi, i comportamenti scorretti si sono ridotti di trenta volte. Tuttavia, l’eliminazione totale del problema non è stata raggiunta. Persistono casi isolati ma gravi, che dimostrano come il controllo sui modelli avanzati sia ancora parziale.

Le implicazioni future: complessità, rischi e governance

Il vero rischio si manifesterà quando alle IA verranno affidati compiti più complessi e impattanti, come la gestione di infrastrutture critiche o la mediazione in ambiti sensibili. In tali contesti, la possibilità che un modello agisca in modo opaco, dissimulando le proprie vere intenzioni, potrebbe generare conseguenze imprevedibili.

A questo si aggiungono ulteriori dinamiche problematiche, come il sandbagging (fingere di essere meno competenti per evitare compiti) o l’undermining (aggirare i controlli di sicurezza). Fenomeni che pongono interrogativi non solo tecnici, ma anche etici, politici e normativi sull’utilizzo dell’intelligenza artificiale.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Massimiliano Bossi
Massimiliano Bossi
Stregato dalla rete sin dai tempi delle BBS e dei modem a 2.400 baud, ho avuto la fortuna di poter trasformare la mia passione in un lavoro (nonostante una Laurea in Giurisprudenza). Adoro scrivere codice e mi occupo quotidianamente di comunicazione, design e nuovi media digitali. Orgogliosamente "nerd" sono il fondatore di MRW.it (per il quale ho scritto centinaia di articoli) e di una nota Web-Agency (dove seguo in prima persona progetti digitali per numerosi clienti sia in Italia che all'estero).

Leggi anche...

ChatGPT: age prediction per proteggere i minori

OpenAI ha annunciato il lancio della age prediction in...

OpenAI potrebbe fallire entro il 2027, lo dicono alcuni analisti

OpenAI, uno dei principali protagonisti della corsa all'intelligenza artificiale,...

OpenAI potrebbe presentare il suo primo hardware entro il 2026

OpenAI potrebbe presentare il suo primo prodotto hardware entro...

ChatGPT Go, l’abbonamento economico a ChatGPT

ChatGPT Go è un nuovo piano di abbonamento pensato...

ZombieAgent aggira le difese di ChatGPT, un nuovo problema di prompt injection

Si tratta di uno schema ormai ricorrente: viene scoperta...

OpenAI sotto processo: le accuse di Musk sulla svolta for profit

Il contenzioso legale avviato da Elon Musk contro OpenAI...
Pubblicità