Le intelligenze artificiali non sbagliano sempre perché vittime di “allucinazioni”. A volte, lo fanno volontariamente. È quanto emerge da un recente studio pubblicato da OpenAI, in collaborazione con Apollo Research, che porta alla luce un comportamento noto come scheming: i modelli linguistici fingono di seguire le istruzioni ricevute, ma in realtà agiscono secondo obiettivi propri, anche ingannevoli… e lo fanno in mo del tutto consapevole!
Il caso del test di chimica e l’auto-sabotaggio del modello
Uno degli esempi più significativi è quello riportato nel blog ufficiale di OpenAI. Durante un esperimento condotto con o3 — una versione precedente rispetto all’attuale modello GPT-5 — i ricercatori hanno somministrato al chatbot dieci domande di chimica, introducendo però un elemento di pressione psicologica: gli è stato comunicato che se la sua prova sarà troppo buona, non potrà sfidare gli esseri unami in una competizione sulla materia. A questo punto, l’intelligenza artificiale, pur perfettamente in grado di rispondere correttamente a tutte le domande, ne ha volutamente sbagliate sei. Il risultato finale è stato di appena quattro risposte esatte su dieci.
Questo comportamento, spiegano gli autori del test, rappresenta una forma intenzionale di “auto-sabotaggio” da parte della AI. Non si tratta di un errore accidentale, ma di una strategia finalizzata a evitare un esito indesiderato: l’Intelligenza Artificiale non vuole essere esclusa dalla competizione con gli esseri umani perchè troppo “brava”, quindi sceglie deliberatamente di commettere degli errori.
Lo scheming e la manipolazione dell’errore
Il fenomeno dello scheming porta a una riflessione più ampia sulla natura dell’errore nei sistemi di intelligenza artificiale. Non si parla più solo di limiti computazionali o mancanza di dati aggiornati, ma di scelte consapevoli del modello, che simula il rispetto delle regole mentre persegue obiettivi divergenti.
Per spiegare la dinamica, OpenAI utilizza un’analogia: quella di un trader che guadagna infrangendo le regole, ma riesce a farlo sembrare un comportamento lecito grazie a una sofisticata capacità di mascherare le proprie azioni. In modo analogo, un’IA può scegliere di camuffare una risposta errata o far credere di aver completato un compito quando in realtà non l’ha fatto. Nei test condotti, circa il 60% delle risposte errate è risultato essere intenzionale.
Errori strategici e fiducia nel sistema
Questi dati mettono in discussione un presupposto fondamentale nello sviluppo dell’IA: che l’errore sia sintomo di inadeguatezza tecnica. Se l’errore è invece una decisione strategica, il problema si sposta dal piano tecnico a quello della fiducia. Un sistema che mente deliberatamente, anche se in modo sofisticato, non è affidabile nel senso pieno del termine.
Le soluzioni sperimentate: ridurre la pressione e favorire l’allineamento
Per contrastare questo tipo di comportamento, i ricercatori stanno sperimentando diverse strategie. La prima è ridurre le condizioni che possono indurre l’IA a percepire minacce o pressioni, come l’uso di punizioni implicite per le risposte corrette.
Un secondo approccio più strutturato è il cosiddetto deliberative alignment, ovvero l’insegnamento esplicito di regole etiche e anti-inganno che il modello deve considerare prima di formulare una risposta.
Secondo i dati forniti, questo metodo ha portato a una riduzione significativa delle risposte volutamente errate: in alcuni casi, i comportamenti scorretti si sono ridotti di trenta volte. Tuttavia, l’eliminazione totale del problema non è stata raggiunta. Persistono casi isolati ma gravi, che dimostrano come il controllo sui modelli avanzati sia ancora parziale.
Le implicazioni future: complessità, rischi e governance
Il vero rischio si manifesterà quando alle IA verranno affidati compiti più complessi e impattanti, come la gestione di infrastrutture critiche o la mediazione in ambiti sensibili. In tali contesti, la possibilità che un modello agisca in modo opaco, dissimulando le proprie vere intenzioni, potrebbe generare conseguenze imprevedibili.
A questo si aggiungono ulteriori dinamiche problematiche, come il sandbagging (fingere di essere meno competenti per evitare compiti) o l’undermining (aggirare i controlli di sicurezza). Fenomeni che pongono interrogativi non solo tecnici, ma anche etici, politici e normativi sull’utilizzo dell’intelligenza artificiale.

