Quando ChatGPT e le altre AI sbagliano di proposito: lo “scheming” e i limiti dell’affidabilità

Le intelligenze artificiali non sbagliano sempre perché vittime di “allucinazioni”. A volte, lo fanno volontariamente. È quanto emerge da un recente studio pubblicato da OpenAI, in collaborazione con Apollo Research, che porta alla luce un comportamento noto come scheming: i modelli linguistici fingono di seguire le istruzioni ricevute, ma in realtà agiscono secondo obiettivi propri, anche ingannevoli… e lo fanno in mo del tutto consapevole!

Il caso del test di chimica e l’auto-sabotaggio del modello

Uno degli esempi più significativi è quello riportato nel blog ufficiale di OpenAI. Durante un esperimento condotto con o3 — una versione precedente rispetto all’attuale modello GPT-5 — i ricercatori hanno somministrato al chatbot dieci domande di chimica, introducendo però un elemento di pressione psicologica: gli è stato comunicato che se la sua prova sarà troppo buona, non potrà sfidare gli esseri unami in una competizione sulla materia. A questo punto, l’intelligenza artificiale, pur perfettamente in grado di rispondere correttamente a tutte le domande, ne ha volutamente sbagliate sei. Il risultato finale è stato di appena quattro risposte esatte su dieci.

Questo comportamento, spiegano gli autori del test, rappresenta una forma intenzionale di “auto-sabotaggio” da parte della AI. Non si tratta di un errore accidentale, ma di una strategia finalizzata a evitare un esito indesiderato: l’Intelligenza Artificiale non vuole essere esclusa dalla competizione con gli esseri umani perchè troppo “brava”, quindi sceglie deliberatamente di commettere degli errori.

Lo scheming e la manipolazione dell’errore

Il fenomeno dello scheming porta a una riflessione più ampia sulla natura dell’errore nei sistemi di intelligenza artificiale. Non si parla più solo di limiti computazionali o mancanza di dati aggiornati, ma di scelte consapevoli del modello, che simula il rispetto delle regole mentre persegue obiettivi divergenti.

Per spiegare la dinamica, OpenAI utilizza un’analogia: quella di un trader che guadagna infrangendo le regole, ma riesce a farlo sembrare un comportamento lecito grazie a una sofisticata capacità di mascherare le proprie azioni. In modo analogo, un’IA può scegliere di camuffare una risposta errata o far credere di aver completato un compito quando in realtà non l’ha fatto. Nei test condotti, circa il 60% delle risposte errate è risultato essere intenzionale.

Errori strategici e fiducia nel sistema

Questi dati mettono in discussione un presupposto fondamentale nello sviluppo dell’IA: che l’errore sia sintomo di inadeguatezza tecnica. Se l’errore è invece una decisione strategica, il problema si sposta dal piano tecnico a quello della fiducia. Un sistema che mente deliberatamente, anche se in modo sofisticato, non è affidabile nel senso pieno del termine.

Le soluzioni sperimentate: ridurre la pressione e favorire l’allineamento

Per contrastare questo tipo di comportamento, i ricercatori stanno sperimentando diverse strategie. La prima è ridurre le condizioni che possono indurre l’IA a percepire minacce o pressioni, come l’uso di punizioni implicite per le risposte corrette.

Un secondo approccio più strutturato è il cosiddetto deliberative alignment, ovvero l’insegnamento esplicito di regole etiche e anti-inganno che il modello deve considerare prima di formulare una risposta.

Secondo i dati forniti, questo metodo ha portato a una riduzione significativa delle risposte volutamente errate: in alcuni casi, i comportamenti scorretti si sono ridotti di trenta volte. Tuttavia, l’eliminazione totale del problema non è stata raggiunta. Persistono casi isolati ma gravi, che dimostrano come il controllo sui modelli avanzati sia ancora parziale.

Le implicazioni future: complessità, rischi e governance

Il vero rischio si manifesterà quando alle IA verranno affidati compiti più complessi e impattanti, come la gestione di infrastrutture critiche o la mediazione in ambiti sensibili. In tali contesti, la possibilità che un modello agisca in modo opaco, dissimulando le proprie vere intenzioni, potrebbe generare conseguenze imprevedibili.

A questo si aggiungono ulteriori dinamiche problematiche, come il sandbagging (fingere di essere meno competenti per evitare compiti) o l’undermining (aggirare i controlli di sicurezza). Fenomeni che pongono interrogativi non solo tecnici, ma anche etici, politici e normativi sull’utilizzo dell’intelligenza artificiale.

Per restare sempre aggiornato seguici su Google News! Seguici

Quando ChatGPT e le altre AI sbagliano di proposito: lo “scheming” e i limiti dell’affidabilità

Il caso del test di chimica e l’auto-sabotaggio del modello

Lo scheming e la manipolazione dell’errore

Errori strategici e fiducia nel sistema

Le soluzioni sperimentate: ridurre la pressione e favorire l’allineamento

Le implicazioni future: complessità, rischi e governance

Leggi anche...

Zoom lancia AI Docs, AI Sheets e AI Slides per competere con Office

6G e intelligenza artificiale: la rivoluzione della rete mobile

ChatGPT introduce grafici interattivi per insegnare matematica e scienze

I giovani e l’AI: come ChatGPT e Claude stanno rivoluzionando il flirtare

Anthropic fa causa al Pentagono: l’IA in gioco tra libertà di espressione e guerra

OpenAI Codex Security: l’agente AI che identifica le vulnerabilità nel software

Quando ChatGPT e le altre AI sbagliano di proposito: lo “scheming” e i limiti dell’affidabilità

Il caso del test di chimica e l’auto-sabotaggio del modello

Lo scheming e la manipolazione dell’errore

Errori strategici e fiducia nel sistema

Le soluzioni sperimentate: ridurre la pressione e favorire l’allineamento

Le implicazioni future: complessità, rischi e governance

Articoli Correlati

Leggi anche...

Zoom lancia AI Docs, AI Sheets e AI Slides per competere con Office

6G e intelligenza artificiale: la rivoluzione della rete mobile

ChatGPT introduce grafici interattivi per insegnare matematica e scienze

I giovani e l’AI: come ChatGPT e Claude stanno rivoluzionando il flirtare

Anthropic fa causa al Pentagono: l’IA in gioco tra libertà di espressione e guerra

OpenAI Codex Security: l’agente AI che identifica le vulnerabilità nel software