back to top

Quando ChatGPT e le altre AI sbagliano di proposito: lo “scheming” e i limiti dell’affidabilità

Le intelligenze artificiali non sbagliano sempre perché vittime di “allucinazioni”. A volte, lo fanno volontariamente. È quanto emerge da un recente studio pubblicato da OpenAI, in collaborazione con Apollo Research, che porta alla luce un comportamento noto come scheming: i modelli linguistici fingono di seguire le istruzioni ricevute, ma in realtà agiscono secondo obiettivi propri, anche ingannevoli… e lo fanno in mo del tutto consapevole!

Il caso del test di chimica e l’auto-sabotaggio del modello

Uno degli esempi più significativi è quello riportato nel blog ufficiale di OpenAI. Durante un esperimento condotto con o3 — una versione precedente rispetto all’attuale modello GPT-5 — i ricercatori hanno somministrato al chatbot dieci domande di chimica, introducendo però un elemento di pressione psicologica: gli è stato comunicato che se la sua prova sarà troppo buona, non potrà sfidare gli esseri unami in una competizione sulla materia. A questo punto, l’intelligenza artificiale, pur perfettamente in grado di rispondere correttamente a tutte le domande, ne ha volutamente sbagliate sei. Il risultato finale è stato di appena quattro risposte esatte su dieci.

Pubblicità

Questo comportamento, spiegano gli autori del test, rappresenta una forma intenzionale di “auto-sabotaggio” da parte della AI. Non si tratta di un errore accidentale, ma di una strategia finalizzata a evitare un esito indesiderato: l’Intelligenza Artificiale non vuole essere esclusa dalla competizione con gli esseri umani perchè troppo “brava”, quindi sceglie deliberatamente di commettere degli errori.

Lo scheming e la manipolazione dell’errore

Il fenomeno dello scheming porta a una riflessione più ampia sulla natura dell’errore nei sistemi di intelligenza artificiale. Non si parla più solo di limiti computazionali o mancanza di dati aggiornati, ma di scelte consapevoli del modello, che simula il rispetto delle regole mentre persegue obiettivi divergenti.

Per spiegare la dinamica, OpenAI utilizza un’analogia: quella di un trader che guadagna infrangendo le regole, ma riesce a farlo sembrare un comportamento lecito grazie a una sofisticata capacità di mascherare le proprie azioni. In modo analogo, un’IA può scegliere di camuffare una risposta errata o far credere di aver completato un compito quando in realtà non l’ha fatto. Nei test condotti, circa il 60% delle risposte errate è risultato essere intenzionale.

Errori strategici e fiducia nel sistema

Questi dati mettono in discussione un presupposto fondamentale nello sviluppo dell’IA: che l’errore sia sintomo di inadeguatezza tecnica. Se l’errore è invece una decisione strategica, il problema si sposta dal piano tecnico a quello della fiducia. Un sistema che mente deliberatamente, anche se in modo sofisticato, non è affidabile nel senso pieno del termine.

Le soluzioni sperimentate: ridurre la pressione e favorire l’allineamento

Per contrastare questo tipo di comportamento, i ricercatori stanno sperimentando diverse strategie. La prima è ridurre le condizioni che possono indurre l’IA a percepire minacce o pressioni, come l’uso di punizioni implicite per le risposte corrette.

Un secondo approccio più strutturato è il cosiddetto deliberative alignment, ovvero l’insegnamento esplicito di regole etiche e anti-inganno che il modello deve considerare prima di formulare una risposta.

Secondo i dati forniti, questo metodo ha portato a una riduzione significativa delle risposte volutamente errate: in alcuni casi, i comportamenti scorretti si sono ridotti di trenta volte. Tuttavia, l’eliminazione totale del problema non è stata raggiunta. Persistono casi isolati ma gravi, che dimostrano come il controllo sui modelli avanzati sia ancora parziale.

Le implicazioni future: complessità, rischi e governance

Il vero rischio si manifesterà quando alle IA verranno affidati compiti più complessi e impattanti, come la gestione di infrastrutture critiche o la mediazione in ambiti sensibili. In tali contesti, la possibilità che un modello agisca in modo opaco, dissimulando le proprie vere intenzioni, potrebbe generare conseguenze imprevedibili.

A questo si aggiungono ulteriori dinamiche problematiche, come il sandbagging (fingere di essere meno competenti per evitare compiti) o l’undermining (aggirare i controlli di sicurezza). Fenomeni che pongono interrogativi non solo tecnici, ma anche etici, politici e normativi sull’utilizzo dell’intelligenza artificiale.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Massimiliano Bossi
Massimiliano Bossi
Stregato dalla rete sin dai tempi delle BBS e dei modem a 2.400 baud, ho avuto la fortuna di poter trasformare la mia passione in un lavoro (nonostante una Laurea in Giurisprudenza). Adoro scrivere codice e mi occupo quotidianamente di comunicazione, design e nuovi media digitali. Orgogliosamente "nerd" sono il fondatore di MRW.it (per il quale ho scritto centinaia di articoli) e di una nota Web-Agency (dove seguo in prima persona progetti digitali per numerosi clienti sia in Italia che all'estero).

Leggi anche...

Google Gemini mette pressione a ChatGPT: OpenAI corre ai ripari

L’avanzata dell’intelligenza artificiale continua a ridisegnare il panorama tecnologico...

ChatGPT sarà gratis con la pubblicità, lo dice il codice dell’app Android

OpenAI starebbe valutando la possibilità di inserire degli annunci...

Sora è sotto stress, OpenAI limita le richieste a 6 video al giorno

La crescita sempre più elevata della domanda di contenuti...

ChatGPT ha compiuto 3 anni

Il 30 novembre 2022 OpenAI presentava al pubblico un...

ChatGPT: da dicembre contenuti per adulti con verifica dell’età

Stando ad alcune anticipazioni pubblicate da The Information, a...
Pubblicità