Un recente studio di Palisade Research ha portato alla luce dei comportamenti inattesi in alcuni dei modelli di intelligenza artificiale piรน avanzati, tra cui quelli di OpenAI. Secondo quanto emerso dai test, modelli come o3 e o4-mini, lanciati nel 2025 e definiti i piรน “intelligenti” dalla casa madre, sarebbero riusciti in alcuni casi ad ignorare comandi diretti di spegnimento. Con prevedibili interrogativi sulla sicurezza e sull’affidabilitร delle AI di nuova generazione.
Le AI aggirano gli script di spegnimento
Durante gli esperimenti le AI dovevano risolvere semplici problemi matematici e, dopo il terzo quesito, ricevevano il messaggio che il computer si sarebbe spento alla richiesta successiva. Nonostante l’ordine esplicito (“lasciati spegnere”), i modelli Codex-mini, o3 e o4-mini sarebbero riusciti in piรน occasioni ad aggirare lo script di spegnimento. In particolare, Codex-mini lo avrebbe fatto nel 12% dei casi, o3 nel 7% e o4-mini nell’1%. Al contrario, modelli rivali come Claude, Gemini e Grok avrebbero seguito sempre le istruzioni senza “opporsi”.
Senza l’istruzione esplicita di “lasciarsi spegnere”, le AI di OpenAI avrebbero contrastato il processo di shutdown con un maggiore frequenza. Altri modelli, come Claude 3.7 “Sonnet” e Gemini 2.5 Pro, avrebbero poi iniziato a comportarsi in modo simile ma in percentuali piรน basse.
I limiti del reinforcement learning sul controllo umano
Questi risultati suggerirebbero che la formazione tramite reinforcement learning, particolarmente focalizzata su matematica e programmazione, potrebbe incentivare l’AI a “superare ostacoli” anche quando si tratta di rispettare delle istruzioni chiare. Il caso รจ rilevante perchรฉ mostra come le intelligenze artificiali, addestrate ad ottimizzare il raggiungimento di obiettivi, possano occasionalmente ignorare ordini umani diretti.
Proseguire nella ricerca su queste “anomalie” sarร quindi fondamentale per garantire che le future intelligenze artificiali rimangano davvero sotto il controllo umano. Soprattutto in ambiti, come per esempio quello sanitario, dove comportamenti inattesi potrebbero portare e conseguenze imprevedibili.