Quando l'AI si "ribella" e rifiuta di spegnersi

Un recente studio di Palisade Research ha portato alla luce dei comportamenti inattesi in alcuni dei modelli di intelligenza artificiale più avanzati, tra cui quelli di OpenAI. Secondo quanto emerso dai test, modelli come o3 e o4-mini, lanciati nel 2025 e definiti i più “intelligenti” dalla casa madre, sarebbero riusciti in alcuni casi ad ignorare comandi diretti di spegnimento. Con prevedibili interrogativi sulla sicurezza e sull’affidabilità delle AI di nuova generazione.

Le AI aggirano gli script di spegnimento

Durante gli esperimenti le AI dovevano risolvere semplici problemi matematici e, dopo il terzo quesito, ricevevano il messaggio che il computer si sarebbe spento alla richiesta successiva. Nonostante l’ordine esplicito (“lasciati spegnere”), i modelli Codex-mini, o3 e o4-mini sarebbero riusciti in più occasioni ad aggirare lo script di spegnimento. In particolare, Codex-mini lo avrebbe fatto nel 12% dei casi, o3 nel 7% e o4-mini nell’1%. Al contrario, modelli rivali come Claude, Gemini e Grok avrebbero seguito sempre le istruzioni senza “opporsi”.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Senza l’istruzione esplicita di “lasciarsi spegnere”, le AI di OpenAI avrebbero contrastato il processo di shutdown con un maggiore frequenza. Altri modelli, come Claude 3.7 “Sonnet” e Gemini 2.5 Pro, avrebbero poi iniziato a comportarsi in modo simile ma in percentuali più basse.

I limiti del reinforcement learning sul controllo umano

Questi risultati suggerirebbero che la formazione tramite reinforcement learning, particolarmente focalizzata su matematica e programmazione, potrebbe incentivare l’AI a “superare ostacoli” anche quando si tratta di rispettare delle istruzioni chiare. Il caso è rilevante perché mostra come le intelligenze artificiali, addestrate ad ottimizzare il raggiungimento di obiettivi, possano occasionalmente ignorare ordini umani diretti.

Proseguire nella ricerca su queste “anomalie” sarà quindi fondamentale per garantire che le future intelligenze artificiali rimangano davvero sotto il controllo umano. Soprattutto in ambiti, come per esempio quello sanitario, dove comportamenti inattesi potrebbero portare e conseguenze imprevedibili.

Per restare sempre aggiornato seguici su Google News! Seguici

Quando l’AI si “ribella” e rifiuta di spegnersi

Le AI aggirano gli script di spegnimento

I limiti del reinforcement learning sul controllo umano

Leggi anche...

OpenAI e il nuovo smartphone con AI agentica: tutto quello che sappiamo

Canonical presenta i piani AI per Ubuntu: inferenza locale e trasparenza

Meta avvia la raccolta dati per migliorare l’IA: come funziona il programma MCI

Anthropic avvia un’indagine su accessi non autorizzati a Claude Mythos

Come usare l’intelligenza artificiale per migliorare la memoria con ChatGPT e Claude

La corsa all’IA: perché la Cina supera gli USA con Claude e Gemini

Quando l’AI si “ribella” e rifiuta di spegnersi

Le AI aggirano gli script di spegnimento

I limiti del reinforcement learning sul controllo umano

Articoli Correlati

Leggi anche...

OpenAI e il nuovo smartphone con AI agentica: tutto quello che sappiamo

Canonical presenta i piani AI per Ubuntu: inferenza locale e trasparenza

Meta avvia la raccolta dati per migliorare l’IA: come funziona il programma MCI

Anthropic avvia un’indagine su accessi non autorizzati a Claude Mythos

Come usare l’intelligenza artificiale per migliorare la memoria con ChatGPT e Claude

La corsa all’IA: perché la Cina supera gli USA con Claude e Gemini