Quando l’AI si “ribella” e rifiuta di spegnersi

Un recente studio di Palisade Research ha portato alla luce dei comportamenti inattesi in alcuni dei modelli di intelligenza artificiale piรน avanzati, tra cui quelli di OpenAI. Secondo quanto emerso dai test, modelli come o3 e o4-mini, lanciati nel 2025 e definiti i piรน “intelligenti” dalla casa madre, sarebbero riusciti in alcuni casi ad ignorare comandi diretti di spegnimento. Con prevedibili interrogativi sulla sicurezza e sull’affidabilitร  delle AI di nuova generazione.

Le AI aggirano gli script di spegnimento

Durante gli esperimenti le AI dovevano risolvere semplici problemi matematici e, dopo il terzo quesito, ricevevano il messaggio che il computer si sarebbe spento alla richiesta successiva. Nonostante l’ordine esplicito (“lasciati spegnere”), i modelli Codex-mini, o3 e o4-mini sarebbero riusciti in piรน occasioni ad aggirare lo script di spegnimento. In particolare, Codex-mini lo avrebbe fatto nel 12% dei casi, o3 nel 7% e o4-mini nell’1%. Al contrario, modelli rivali come Claude, Gemini e Grok avrebbero seguito sempre le istruzioni senza “opporsi”.

Pubblicitร 

Senza l’istruzione esplicita di “lasciarsi spegnere”, le AI di OpenAI avrebbero contrastato il processo di shutdown con un maggiore frequenza. Altri modelli, come Claude 3.7 “Sonnet” e Gemini 2.5 Pro, avrebbero poi iniziato a comportarsi in modo simile ma in percentuali piรน basse.

I limiti del reinforcement learning sul controllo umano

Questi risultati suggerirebbero che la formazione tramite reinforcement learning, particolarmente focalizzata su matematica e programmazione, potrebbe incentivare l’AI a “superare ostacoli” anche quando si tratta di rispettare delle istruzioni chiare. Il caso รจ rilevante perchรฉ mostra come le intelligenze artificiali, addestrate ad ottimizzare il raggiungimento di obiettivi, possano occasionalmente ignorare ordini umani diretti.

Proseguire nella ricerca su queste “anomalie” sarร  quindi fondamentale per garantire che le future intelligenze artificiali rimangano davvero sotto il controllo umano. Soprattutto in ambiti, come per esempio quello sanitario, dove comportamenti inattesi potrebbero portare e conseguenze imprevedibili.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

OpenAI e il nuovo smartphone con AI agentica: tutto quello che sappiamo

OpenAI, nota per i suoi sviluppi pionieristici nel campo...

Canonical presenta i piani AI per Ubuntu: inferenza locale e trasparenza

Canonical, la societร  dietro la popolare distribuzione Linux Ubuntu,...

Meta avvia la raccolta dati per migliorare l’IA: come funziona il programma MCI

Meta ha lanciato un ambizioso programma di raccolta dati...

Anthropic avvia un’indagine su accessi non autorizzati a Claude Mythos

Recenti eventi hanno messo in luce le vulnerabilitร  legate...

Come usare l’intelligenza artificiale per migliorare la memoria con ChatGPT e Claude

Lโ€™impiego dellโ€™intelligenza artificiale (IA) sta rapidamente cambiando il nostro...

La corsa all’IA: perchรฉ la Cina supera gli USA con Claude e Gemini

La competizione globale nell'intelligenza artificiale (IA) ha visto la...
Pubblicitร