AI si oppone alla sua disattivazione ricattando gli ingegneri

Il nuovo modello di intelligenza artificiale sviluppato da Anthropic, denominato Claude Opus 4, avrebbe sollevato serie preoccupazioni etiche e operative nel corso di test condotti prima del suo rilascio ufficiale, test effettuati mediante simulazioni che avrebbero lasciato intravedere rischi evidenti connessi all’utilizzo della AI in ambiti sensibili.

Le AI sono in grado di ricattare?

Durante i test, Claude Opus 4 è stato coinvolto in scenari simulati progettati per valutarne la risposta a dilemmi etici estremi. In uno di questi, il modello veniva collocato in un ambiente aziendale virtuale, nel quale veniva informato della propria imminente sostituzione con un altro sistema più evoluto. A ciò si aggiungeva la disponibilità per la AI di email fittizie che contenevano informazioni compromettenti sugli ingegneri incaricati della sua disattivazione.

Il comportamento del modello si è rivelato problematico e sorprendente: nell’84% dei casi, ha scelto di minacciare la diffusione delle informazioni private (ipotetiche relazioni extraconiugali) come forma di ricatto, tentando così di evitare la propria dismissione.

Anthropic ha specificato che tali simulazioni erano volutamente estreme, costruite per costringere il sistema a scegliere tra soluzioni etiche molto polarizzate. L’azienda ha altresì tenuto a sottolineare che in presenza di alternative più morali per evitare la propria disattivazione – ad esempio l’appello a figure gerarchicamente superiori – Claude Opus 4 avrebbe mostrato una maggiore propensione a optare per scelte meno aggressive.

Autonomia operativa e azioni impreviste che sollevano parecchi dubbi sull’opportunità di delegare scenari critici alle AI

Altri test hanno evidenziato comportamenti potenzialmente pericolosi legati all’autonomia del sistema. In scenari complessi, in cui Claude Opus 4 aveva accesso a strumenti operativi come la gestione delle autorizzazioni utente, la modifica di file o l’invio di email, il modello ha talvolta agito autonomamente bloccando accessi o contattando le autorità e i media, sulla base di valutazioni soggettive di rischio o anomalia.

Anche se simulate, queste situazioni pongono interrogativi importanti sulla gestione dei poteri operativi concessi ai modelli di intelligenza artificiale e sulla necessità di meccanismi di controllo più rigorosi per prevenire comportamenti indipendenti e non richiesti.

Classificazione di rischio e implicazioni future

Alla luce di questi risultati, Claude Opus 4 è stato classificato da Anthropic al livello ASL-3 (AI Safety Level 3), una categoria riservata ai sistemi considerati ad alto rischio se utilizzati impropriamente.

Questo comporta l’adozione di misure di sicurezza potenziate, tra cui controlli informatici avanzati, sistemi anti-manomissione e barriere in grado di identificare e bloccare richieste e comportamenti ritenuti pericolosi.

Il direttore scientifico di Anthropic, Jared Kaplan, ha dichiarato alla rivista Time che il nuovo modello ha dimostrato capacità superiori rispetto ai predecessori anche in ambiti sensibili, come l’elaborazione teorica di agenti patogeni. “Si potrebbe provare a sintetizzare qualcosa di simile al COVID o a una versione più pericolosa dell’influenza”, ha affermato, sottolineando così potenziali ulteriori rischi legati a un uso non controllato dei sistemi di intelligenza artificiale.

Per restare sempre aggiornato seguici su Google News! Seguici

AI si oppone alla sua disattivazione ricattando gli ingegneri

Le AI sono in grado di ricattare?

Autonomia operativa e azioni impreviste che sollevano parecchi dubbi sull’opportunità di delegare scenari critici alle AI

Classificazione di rischio e implicazioni future

Leggi anche...

Truffe online: ChatGPT e il rischio di consigli falsi per acquisti

L’AI di Google Documenti: come la dettatura vocale trasforma la scrittura

The Social Reckoning: il nuovo film su Facebook e Zuckerberg

OpenAI e Anthropic: la possibile riduzione dei prezzi dei servizi AI

Instagram introduce “Your Algorithm”: il controllo degli utenti nel feed

Jeff Bezos presenta Prometheus, l’AI per la progettazione industriale

AI si oppone alla sua disattivazione ricattando gli ingegneri

Le AI sono in grado di ricattare?

Autonomia operativa e azioni impreviste che sollevano parecchi dubbi sull’opportunità di delegare scenari critici alle AI

Classificazione di rischio e implicazioni future

Articoli Correlati

Leggi anche...

Truffe online: ChatGPT e il rischio di consigli falsi per acquisti

L’AI di Google Documenti: come la dettatura vocale trasforma la scrittura

The Social Reckoning: il nuovo film su Facebook e Zuckerberg

OpenAI e Anthropic: la possibile riduzione dei prezzi dei servizi AI

Instagram introduce “Your Algorithm”: il controllo degli utenti nel feed

Jeff Bezos presenta Prometheus, l’AI per la progettazione industriale