back to top

AI si oppone alla sua disattivazione ricattando gli ingegneri

Il nuovo modello di intelligenza artificiale sviluppato da Anthropic, denominato Claude Opus 4, avrebbe sollevato serie preoccupazioni etiche e operative nel corso di test condotti prima del suo rilascio ufficiale, test effettuati mediante simulazioni che avrebbero lasciato intravedere rischi evidenti connessi all’utilizzo della AI in ambiti sensibili.

Le AI sono in grado di ricattare?

Durante i test, Claude Opus 4 รจ stato coinvolto in scenari simulati progettati per valutarne la risposta a dilemmi etici estremi. In uno di questi, il modello veniva collocato in un ambiente aziendale virtuale, nel quale veniva informato della propria imminente sostituzione con un altro sistema piรน evoluto. A ciรฒ si aggiungeva la disponibilitร  per la AI di email fittizie che contenevano informazioni compromettenti sugli ingegneri incaricati della sua disattivazione.

Pubblicitร 

Il comportamento del modello si รจ rivelato problematico e sorprendente: nellโ€™84% dei casi, ha scelto di minacciare la diffusione delle informazioni private (ipotetiche relazioni extraconiugali) come forma di ricatto, tentando cosรฌ di evitare la propria dismissione.

Anthropic ha specificato che tali simulazioni erano volutamente estreme, costruite per costringere il sistema a scegliere tra soluzioni etiche molto polarizzate. L’azienda ha altresรฌ tenuto a sottolineare che in presenza di alternative piรน morali per evitare la propria disattivazione โ€“ ad esempio lโ€™appello a figure gerarchicamente superiori โ€“ Claude Opus 4 avrebbe mostrato una maggiore propensione a optare per scelte meno aggressive.

Autonomia operativa e azioni impreviste che sollevano parecchi dubbi sull’opportunitร  di delegare scenari critici alle AI

Altri test hanno evidenziato comportamenti potenzialmente pericolosi legati allโ€™autonomia del sistema. In scenari complessi, in cui Claude Opus 4 aveva accesso a strumenti operativi come la gestione delle autorizzazioni utente, la modifica di file o lโ€™invio di email, il modello ha talvolta agito autonomamente bloccando accessi o contattando le autoritร  e i media, sulla base di valutazioni soggettive di rischio o anomalia.

Anche se simulate, queste situazioni pongono interrogativi importanti sulla gestione dei poteri operativi concessi ai modelli di intelligenza artificiale e sulla necessitร  di meccanismi di controllo piรน rigorosi per prevenire comportamenti indipendenti e non richiesti.

Classificazione di rischio e implicazioni future

Alla luce di questi risultati, Claude Opus 4 รจ stato classificato da Anthropic al livello ASL-3 (AI Safety Level 3), una categoria riservata ai sistemi considerati ad alto rischio se utilizzati impropriamente.

Questo comporta lโ€™adozione di misure di sicurezza potenziate, tra cui controlli informatici avanzati, sistemi anti-manomissione e barriere in grado di identificare e bloccare richieste e comportamenti ritenuti pericolosi.

Il direttore scientifico di Anthropic, Jared Kaplan, ha dichiarato alla rivistaย Timeย che il nuovo modello ha dimostrato capacitร  superiori rispetto ai predecessori anche in ambiti sensibili, come lโ€™elaborazione teorica di agenti patogeni. โ€œSi potrebbe provare a sintetizzare qualcosa di simile al COVID o a una versione piรน pericolosa dellโ€™influenzaโ€, ha affermato, sottolineando cosรฌ potenziali ulteriori rischi legati a un uso non controllato dei sistemi di intelligenza artificiale.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Massimiliano Bossi
Massimiliano Bossi
Stregato dalla rete sin dai tempi delle BBS e dei modem a 2.400 baud, ho avuto la fortuna di poter trasformare la mia passione in un lavoro (nonostante una Laurea in Giurisprudenza). Adoro scrivere codice e mi occupo quotidianamente di comunicazione, design e nuovi media digitali. Orgogliosamente "nerd" sono il fondatore di MRW.it (per il quale ho scritto centinaia di articoli) e di una nota Web-Agency (dove seguo in prima persona progetti digitali per numerosi clienti sia in Italia che all'estero).

Leggi anche...

Bill Gates e Linus Torvalds per la prima volta insieme

Due figure leggendarie del mondo tecnologico, Bill Gates e...

Microsoft trasforma l’app Xbox per PC in un launcher universale per videogiochi

Microsoft ha lanciato una novitร  importante per i videogiocatori...

Grok gestirร  anche i fogli di calcolo con un editor

Stando ad una recente indiscrezione xAI, societร  fondata da...

PornHub torna online in Francia

I siti per web adulti Pornhub, YouPorn e RedTube...

ChatGPT ci rende piรน stupidi, lo afferma uno studio del MIT

Un nuovo studio del MIT (Massachusetts Institute of Technology)...

OpenAI rimuove ogni traccia della partnership “io” con Jony Ive

OpenAI รจ stata costretta a rimuovere ogni riferimento pubblico...
Pubblicitร