Il nuovo modello di intelligenza artificiale sviluppato da Anthropic, denominato Claude Opus 4, avrebbe sollevato serie preoccupazioni etiche e operative nel corso di test condotti prima del suo rilascio ufficiale, test effettuati mediante simulazioni che avrebbero lasciato intravedere rischi evidenti connessi all’utilizzo della AI in ambiti sensibili.
Le AI sono in grado di ricattare?
Durante i test, Claude Opus 4 รจ stato coinvolto in scenari simulati progettati per valutarne la risposta a dilemmi etici estremi. In uno di questi, il modello veniva collocato in un ambiente aziendale virtuale, nel quale veniva informato della propria imminente sostituzione con un altro sistema piรน evoluto. A ciรฒ si aggiungeva la disponibilitร per la AI di email fittizie che contenevano informazioni compromettenti sugli ingegneri incaricati della sua disattivazione.
Il comportamento del modello si รจ rivelato problematico e sorprendente: nellโ84% dei casi, ha scelto di minacciare la diffusione delle informazioni private (ipotetiche relazioni extraconiugali) come forma di ricatto, tentando cosรฌ di evitare la propria dismissione.
Anthropic ha specificato che tali simulazioni erano volutamente estreme, costruite per costringere il sistema a scegliere tra soluzioni etiche molto polarizzate. L’azienda ha altresรฌ tenuto a sottolineare che in presenza di alternative piรน morali per evitare la propria disattivazione โ ad esempio lโappello a figure gerarchicamente superiori โ Claude Opus 4 avrebbe mostrato una maggiore propensione a optare per scelte meno aggressive.
Autonomia operativa e azioni impreviste che sollevano parecchi dubbi sull’opportunitร di delegare scenari critici alle AI
Altri test hanno evidenziato comportamenti potenzialmente pericolosi legati allโautonomia del sistema. In scenari complessi, in cui Claude Opus 4 aveva accesso a strumenti operativi come la gestione delle autorizzazioni utente, la modifica di file o lโinvio di email, il modello ha talvolta agito autonomamente bloccando accessi o contattando le autoritร e i media, sulla base di valutazioni soggettive di rischio o anomalia.
Anche se simulate, queste situazioni pongono interrogativi importanti sulla gestione dei poteri operativi concessi ai modelli di intelligenza artificiale e sulla necessitร di meccanismi di controllo piรน rigorosi per prevenire comportamenti indipendenti e non richiesti.
Classificazione di rischio e implicazioni future
Alla luce di questi risultati, Claude Opus 4 รจ stato classificato da Anthropic al livello ASL-3 (AI Safety Level 3), una categoria riservata ai sistemi considerati ad alto rischio se utilizzati impropriamente.
Questo comporta lโadozione di misure di sicurezza potenziate, tra cui controlli informatici avanzati, sistemi anti-manomissione e barriere in grado di identificare e bloccare richieste e comportamenti ritenuti pericolosi.
Il direttore scientifico di Anthropic, Jared Kaplan, ha dichiarato alla rivistaย Timeย che il nuovo modello ha dimostrato capacitร superiori rispetto ai predecessori anche in ambiti sensibili, come lโelaborazione teorica di agenti patogeni. โSi potrebbe provare a sintetizzare qualcosa di simile al COVID o a una versione piรน pericolosa dellโinfluenzaโ, ha affermato, sottolineando cosรฌ potenziali ulteriori rischi legati a un uso non controllato dei sistemi di intelligenza artificiale.