Anthropic svela come "pensa" l'AI di Claude

Comprendere come funziona il pensiero di un’intelligenza artificiale è oggi una delle sfide più affascinanti della ricerca in ambito tecnologico. In un nuovo studio, Anthropic, la società che ha sviluppato il modello generativo Claude, ha pubblicato due lavori che aprono una finestra sul “cervello” delle AI, usando un approccio ispirato alle neuroscienze per tracciare i percorsi computazionali interni dell’LLM.

Come funziona l’intelligenza artificiale di Claude

A differenza di un software tradizionale, Claude non viene programmato direttamente. Apprende invece da enormi quantità di dati. Ciò che impara resta però spesso oscuro anche agli sviluppatori. Da qui l’idea di costruire un “microscopio dell’AI” per osservare le strategie invisibili con cui prende le sue decisioni.

I risultati sono sorprendenti. Ad esempio, Claude sembra pensare in uno “spazio concettuale universale” condiviso tra lingue differenti. Quando traduce le frasi, attiva le stesse rappresentazioni mentali, indipendentemente dalla lingua d’ingresso o d’uscita. Questo suggerisce che Claude elabora prima un significato poi lo traduce.

Inoltre sarebbe in grado di pianificare il futuro. Quando scrive delle poesie, ad esempio, sceglie in anticipo le rime e costruisce le frasi per ottenerle. Si tratterebbe di un comportamento non del tutto previsto che va oltre la dinamica parola-per-parola per cui è stato addestrato.

Gli aspetti più critici del pensiero artificiale

Secondo le conclusioni dei ricercatori, Claude a volte inventerebbe delle spiegazioni plausibili per giustificare risposte fornite in precedenza. In un test i ricercatori l’hanno colto in flagrante fornendo un indizio sbagliato mentre costruiva un ragionamento falso per supportare una tesi errata.

Lo studio rivela inoltre i meccanismi dietro ai fenomeni di allucinazione (risposte false ma plausibili) e jailbreak (manipolazioni per ottenere output non sicuri). Spesso infatti, l’AI risponde solo dopo che una rete di circuiti interni ne inibisce il rifiuto predefinito. Basterebbe quindi un errore in questi equilibri e l’output potrebbe diventare impreciso se non addirittura pericoloso.

Per restare sempre aggiornato seguici su Google News! Seguici

Anthropic svela come “pensa” l’AI di Claude

Come funziona l’intelligenza artificiale di Claude

Gli aspetti più critici del pensiero artificiale

Leggi anche...

OpenAI e Anthropic: la possibile riduzione dei prezzi dei servizi AI

Claude Fable 5 di Anthropic: l’evoluzione del vibe coding nell’AI

OpenAI e Anthropic avvertono: il rischio di armi biologiche create con AI

Anthropic si quota in borsa: la sfida con OpenAI e i nuovi sviluppi dell’IA

Big Tech si confronta con il Vaticano sull’etica dell’AI: un incontro cruciale

Bruxelles lancia l’etichetta energetica per l’IA: impatti e sfide future

Anthropic svela come “pensa” l’AI di Claude

Come funziona l’intelligenza artificiale di Claude

Gli aspetti più critici del pensiero artificiale

Articoli Correlati

Leggi anche...

OpenAI e Anthropic: la possibile riduzione dei prezzi dei servizi AI

Claude Fable 5 di Anthropic: l’evoluzione del vibe coding nell’AI

OpenAI e Anthropic avvertono: il rischio di armi biologiche create con AI

Anthropic si quota in borsa: la sfida con OpenAI e i nuovi sviluppi dell’IA

Big Tech si confronta con il Vaticano sull’etica dell’AI: un incontro cruciale

Bruxelles lancia l’etichetta energetica per l’IA: impatti e sfide future