Claude crea un compilatore C da zero con gli agenti

In un recente esperimento Anthropic ha utilizzato sedici istanze del modello Claude Opus 4.6 per sviluppare un compilatore C completamente funzionante. Il progetto, supervisionato dal ricercatore Nicholas Carlini, ha richiesto due settimane di lavoro e circa 20.000 dollari di costi in API.

Gli agenti di Claude hanno creato un team (da soli)

Gli agenti AI, ognuno eseguito in un container Docker, hanno cooperato su un repository Git condiviso senza un coordinatore centrale. Ognuno ha selezionato in autonomia i compiti da svolgere, risolto conflitti di merge e integrato il codice prodotto dagli altri. Il risultato è stato un compilatore scritto in Rust capace di generare un kernel Linux 6.9 avviabile su architetture x86, ARM e RISC-V, con un tasso di successo del 99% nei test GCC e la capacità di compilare e far girare Doom.

Pubblicità

Il compilatore presenta però diverse limitazioni. Manca di un backend a 16 bit per l’avvio in real mode e deve quindi ricorrere a GCC per alcune fasi. L’assembler e il linker interni sono ancora instabili e il codice generato risulta meno efficiente rispetto a GCC anche con tutte le ottimizzazioni attivate. Il progetto ha comunque spinto Claude ai limiti delle sue capacità, con continue regressioni ogni volta che si introducevano nuove funzionalità.

Anthropic ha messo in evidenza quanto lavoro sia stato necessario per mantenere la coerenza del sistema. Oltre al codice del compilatore, ha dovuto costruire pipeline di integrazione continua, sistemi di test ottimizzati e meccanismi di controllo per evitare che l’AI perdesse il contesto o restasse bloccata sugli errori più ripetitivi.

Il limite delle 100.000 righe di codice

La compagnia ha descritto il progetto come una clean-room implementation ma la definizione è già stata contestata. Il modello è stato addestrato su enormi quantità di codice open source, probabilmente includendo GCC e Clang. In pratica, il lavoro non è stato indipendente dalle conoscenze già inglobate nel modello.

L’esperimento ha mostrato infine un limite importante per lo sviluppo software in un contesto multi-agente: oltre le 100.000 righe di codice la coerenza del sistema inizia a collassare. La supervisione umana continua quindi ad essere fondamentale.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

OpenAI rinvia la modalità adulti di ChatGPT: nuove priorità per l’IA

OpenAI ha recentemente annunciato un ulteriore rinvio della modalità...

L’impatto dell’IA sul lavoro: analisi di Anthropic dopo ChatGPT

Con l'emergere di ChatGPT alla fine del 2022, la...

L’AI di Anthropic e il suo ruolo nei raid Usa contro l’Iran

L'uso dell'intelligenza artificiale (AI) in contesti militari sta suscitando...

OpenAI lancia Gpt-5.3 Instant: la sfida con Anthropic si intensifica

La competizione tra OpenAI e Anthropic si fa sempre...

Anthropic si oppone al Pentagono: l’AI e le sfide etiche della sorveglianza

Recentemente, la questione dell'uso dell'intelligenza artificiale (IA) in contesti...

Claude Code introduce la modalità vocale: l’AI di Anthropic si evolve

Recentemente, Anthropic ha introdotto una significativa novità nel suo...
PubblicitÃ