In un recente esperimento Anthropic ha utilizzato sedici istanze del modello Claude Opus 4.6 per sviluppare un compilatore C completamente funzionante. Il progetto, supervisionato dal ricercatore Nicholas Carlini, ha richiesto due settimane di lavoro e circa 20.000 dollari di costi in API.
Gli agenti di Claude hanno creato un team (da soli)
Gli agenti AI, ognuno eseguito in un container Docker, hanno cooperato su un repository Git condiviso senza un coordinatore centrale. Ognuno ha selezionato in autonomia i compiti da svolgere, risolto conflitti di merge e integrato il codice prodotto dagli altri. Il risultato è stato un compilatore scritto in Rust capace di generare un kernel Linux 6.9 avviabile su architetture x86, ARM e RISC-V, con un tasso di successo del 99% nei test GCC e la capacità di compilare e far girare Doom.
Il compilatore presenta però diverse limitazioni. Manca di un backend a 16 bit per l’avvio in real mode e deve quindi ricorrere a GCC per alcune fasi. L’assembler e il linker interni sono ancora instabili e il codice generato risulta meno efficiente rispetto a GCC anche con tutte le ottimizzazioni attivate. Il progetto ha comunque spinto Claude ai limiti delle sue capacità , con continue regressioni ogni volta che si introducevano nuove funzionalità .
Anthropic ha messo in evidenza quanto lavoro sia stato necessario per mantenere la coerenza del sistema. Oltre al codice del compilatore, ha dovuto costruire pipeline di integrazione continua, sistemi di test ottimizzati e meccanismi di controllo per evitare che l’AI perdesse il contesto o restasse bloccata sugli errori più ripetitivi.
Il limite delle 100.000 righe di codice
La compagnia ha descritto il progetto come una clean-room implementation ma la definizione è già stata contestata. Il modello è stato addestrato su enormi quantità di codice open source, probabilmente includendo GCC e Clang. In pratica, il lavoro non è stato indipendente dalle conoscenze già inglobate nel modello.
L’esperimento ha mostrato infine un limite importante per lo sviluppo software in un contesto multi-agente: oltre le 100.000 righe di codice la coerenza del sistema inizia a collassare. La supervisione umana continua quindi ad essere fondamentale.

