DeepSeek, una startup cinese specializzata in soluzioni di intelligenza artificiale, ha annunciato il rilascio di DeepSeek-R1. Un modello generativo avanzato sviluppato per eccellere in compiti di ragionamento complessi. Questo LLM (Large Language Model) è stato sviluppato attraverso un processo di apprendimento per rinforzo su larga scala, senza l’uso preliminare di fine-tuning supervisionato. Una tecnica che ha portato all’emergere di potenti capacità di ragionamento.
DeepSeek-R1 è un modello Open Source
La versione iniziale del progetto, che prendeva il nome di DeepSeek-R1-Zero, presentava alcune limitazioni tra cui per esempio ripetizioni infinite, scarsa leggibilità degli output e una mescolanza di lingue differenti. Per superare queste criticità e migliorare ulteriormente le prestazioni del sistema, DeepSeek ha lanciato DeepSeek-R1 che incorpora dati di avvio “a freddo” prima dell’apprendimento per rinforzo.
Questo approccio ha permesso al modello di raggiungere prestazioni comparabili a quelle di OpenAI-o1 in compiti di matematica, programmazione e ragionamento. Per supportare la ricerca DeepSeek ha poi reso open source sia DeepSeek-R1-Zero che DeepSeek-R1. Questo insieme a sei modelli distillati dal secondo e basati su soluzioni come Llama e Qwen.
La decisione di rendere il modello libero e aperto sotto licenza MIT aperta garantisce una maggiore accessibilità per la comunità di ricerca e sviluppo e promuove ulteriori innovazioni nel campo dell’AI. Questa scelta contrasta con le pratiche usate per molti modelli avanzati che spesso sono accessibili soltanto tramite licenze commerciali o abbonamenti a pagamento.
La Cina si propone come protagonista dell’AI
DeepSeek-R1 è stato progettato per eccellere in compiti che richiedono capacità di ragionamento avanzate, come la risoluzione di problemi matematici complessi e la scrittura di codice. Questo dimostra che la Cina sta rapidamente colmando il divario con i leader del settore negli Stati Uniti. Un aspetto distintivo del modello R1 è la sua disponibilità gratuita. Fattore che potrebbe accelerare ulteriormente la ricerca e l’innovazione nel campo dell’intelligenza artificiale.