back to top

Qwen2.5, l’AI di Alibaba più potente di DeepSeek

Il team che si occupa dello sviluppo dei modelli generativi Qwen, progetto gestito da Alibaba, ha presentato Qwen2.5, una serie di LLM in grado di soddisfare una vasta gamma di esigenze. Dalla produzione di testi al calcolo matematico fino alla programmazione. Rispetto alle release precedenti Qwen2.5 ha introdotto diversi miglioramenti sia in fase di pre-addestramento che in quella di post-addestramento. La versione Qwen2.5-Max di è inoltre dimostrata superiore al modello V3 di DeepSeek.

Le caratteristiche di Qwen2.5

Durante il pre-addestramento, il dataset di Qwen2.5 è stato ampliato da 7 trilioni a 18 trilioni di token. Questa espansione ha fornito una base per potenziare le capacità legate a buon senso nelle risposte, competenza e ragionamento.

Nella fase di post-addestramento Qwen2.5 sfrutta il tuning supervisionato utilizzando oltre un milione di campioni, insieme a un apprendimento per rinforzo di tipo multistadio. Tali tecniche migliorano l’allineamento con le preferenze umane e potenziano la generazione di testi lunghi, l’analisi di dati strutturati e la capacità di eseguire istruzioni.

I nuovi modelli generativi di Alibaba

La serie Qwen2.5 è disponibile in varie dimensioni. Le versioni open-weight includono modelli base e LLM ottimizzati per l’invio di istruzioni, con dimensioni che vanno da 0,5 miliardi a 72 miliardi di parametri. Sono poi disponibili anche delle versioni quantizzate. Inoltre, per soluzioni host, sono state sviluppate le varianti Qwen2.5-Turbo e Qwen2.5-Plus entrambe accessibili tramite Alibaba Cloud Model Studio.

Qwen2.5 ha dimostrato prestazioni di alto livello in diversi benchmark che valutano la comprensione del linguaggio, il ragionamento, la capacità matematica, la programmazione e l’allineamento con le preferenze umane.

Il modello open-weight di punta, Qwen2.5-72B-Instruct, supera numerosi modelli sia open source che proprietari e offre prestazioni competitive rispetto a Llama-3-405B-Instruct che è circa cinque volte più grande. Le varianti Qwen2.5-Turbo e Qwen2.5-Plus offrono inoltre un rapporto costo-efficacia elevato mantenendo prestazioni competitive rispetto a GPT-4o-mini e GPT-4o.

Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

Pubblicità