R1-Omni: l'AI di Alibaba che interpreta le emozioni umane

Il team Tongyi Lab di Alibaba ha annunciato il rilascio sotto licenza open source del suo ultimo modello multimodale, R1-Omni. Questo modello utilizza il Reinforcement Learning con Ricompense Verificabili (Reinforcement Learning with Verifiable Rewards o RLVR) e offre capacità avanzate nell’elaborazione di informazioni da audio e video. Una delle sue caratteristiche principali è la trasparenza che permette di comprendere meglio il contributo di ogni modalità nel processo decisionale, soprattutto in compiti come il riconoscimento delle emozioni umane.

Come è stato sviluppato R1-Omni

Con il lancio di DeepSeek R1 il potenziale del reinforcement learning nei modelli di grandi dimensioni ha avuto una forte accelerazione. Il metodo RLVR introduce nuove modalità di ottimizzazione per gestire compiti complessi come il ragionamento geometrico e il conteggio visivo. Mentre la ricerca attuale si concentra principalmente sulla combinazione di immagini e testo, questo progetto amplia il contesto di applicazione combinando RLVR con un modello video multimodale completo.

Attraverso l’RLVR R1-Omni rende più intuitivo il ruolo delle informazioni nell’audio e nel video. Nei compiti legati al riconoscimento delle emozioni, ad esempio, il modello evidenzia con precisione i segnali chiave utilizzati per il giudizio emotivo dimostrandosi particolarmente affidabile e preciso.

I risultati dei benchmark

Per verificare le prestazioni, il team di Tongyi Lab ha confrontato R1-Omni con il modello originale HumanOmni-0.5B. I risultati avrebbero mostrato un incremento superiore al 35% sui dataset DFEW (Dynamic Facial Expression in-the-Wild) e MAFW (uno dei più grandi database per il riconoscimento facciale).

Inoltre, rispetto ai modelli tradizionali di Supervised Fine-Tuning (SFT), R1-Omni ha migliorato le prestazioni in apprendimento non supervisionato di oltre il 10%. Nei test su distribuzioni diverse, come il dataset RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), ha dimostrato infine un’ottima capacità di generalizzazione con miglioramenti superiori al 13%.

Per restare sempre aggiornato seguici su Google News! Seguici

R1-Omni: l’AI di Alibaba che interpreta le emozioni umane

Come è stato sviluppato R1-Omni

I risultati dei benchmark

Leggi anche...

Amazon presenta i Made in Italy Days: un’opportunità per il commercio online

Amazon acquisisce RIVR: la robotica per l’e-commerce dell’ultimo miglio

Amazon, Temu ed eBay: la classifica degli e-commerce più popolari in Italia

Amazon sposta il Prime Day a giugno: impatti sul settore e-commerce

Qwen e l’innovazione negli smart glass: il futuro dell’IA inizia qui

L’US Air Force rivoluziona i droni con software AI in volo

R1-Omni: l’AI di Alibaba che interpreta le emozioni umane

Come è stato sviluppato R1-Omni

I risultati dei benchmark

Articoli Correlati

Leggi anche...

Amazon presenta i Made in Italy Days: un’opportunità per il commercio online

Amazon acquisisce RIVR: la robotica per l’e-commerce dell’ultimo miglio

Amazon, Temu ed eBay: la classifica degli e-commerce più popolari in Italia

Amazon sposta il Prime Day a giugno: impatti sul settore e-commerce

Qwen e l’innovazione negli smart glass: il futuro dell’IA inizia qui

L’US Air Force rivoluziona i droni con software AI in volo