back to top

R1-Omni: l’AI di Alibaba che interpreta le emozioni umane

Il team Tongyi Lab di Alibaba ha annunciato il rilascio sotto licenza open source del suo ultimo modello multimodale, R1-Omni. Questo modello utilizza il Reinforcement Learning con Ricompense Verificabili (Reinforcement Learning with Verifiable Rewards o RLVR) e offre capacitร  avanzate nell’elaborazione di informazioni da audio e video. Una delle sue caratteristiche principali รจ la trasparenza che permette di comprendere meglio il contributo di ogni modalitร  nel processo decisionale, soprattutto in compiti come il riconoscimento delle emozioni umane.

Come รจ stato sviluppato R1-Omni

Con il lancio di DeepSeek R1 il potenziale del reinforcement learning nei modelli di grandi dimensioni ha avuto una forte accelerazione. Il metodo RLVR introduce nuove modalitร  di ottimizzazione per gestire compiti complessi come il ragionamento geometrico e il conteggio visivo. Mentre la ricerca attuale si concentra principalmente sulla combinazione di immagini e testo, questo progetto amplia il contesto di applicazione combinando RLVR con un modello video multimodale completo.

Pubblicitร 

Attraverso l’RLVR R1-Omni rende piรน intuitivo il ruolo delle informazioni nell’audio e nel video. Nei compiti legati al riconoscimento delle emozioni, ad esempio, il modello evidenzia con precisione i segnali chiave utilizzati per il giudizio emotivo dimostrandosi particolarmente affidabile e preciso.

I risultati dei benchmark

Per verificare le prestazioni, il team di Tongyi Lab ha confrontato R1-Omni con il modello originale HumanOmni-0.5B. I risultati avrebbero mostrato un incremento superiore al 35% sui dataset DFEW (Dynamic Facial Expression in-the-Wild) e MAFW (uno dei piรน grandi database per il riconoscimento facciale).

Inoltre, rispetto ai modelli tradizionali di Supervised Fine-Tuning (SFT), R1-Omni ha migliorato le prestazioni in apprendimento non supervisionato di oltre il 10%. Nei test su distribuzioni diverse, come il dataset RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), ha dimostrato infine un’ottima capacitร  di generalizzazione con miglioramenti superiori al 13%.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

Google: con l’AI Mode crolla i traffico sui siti di news

Ormai possiamo dirlo con una certa sicurezza, il mondo...

Anthropic chiude il blog scritto da Claude AI poco dopo il lancio

รˆ durata veramente poco l'avventura di Claude Explains, il...

WhatsApp beta: riepiloghi dei messaggi con l’AI

Con la versione beta 2.25.18.18 di WhatsApp per Android,...

Builder.ai: non era un’AI ma 700 sviluppatori indiani

Una delle startup piรน celebrate dell'ecosistema tech, Builder.ai, sarebbe...

Gemini: l’AI organizza la tua giornata con le azioni programmate

Google continua a potenziare l'applicazione di Gemini rendendola sempre...

OpenAI aggiorna la modalitร  vocale avanzata di ChatGPT

OpenAI ha annunciato alcune novitร  per la modalitร  vocale...
Pubblicitร