Microsoft DragonV2.1: l'AI vocale più espressiva di sempre

Microsoft ha appena svelato la nuova versione del suo modello di sintesi vocale AI: DragonV2.1Neural. Si tratta di un modello “zero-shot” di ultima generazione integrato in Azure AI Speech Personal Voice. Esso è in grado di ricreare delle voci realistiche e personalizzate partendo da pochissimi secondi di registrazione audio. Rispetto al precedente DragonV1 la nuova release offre voci più naturali ed espressive con una pronuncia migliorata e accenti più controllabili.

DragonV2.1 di Microsoft parla più di 100 lingue

DragonV2.1 ha la capacità di sintetizzare il parlato in oltre 100 lingue utilizzando solo una manciata di secondi di “voce campione”. Questo consente di creare delle voci personalizzate per i chatbot, doppiaggi di contenuti video con la voce originale degli attori in qualsiasi lingua e altre applicazioni dove l’autenticità è fondamentale. Microsoft ha risolto molti dei problemi di pronuncia presenti nella release precedente, in particolare sui nomi propri e ha ridotto del 12,8% il tasso di errore nella trascrizione.

Un altro aspetto interessante riguarda la possibilità di personalizzare la pronuncia e l’accento grazie all’uso di tag fonemici e dizionari personalizzati. Questo offre il controllo necessario sia per ottenere delle traduzioni fedeli che per le imitazioni. Per facilitare l’adozione del modello Microsoft ha incluso anche dei profili vocali predefiniti: “Andrew”, “Ava” e “Brian”.

AI e rischi di deepfake vocali

Secondo alcuni analisti il modello potrebbe rendere più semplice la creazione di deepfake vocali per usi malevoli come frodi, truffe e campagne di disinformazione. Microsoft ha introdotto però delle regole d’uso molto stringenti, chi utilizza questa tecnologia deve ottenere il consenso della persona imitata, dichiarare l’uso di voci sintetiche e non usarle per tentativi di inganno o impersonificazioni.

Tutte le tracce audio generate saranno marchiate con un watermark digitale per un’accuratezza del 99,7% anche dopo l’editing. L’accesso completo all’API è riservato a chi ne fa richiesta per uso professionale ma è già possibile testare la nuova funzionalità su Speech Studio.

Per restare sempre aggiornato seguici su Google News! Seguici

Microsoft DragonV2.1: l’AI vocale più espressiva di sempre

DragonV2.1 di Microsoft parla più di 100 lingue

AI e rischi di deepfake vocali

Leggi anche...

Il futuro di Xbox: Satya Nadella parla del gaming in Microsoft

Microsoft lancia Copilot Cowork: l’IA per la produttività in Microsoft 365

Project Helix: la nuova Xbox compatibile con i giochi PC di Microsoft

Sora 2 di OpenAI arriva su Bing Video Creator: video AI gratuiti e avanzati

L’intelligenza artificiale di Microsoft rivoluziona il gaming su Xbox

L’US Air Force rivoluziona i droni con software AI in volo

Microsoft DragonV2.1: l’AI vocale più espressiva di sempre

DragonV2.1 di Microsoft parla più di 100 lingue

AI e rischi di deepfake vocali

Articoli Correlati

Leggi anche...

Il futuro di Xbox: Satya Nadella parla del gaming in Microsoft

Microsoft lancia Copilot Cowork: l’IA per la produttività in Microsoft 365

Project Helix: la nuova Xbox compatibile con i giochi PC di Microsoft

Sora 2 di OpenAI arriva su Bing Video Creator: video AI gratuiti e avanzati

L’intelligenza artificiale di Microsoft rivoluziona il gaming su Xbox

L’US Air Force rivoluziona i droni con software AI in volo