Microsoft DragonV2.1: l’AI vocale più espressiva di sempre

Microsoft ha appena svelato la nuova versione del suo modello di sintesi vocale AI: DragonV2.1Neural. Si tratta di un modello “zero-shot” di ultima generazione integrato in Azure AI Speech Personal Voice. Esso è in grado di ricreare delle voci realistiche e personalizzate partendo da pochissimi secondi di registrazione audio. Rispetto al precedente DragonV1 la nuova release offre voci più naturali ed espressive con una pronuncia migliorata e accenti più controllabili.

DragonV2.1 di Microsoft parla più di 100 lingue

DragonV2.1 ha la capacità di sintetizzare il parlato in oltre 100 lingue utilizzando solo una manciata di secondi di “voce campione”. Questo consente di creare delle voci personalizzate per i chatbot, doppiaggi di contenuti video con la voce originale degli attori in qualsiasi lingua e altre applicazioni dove l’autenticità è fondamentale. Microsoft ha risolto molti dei problemi di pronuncia presenti nella release precedente, in particolare sui nomi propri e ha ridotto del 12,8% il tasso di errore nella trascrizione.

Pubblicità

Un altro aspetto interessante riguarda la possibilità di personalizzare la pronuncia e l’accento grazie all’uso di tag fonemici e dizionari personalizzati. Questo offre il controllo necessario sia per ottenere delle traduzioni fedeli che per le imitazioni. Per facilitare l’adozione del modello Microsoft ha incluso anche dei profili vocali predefiniti: “Andrew”, “Ava” e “Brian”.

AI e rischi di deepfake vocali

Secondo alcuni analisti il modello potrebbe rendere più semplice la creazione di deepfake vocali per usi malevoli come frodi, truffe e campagne di disinformazione. Microsoft ha introdotto però delle regole d’uso molto stringenti, chi utilizza questa tecnologia deve ottenere il consenso della persona imitata, dichiarare l’uso di voci sintetiche e non usarle per tentativi di inganno o impersonificazioni.

Tutte le tracce audio generate saranno marchiate con un watermark digitale per un’accuratezza del 99,7% anche dopo l’editing. L’accesso completo all’API è riservato a chi ne fa richiesta per uso professionale ma è già possibile testare la nuova funzionalità su Speech Studio.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

Il futuro di Xbox: Satya Nadella parla del gaming in Microsoft

Il mondo dei videogiochi sta vivendo una fase di...

Microsoft lancia Copilot Cowork: l’IA per la produttività in Microsoft 365

Microsoft ha recentemente introdotto Copilot Cowork, un innovativo assistente...

Project Helix: la nuova Xbox compatibile con i giochi PC di Microsoft

Microsoft sta per rivoluzionare il mondo delle console con...

Sora 2 di OpenAI arriva su Bing Video Creator: video AI gratuiti e avanzati

Il panorama dell’intelligenza artificiale è in continua evoluzione e,...

L’intelligenza artificiale di Microsoft rivoluziona il gaming su Xbox

Microsoft si prepara a rivoluzionare il mondo del gaming...

L’US Air Force rivoluziona i droni con software AI in volo

L'US Air Force ha recentemente compiuto un'importante innovazione nel...
Pubblicità