back to top

Microsoft DragonV2.1: l’AI vocale più espressiva di sempre

Microsoft ha appena svelato la nuova versione del suo modello di sintesi vocale AI: DragonV2.1Neural. Si tratta di un modello “zero-shot” di ultima generazione integrato in Azure AI Speech Personal Voice. Esso è in grado di ricreare delle voci realistiche e personalizzate partendo da pochissimi secondi di registrazione audio. Rispetto al precedente DragonV1 la nuova release offre voci più naturali ed espressive con una pronuncia migliorata e accenti più controllabili.

DragonV2.1 di Microsoft parla più di 100 lingue

DragonV2.1 ha la capacità di sintetizzare il parlato in oltre 100 lingue utilizzando solo una manciata di secondi di “voce campione”. Questo consente di creare delle voci personalizzate per i chatbot, doppiaggi di contenuti video con la voce originale degli attori in qualsiasi lingua e altre applicazioni dove l’autenticità è fondamentale. Microsoft ha risolto molti dei problemi di pronuncia presenti nella release precedente, in particolare sui nomi propri e ha ridotto del 12,8% il tasso di errore nella trascrizione.

Pubblicità

Un altro aspetto interessante riguarda la possibilità di personalizzare la pronuncia e l’accento grazie all’uso di tag fonemici e dizionari personalizzati. Questo offre il controllo necessario sia per ottenere delle traduzioni fedeli che per le imitazioni. Per facilitare l’adozione del modello Microsoft ha incluso anche dei profili vocali predefiniti: “Andrew”, “Ava” e “Brian”.

AI e rischi di deepfake vocali

Secondo alcuni analisti il modello potrebbe rendere più semplice la creazione di deepfake vocali per usi malevoli come frodi, truffe e campagne di disinformazione. Microsoft ha introdotto però delle regole d’uso molto stringenti, chi utilizza questa tecnologia deve ottenere il consenso della persona imitata, dichiarare l’uso di voci sintetiche e non usarle per tentativi di inganno o impersonificazioni.

Tutte le tracce audio generate saranno marchiate con un watermark digitale per un’accuratezza del 99,7% anche dopo l’editing. L’accesso completo all’API è riservato a chi ne fa richiesta per uso professionale ma è già possibile testare la nuova funzionalità su Speech Studio.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

ChatGPT cancella due anni di lavoro accademico

Un grave incidente legato alla perdita dei dati avrebbe...

Microsoft presenta winapp, nuova CLI open source per lo sviluppo di app Windows

Microsoft ha rilasciato l'anteprima pubblica di winapp CLI, un...

Microsoft: l’AI deve ancora dimostrare la sua utilità

Durante il World Economic Forum 2026 di Davos, Satya...

Microsoft rilascia una patch per i PC Windows che non si spengono

Microsoft ha pubblicato un aggiornamento d'emergenza per correggere due...

OpenAI potrebbe fallire entro il 2027, lo dicono alcuni analisti

OpenAI, uno dei principali protagonisti della corsa all'intelligenza artificiale,...

Google: i modelli di AI cinesi sono vicinissimi agli standard occidentali

Secondo Demis Hassabis, CEO di Google DeepMind e responsabile...
Pubblicità