Microsoft ha appena svelato la nuova versione del suo modello di sintesi vocale AI: DragonV2.1Neural. Si tratta di un modello “zero-shot” di ultima generazione integrato in Azure AI Speech Personal Voice. Esso è in grado di ricreare delle voci realistiche e personalizzate partendo da pochissimi secondi di registrazione audio. Rispetto al precedente DragonV1 la nuova release offre voci più naturali ed espressive con una pronuncia migliorata e accenti più controllabili.
DragonV2.1 di Microsoft parla più di 100 lingue
DragonV2.1 ha la capacità di sintetizzare il parlato in oltre 100 lingue utilizzando solo una manciata di secondi di “voce campione”. Questo consente di creare delle voci personalizzate per i chatbot, doppiaggi di contenuti video con la voce originale degli attori in qualsiasi lingua e altre applicazioni dove l’autenticità è fondamentale. Microsoft ha risolto molti dei problemi di pronuncia presenti nella release precedente, in particolare sui nomi propri e ha ridotto del 12,8% il tasso di errore nella trascrizione.
Un altro aspetto interessante riguarda la possibilità di personalizzare la pronuncia e l’accento grazie all’uso di tag fonemici e dizionari personalizzati. Questo offre il controllo necessario sia per ottenere delle traduzioni fedeli che per le imitazioni. Per facilitare l’adozione del modello Microsoft ha incluso anche dei profili vocali predefiniti: “Andrew”, “Ava” e “Brian”.
AI e rischi di deepfake vocali
Secondo alcuni analisti il modello potrebbe rendere più semplice la creazione di deepfake vocali per usi malevoli come frodi, truffe e campagne di disinformazione. Microsoft ha introdotto però delle regole d’uso molto stringenti, chi utilizza questa tecnologia deve ottenere il consenso della persona imitata, dichiarare l’uso di voci sintetiche e non usarle per tentativi di inganno o impersonificazioni.
Tutte le tracce audio generate saranno marchiate con un watermark digitale per un’accuratezza del 99,7% anche dopo l’editing. L’accesso completo all’API è riservato a chi ne fa richiesta per uso professionale ma è già possibile testare la nuova funzionalità su Speech Studio.

