back to top

Microsoft DragonV2.1: l’AI vocale più espressiva di sempre

Microsoft ha appena svelato la nuova versione del suo modello di sintesi vocale AI: DragonV2.1Neural. Si tratta di un modello “zero-shot” di ultima generazione integrato in Azure AI Speech Personal Voice. Esso è in grado di ricreare delle voci realistiche e personalizzate partendo da pochissimi secondi di registrazione audio. Rispetto al precedente DragonV1 la nuova release offre voci più naturali ed espressive con una pronuncia migliorata e accenti più controllabili.

DragonV2.1 di Microsoft parla più di 100 lingue

DragonV2.1 ha la capacità di sintetizzare il parlato in oltre 100 lingue utilizzando solo una manciata di secondi di “voce campione”. Questo consente di creare delle voci personalizzate per i chatbot, doppiaggi di contenuti video con la voce originale degli attori in qualsiasi lingua e altre applicazioni dove l’autenticità è fondamentale. Microsoft ha risolto molti dei problemi di pronuncia presenti nella release precedente, in particolare sui nomi propri e ha ridotto del 12,8% il tasso di errore nella trascrizione.

Pubblicità

Un altro aspetto interessante riguarda la possibilità di personalizzare la pronuncia e l’accento grazie all’uso di tag fonemici e dizionari personalizzati. Questo offre il controllo necessario sia per ottenere delle traduzioni fedeli che per le imitazioni. Per facilitare l’adozione del modello Microsoft ha incluso anche dei profili vocali predefiniti: “Andrew”, “Ava” e “Brian”.

AI e rischi di deepfake vocali

Secondo alcuni analisti il modello potrebbe rendere più semplice la creazione di deepfake vocali per usi malevoli come frodi, truffe e campagne di disinformazione. Microsoft ha introdotto però delle regole d’uso molto stringenti, chi utilizza questa tecnologia deve ottenere il consenso della persona imitata, dichiarare l’uso di voci sintetiche e non usarle per tentativi di inganno o impersonificazioni.

Tutte le tracce audio generate saranno marchiate con un watermark digitale per un’accuratezza del 99,7% anche dopo l’editing. L’accesso completo all’API è riservato a chi ne fa richiesta per uso professionale ma è già possibile testare la nuova funzionalità su Speech Studio.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

Meno metaverso e più AI nel futuro di Meta

Meta ha programmato una revisione della propria strategia aziendale...

ChatGPT ha compiuto 3 anni

Il 30 novembre 2022 OpenAI presentava al pubblico un...

ChatGPT può fare tutto? Prova a chiedergli che ore sono..

Quando si interagisce con un'AI, come quella che permette...

DeepSeek svelerà i segreti dell’universo

Il gruppo cinese DeepSeek, già noto per aver introdotto...

Windows 11 ha una nuova sezione “Aggiornamenti app” nelle Impostazioni

Con l'ultima build di anteprima di Windows 11, Microsoft...

La memoria RAM diventa sempre più costosa a causa dell’AI

Il successo dell'intelligenza artificiale sta provocando forti tensioni sul...
Pubblicità