Dopo la generazione di testi in linguaggio naturale con ChatGPT e la creazione di immagini da semplici descrizioni con DALL·E, OpenAI punta sul progetto Sora che permette di realizzare video a partire da prompt testuali. Gli output della piattaforma sono fotorealistici e vengono restituiti dopo meno di un minuto di elaborazione.
Si tratta quindi di un modello generativo text-to-video, come confermato dalle demo pubblicate da Sam Altman e soci Sora può gestire senza particolari difficoltà scene in cui sono presenti più personaggi che si muovono in modo indipendente tra loro e interagiscono con gli oggetti presenti nel contesto. Il tutto rispettando le leggi della Fisica.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Le possibili applicazioni del modello sono numerose in quanto esso consente anche di creare video a partire da immagini statiche. Nello stesso modo si può modificare un video preesistente, sia per aggiungere singoli fotogrammi o intere scene che per rimuovere tutti gli elementi o i passaggi che non si desidera siano presenti nel prodotto finito.
Visualizzando i video di esempio postati da OpenAI si nota comunque la presenza di alcune imperfezioni e movimenti innaturali, parliamo però di un modello che é stato appena presentato e che, come accade con progetti di questo tipo, sarà in grado di migliorarsi grazie all’addestramento continuo e ai dati che gli verranno forniti.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Attualmente Sora non é stato ancora distribuito per l’utilizzo su larga scala e la fase di sviluppo viene seguita da esperti del settore chiamati in causa per segnalare bug e comportamenti inattesi. Si tratta inoltre di uno strumento che potrebbe spianare la strada a nuove controversie legate alla possibilità di creare molto facilmente dei DeepFake.