Make-A-Video è un progetto di Meta basato sull’Intelligenza Artificiale che permette di generare dei filmati a partire da una descrizione testuale. Per il momento non si tratta di una funzionalità disponibile per il pubblico e non è stata distribuita nemmeno una demo per i test da parte dei creator, la notizia poggia unicamente su un annuncio da parte dell’azienda californiana.
Ad oggi Make-A-Video avrebbe permesso di realizzare soltanto dei brevi video della durata di appena 5 secondi e totalmente privi di audio. Il rendering non sembrerebbe essere eccezionale ma come è noto gli algoritmi di Machine Learning imparano in fretta e molto presto il livello qualitativo degli output potrebbe aumetare notevolmente.
Meta definisce Make-A-Video come "lo stato dell’arte dei sistemi di AI che generano video dai testi", il sistema utilizza immagini corredate da descrizioni per capire "come è fatto il mondo" e come esso viene descritto più frequentemente. è inoltre possibile animare una singola immagine o accoppiarne due per produrre filmati in movimento.
Attualmente esistono diverso soluzioni per la creazione di immagini dai testi, come per esempio le piattaforme di text-to-image Midjourney, DALL·E 2 e Stable Diffusion. Realizzare video nello stesso modo è però molto più difficile perché oltre ad incaricarsi della generazione dei pixel il sistema deve prevedere come questi veranno modificati nel tempo.
Nello specifico Make-A-Video sfrutta un modello di Deep Learning "non supervisionato", questo significa che l’apprendimento automatico avviene tramite la somministrazione di dati e input che il sistema dovrà organizzare e classificare sulla base di caratterisiche comuni per effettuare elaborazioni e previsioni sui dati e gli input che raccoglierà successivamente.