OpenAI ha presentato un nuovo modello generativo chiamato Sora, che permette di creare video fotorealistici convertendo istruzioni testuali. La promessa è quella di generare video in alta definizione di 60 secondi partendo da semplici testi. Questo nuovo servizio rappresenta un progresso significativo nella tecnologia text-to-video.
La società non ha fornito i dettagli tecnici sul funzionamento del modello, né ha chiarito con quali dati è stato addestrato il sistema, ma ha fornito vari esempi di contenuti generati: una donna che cammina per le strade di Tokyo, dei cuccioli di lupo che giocano tra loro, un cane che si affaccia da una coloratissima finestra di un edificio di Burano e tanti altri, tutti estremamente realistici, dettagliati e in HD.
Sora fa un grande salto di qualità rispetto ai modelli generativi pre-esistenti, essendo in grado di gestire scene complesse con più personaggi e di curare la composizione di movimenti specifici e dettagli accurati. “Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico”, si dichiara nell’annuncio di lancio del servizio.
OpenAI ha concesso l’accesso a Sora a un gruppo selezionato di esperti di sicurezza e creators, al fine di valutare le possibili implicazioni in termini di sicurezza e gestire e prevenire potenziali abusi come la creazione di deepfake. Tuttavia, l’azienda sta anche cercando feedback da artisti visivi, designer e registi per sviluppare ulteriormente il modello e renderlo più utile per i professionisti creativi, suggerendo una possibile futura commercializzazione del servizio.
M.T.