VASA-1: IL NUOVO MODELLO AI PER CREARE VIDEO FACCIALI IPERREALISTICI

Il nuovo progetto di Microsoft anima le immagini facendole muovere e parlare con un realismo inedito

Il dipartimento di ricerca di Microsoft in Asia ha presentato un nuovo progetto di Intelligenza Artificiale chiamato Vasa-1. Questo modello AI è in grado di creare deepfake estremamente convincenti e realistici di una persona utilizzando una quantità minima di materiale, semplicemente una foto e un file audio. Le potenzialità di questo sistema sono enormi, ma sollevano preoccupazioni riguardo a un futuro in cui sarà sempre più difficile distinguere tra video reali e manipolati online.

Il progetto Vasa-1, sviluppato da Microsoft Research Asia, consente di generare video di una persona che parla basandosi solo su un’immagine del volto e un file audio. L’obiettivo è quello di permettere interazioni in tempo reale con avatar virtuali che simulano comportamenti umani naturali durante le conversazioni. Utilizzando il machine learning, il modello sincronizza i movimenti realistici del volto e del capo con il lip-sync, ottenendo un effetto credibile e naturale, a differenza dei metodi tradizionali che trattano le caratteristiche facciali separatamente.

Sebbene Vasa-1 abbia notevoli potenzialità, il team di sviluppatori è consapevole dei rischi legati al suo possibile utilizzo improprio. Di conseguenza, i ricercatori hanno deciso di non rilasciare una demo online, un’API o un prodotto fino a quando non saranno certi che la tecnologia potrà essere utilizzata responsabilmente e in modo conforme alle normative.

Questo progetto si accoda ad altre tecnologie simili, come Emo di Alibaba e il modello Sora di OpenAI, dimostrando l’avanzamento della generazione di video realistici basati sull’Intelligenza Artificiale. Vasa-1 è stato addestrato con video pubblici su YouTube e può generare filmati a risoluzione 512×512 pixel con fino a 40 frame al secondo, con una latenza minima. Anche se il codice del progetto non sarà diffuso e rimarrà uno studio, è evidente la necessità di sviluppare sistemi che possano rilevare più facilmente i contenuti generati da AI, al fine di contrastare fake news e disinformazione.

M.T.