DALL-E, INTELLIGENZA ARTIFICIALE CHE TRASFORMA TESTI IN IMMAGINI

Il software è stato sviluppato dal gruppo di ricerca privato OpenAi e, partendo da una descrizione testuale, riesce a generare un’immagine corrispondente

Il programma crea immagini complete e realistiche a partire da istruzioni date in linguaggio naturale. Al momento, il modello completo non è ancora disponibile al grande pubblico. Le immagini più sofisticate che si trovano sul web provengono da un gruppo selezionato di ricercatori, dipendenti della compagnia o loro amici e parenti.

Secondo quanto scritto da una rappresentante di OpenAi su una pagina di supporto del sito web, la compagnia sta lavorando per ampliare l’accesso a un maggior numero di utenti. Molte delle immagini che si trovano sui social provengono da una versione open source di Dall-E chiamata Dall-E mini, disponibile su GitHub.

Alla base di Dall-E c’è un processo di ricerca scientifica molto profondo, che ha l’obiettivo di portare l’intelligenza artificiale a fare ancora un passo avanti. Il sistema si basa su un percorso che parte da due presupposti fondamentali, per arrivare alla capacità di generare immagini. La prima parte è la comprensione: per creare foto a partire da un testo, l’IA dev’essere in grado di capire come parole e immagini si relazionano tra di loro. Per farlo, OpenAI ha addestrato Dall-E utilizzando un sistema che si chiama Clip (la sigla sta per Contrastive Learning-Image Pre-training). L’obiettivo è comprendere le caratteristiche delle due componenti e metterle in relazione: quale parte dell’immagine corrisponde a quale parte del testo? È questa la domanda cui Clip è chiamato a rispondere.

Una volta addestrato, il sistema deve poi essere in grado di creare le immagini. Per questo obiettivo, OpenAI usa una tecnica che si chiama diffusione, che in primo luogo trasforma il testo in dati, per trovare similarità con quanto imparato attraverso Clip. L’intelligenza artificiale cerca affinità e poi ritrasforma quei dati in qualcosa di comprensibile.

Mentre la popolarità delle app come Dall-E cresce, si pongono problemi etici rispetto alle tecnologie di text-to-image. In primis, riguardo ai contenuti. La politica di OpenAi proibisce esplicitamente di richiedere immagini violente, sessualmente esplicite, illegali o legate a teorie cospirazioniste.

Un altro problema, messo in luce dai ricercatori e dagli sviluppatori è quello dei bias intrinseci all’algoritmo. Quando si dà il comando di rappresentare le persone, queste sono nella quasi totalità dei casi bianche ad eccezione, per esempio, degli atleti. Nel caso si dia l’istruzione al modello di illustrare professioni di alto livello come medici o avvocati, questo rappresenta generalmente uomini, mentre per professioni meno qualificate tende a raffigurare donne. Al momento, il modello è stato allenato soltanto con parole inglesi, che quindi non specificano il genere delle persone da rappresentare.