L’Intelligenza Artificiale Generativa, chiamata anche GenAI, rappresenta una delle evoluzioni più avanzate nel campo dell’AI e, a differenza dell’AI discriminativa, che si limita a riconoscere ciò che già esiste, la GenAI è progettata per apprendere modelli e strutture per generare contenuti nuovi e originali, simulando in modo sempre più realistico la creatività umana.
Le applicazioni della GenAI sono estremamente ampie e interessano numerosi settori. Nell’ambito dell’intrattenimento, ad esempio, può essere impiegata per generare animazioni, sviluppare videogiochi in tempi più rapidi o creare mondi virtuali completi, invece in campo musicale permette la composizione automatica di brani partendo da semplici input. Nel settore medico contribuisce a migliorare la precisione diagnostica, velocizzare la scoperta di nuovi farmaci e rendere i trattamenti più personalizzati, e nell’ambito della sicurezza riesce a individuare minacce e vulnerabilità all’interno dei sistemi digitali.
Il funzionamento della GenAI si basa su modelli di apprendimento automatico, addestrati su enormi quantità di dati che, attraverso tecniche di apprendimento auto-supervisionato, imparano a prevedere la parola, l’immagine o il suono successivo a partire da un dato input, sulla base del quale l’algoritmo elabora e restituisce un output coerente con le richieste.
La versatilità della GenAI si riflette anche nella varietà di contenuti che è in grado di generare a seconda del tipo di dati con cui è stata addestrata. Alcuni sistemi, come ChatGPT, si concentrano sul linguaggio testuale e sono capaci di produrre articoli, storie o persino interi libri. Altri, come Codex, operano nel campo della programmazione, generando codici informatici a partire da descrizioni testuali.
Esistono poi modelli specializzati nella creazione di immagini, come Imagen di Google, di audio e suoni, come MusicLM, o di video, come Gen1 di RunwayML.
Non mancano infine i modelli capaci di operare su strutture molecolari, utili nella ricerca scientifica e farmaceutica, e sistemi multimodali, come alcune versioni di GPT-4, che sono in grado di gestire e combinare dati provenienti da diverse modalità (testi e immagini).
S.B.