COSA SONO I DATI SINTETICI E QUALI SONO I VANTAGGI

Woman enjoying a VR headset

Nellera dei big data e dellintelligenza artificiale, la disponibilità di informazioni è un fattore competitivo essenziale per le imprese private e le organizzazioni pubbliche. Gestire informazioni significa impiegare risorse per acquisire database, selezionare le informazioni forti, processarle in maniera corretta.

Liperproduzione e condivisione di dati, molto spesso di natura personale, ha innescato una crescente apprensione per la tutela della privacy. Le norme per proteggere la riservatezza dei cittadini esistono da diversi anni- ad esempio il GDPR (General Data Protection Regulation)-; al contempo esistono diverse  tecnologie per rafforzare la tutela della privacy e garantire che il trattamento di dati personali avvenga in maniera lecita e corretta.

In questo senso, la sintetizzazione di dati rappresenta una delle più promettenti soluzioni in circolazione, tanto che in molti si domandano se la prossima frontiera nella protezione della privacy saranno proprio i synthetic data.

I synthetic data sono dati creati artificialmente a partire da dati reali tramite limpiego dellAI. Più precisamente, attraverso la data synthetization, si producono in provetta” database artificiali che presentano proprietà statistiche simili a quelle dei dati di partenza. Questo è possibile grazie allimpiego di algoritmi di tipo generativo, addestrati su dati reali del tipo di interesse, in grado di apprendere e poi replicare in un nuovo database sintetico le caratteristiche statistiche dei dati di partenza.

Sono famosi ad esempio: lesperimento This Person Does Not Exist, una galleria online di volti umani prodotti artificialmente mediante una Generative Adversarial Network (GAN); l’utilizzo di Amazon dei dati sintetici per addestrare Alexa e per allenare lintelligenza artificiale al servizio degli acquisti nei negozi fisici; l’ utilizzo nell’ ambito del self-driving car a cui fanno ricorso Tesla, Uber, Google.

La proposta di Regolamento UE sullintelligenza artificiale menziona i dati sintetici (art. 54), affiancandoli a quelli anonimizzati, quando indica le condizioni di utilizzo dei dati personali nellambito del c.d. spazio di sperimentazione normativa per l’AI.

Il senso della potenziale rivoluzione portata dai synthetic data è visibile in molti settori. Da un lato, le persone potranno beneficiare di una maggiore protezione della privacy, in quanto i dati sintetizzati non presentano elementi in grado di identificarle direttamente. Nel corso del processo di data synthetization, infatti, lalgoritmo generativo – se adeguatamente impostato – non replica né mantiene alcun collegamento diretto con gli elementi identificativi del database iniziale. In questo modo non è possibile ricondurre i dati di sintesi a quelli originali dai quali sono stati creati e, dunque, alle persone a cui si riferiscono.

Dallaltro, aziende e pubbliche amministrazioni detentrici dei dati potranno innalzare il livello di conformità alla normativa sulla data protection, potendo al tempo stesso contare su dati qualitativamente e quantitativamente utili e statisticamente rilevanti, soprattutto nellottica di addestrare i propri modelli di IA. a sintetizzazione di dati permette, difatti, di aumentare il livello di tutela dei dati di natura personale e, quindi, a maggior ragione, dei diritti individuali.

(C.D.G.)