Nell’era dei big data e dell’intelligenza artificiale, la disponibilità di informazioni è un fattore competitivo essenziale per le imprese private e le organizzazioni pubbliche. Gestire informazioni significa impiegare risorse per acquisire database, selezionare le informazioni forti, processarle in maniera corretta.
L’iperproduzione e condivisione di dati, molto spesso di natura personale, ha innescato una crescente apprensione per la tutela della privacy. Le norme per proteggere la riservatezza dei cittadini esistono da diversi anni- ad esempio il GDPR (General Data Protection Regulation)-; al contempo esistono diverse tecnologie per rafforzare la tutela della privacy e garantire che il trattamento di dati personali avvenga in maniera lecita e corretta.
In questo senso, la sintetizzazione di dati rappresenta una delle più promettenti soluzioni in circolazione, tanto che in molti si domandano se la prossima frontiera nella protezione della privacy saranno proprio i synthetic data.
I synthetic data sono dati creati artificialmente a partire da dati reali tramite l’impiego dell’AI. Più precisamente, attraverso la data synthetization, si producono “in provetta” database artificiali che presentano proprietà statistiche simili a quelle dei dati di partenza. Questo è possibile grazie all’impiego di algoritmi di tipo generativo, addestrati su dati reali del tipo di interesse, in grado di apprendere e poi replicare in un nuovo database sintetico le caratteristiche statistiche dei dati di partenza.
Sono famosi ad esempio: l’esperimento This Person Does Not Exist, una galleria online di volti umani prodotti artificialmente mediante una Generative Adversarial Network (GAN); l’utilizzo di Amazon dei dati sintetici per addestrare Alexa e per allenare l’intelligenza artificiale al servizio degli acquisti nei negozi fisici; l’ utilizzo nell’ ambito del self-driving car a cui fanno ricorso Tesla, Uber, Google.
La proposta di Regolamento UE sull’intelligenza artificiale menziona i dati sintetici (art. 54), affiancandoli a quelli anonimizzati, quando indica le condizioni di utilizzo dei dati personali nell’ambito del c.d. spazio di sperimentazione normativa per l’AI.
Il senso della potenziale rivoluzione portata dai synthetic data è visibile in molti settori. Da un lato, le persone potranno beneficiare di una maggiore protezione della privacy, in quanto i dati sintetizzati non presentano elementi in grado di identificarle direttamente. Nel corso del processo di data synthetization, infatti, l’algoritmo generativo – se adeguatamente impostato – non replica né mantiene alcun collegamento diretto con gli elementi identificativi del database iniziale. In questo modo non è possibile ricondurre i dati di sintesi a quelli originali dai quali sono stati creati e, dunque, alle persone a cui si riferiscono.
Dall’altro, aziende e pubbliche amministrazioni detentrici dei dati potranno innalzare il livello di conformità alla normativa sulla data protection, potendo al tempo stesso contare su dati qualitativamente e quantitativamente utili e statisticamente rilevanti, soprattutto nell’ottica di addestrare i propri modelli di IA. a sintetizzazione di dati permette, difatti, di aumentare il livello di tutela dei dati di natura personale e, quindi, a maggior ragione, dei diritti individuali.
(C.D.G.)
Get real time update about this post categories directly on your device, subscribe now.