Il politecnico di Zurigo è autore di una ricerca che dimostra come i modelli linguistici di grandi dimensioni (Llm), alimentatori dei chat bot più sofisticati, possano dedurre con estrema precisione una quantità allarmante di informazioni personali sugli utenti (come etnia, posizione, occupazione ecc.) partendo da conversazioni apparentemente innocue.
Secondo Vechev, professore di informatica al Politecnico di Zurigo, il fenomeno potrebbe dipendere dal modo in cui vengono addestrati gli algoritmi, ma al momento “non è chiaro come questo problema si possa risolvere”.
È innegabile il rischio che i truffatori sfruttino questa capacità dei chat bot allo scopo di raccogliere i dati degli utenti, ma Vechev sostiene anche che il fenomeno potrebbe dare inizio ad una nuova era della pubblicità, in cui le aziende utilizzano i sistemi di chat bot per carpire informazioni e quindi costruire profili estremamente dettagliati degli utenti-target. Secondo l’informatico, infatti, c’è addirittura la possibilità che le società che sviluppano i chat bot AI lo stiano già facendo visto che la pubblicità è uno degli strumenti che utilizzano per i loro profitti.
I ricercatori di Zurigo per il momento hanno testato i modelli linguistici sviluppati da OpenAI, Google, Meta e Anthropic. A seguito della segnalazione di tale problema, il portavoce di OpenAI ha dichiarato che la società lavora per rimuovere le informazioni personali dai dati di addestramento che utilizza per creare i suoi modelli. Infatti OpenAI vuole che i propri modelli “imparino a conoscere il mondo, non le persone”. Anthropic ha ribadito che la propria informativa sulla privacy assicura di non raccogliere o “vendere” informazioni personali, mentre per il momento c’è silenzio da parte di Google e Meta.
Questo problema a livello di privacy sembra nascere dallo stesso processo che ha reso possibile il salto di qualità per ChatGPT e gli altri chat bot. I modelli di intelligenza artificiale in questione, infatti, vengono addestrati utilizzando enormi quantità di dati raccolti sul web. Tra i testi utilizzati figurano anche informazioni personali e conversazioni, dati che permettono ai sistemi di sviluppare una sensibilità rispetto agli schemi del linguaggio, che a loro volta consentono ai modelli linguistici di formulare ipotesi sul conto di una persona in base delle frasi che scrive.
Taylor Berg-Kirkpatrick, professore associato presso l’University California San Diego ed esperto di apprendimento automatico e linguaggio, ha dichiarato che non è sorprendente il fatto che i modelli linguistici siano in grado di ottenere informazioni private. A destare preoccupazione è l’accuratezza con cui lo fanno.
I ricercatori hanno quindi dimostrato che talvolta i modelli linguistici di grandi dimensioni possono dedurre dati personali specifici, ma l’informatico Vechev ha anche sottolineato come la capacità degli Llm di dedurre dati personali sia fondamentale per il loro funzionamento.
La situazione è complessa e ci spinge a porci delle domande sulla quantità di informazioni personali che inavvertitamente lasciamo trapelare in situazioni in cui non pensiamo che la nostra privacy sia a rischio.
M.M.