Il data poisoning è una minaccia concreta alla sicurezza dei sistemi di Intelligenza Artificiale basati su Machine Learning. Questo tipo di attacco si verifica quando un hacker modifica in modo malevolo i dati utilizzati per addestrare le componenti di Machine Learning generando una distorsione dei risultati del sistema a favore degli obiettivi dell’hacker con impatti sulla sicurezza delle persone e della comunità. Per questo motivo è fondamentale gestire efficacemente questa minaccia.
Gli attacchi di avvelenamento dei dati possono essere divisi in due categorie principali: quelli che mirano a compromettere il modello di apprendimento e quelli che intendono contaminare l’integrità dei dati. Questi ultimi sono i più complessi e dannosi poiché lasciano il database intatto e creano una backdoor per consentire agli aggressori di controllare il modello. Questi attacchi possono causare gravi danni senza che sia facile rilevarli durante l’attacco.
Una delle prime azioni da intraprendere è includere le applicazioni di Machine Learning e i dataset utilizzati nell’addestramento nei processi di sicurezza dell’organizzazione. In questo modo, i sistemi possono essere protetti da possibili intrusioni di soggetti non autorizzati e da inserimenti di codici malevoli. È altresì consigliabile adottare specifici approcci di data quality, con particolare riferimento all’accuratezza e alla completezza dei dati.
È importante integrare questi approcci fin dalla catena di fornitura dei dati, controllando accuratamente i dati acquisiti da terze parti e sanificando i dataset di addestramento per individuare e rimuovere eventuali dati corrotti. Inoltre, la complessità e la rapida evoluzione delle minacce richiedono un approccio collaborativo che coinvolga il settore della ricerca nell’ambito della sicurezza del Machine Learning e gli organismi di standardizzazione per identificare pratiche di riferimento e framework di gestione specifici per la sicurezza dell’IA.
Gli sviluppatori di sistemi di Intelligenza Artificiale devono adottare un robusto approccio alla sicurezza “by design”. Le organizzazioni utilizzatrici, in particolare quelle che adottano applicazioni di IA critiche per le persone e la comunità, devono integrare le minacce specifiche dei sistemi di IA nei processi di gestione della sicurezza.
In questo modo sarà possibile calcolare i rischi specifici non solo per l’operatività dell’organizzazione, ma anche per le persone e la comunità coinvolte nelle conseguenze di utilizzi impropri o comportamenti inadeguati dei sistemi. Infine, è importante sottolineare come il GDPR, il regolamento europeo sulla protezione dei dati personali, ponga la sicurezza come principio fondamentale per il corretto trattamento dei dati personali.
In questo senso, l’attenzione ai processi di data quality e di sicurezza diventa fondamentale. In sintesi, per gestire efficacemente il data poisoning e le altre minacce alla sicurezza dei sistemi di Intelligenza Artificiale basati su Machine Learning, è necessario un approccio collaborativo tra sviluppatori, organizzazioni utilizzatrici, ricercatori e organismi di standardizzazione.
(S.F.)