Il Garante privacy ha pubblicato le indicazioni per difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG).
Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva, deliberata lo scorso dicembre. In attesa di pronunciarsi, all’esito di alcune istruttorie già avviate tra le quali quella nei confronti di OpenAI, sulla liceità del web scraping di dati personali effettuato sulla base del legittimo interesse, l’Autorità ha ritenuto necessario fornire a quanti pubblicano online dati personali in qualità di titolari del trattamento alcune prime indicazioni sull’esigenza di compiere alcune valutazioni in ordine all’esigenza di adottare accorgimenti idonei a impedire o, almeno, ostacolare il web scraping.
Nel documento l’Autorità suggerisce alcune tra le misure concrete da adottare: la creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità; l’inserimento di clausole anti-scraping nei termini di servizio dei siti; il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita; interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robot.txt.).
Si tratta di misure non obbligatorie che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi: lo stato dell’arte tecnologico; i costi di attuazione, in particolare per le PMI. Il provvedimento, consultabile sul sito www.gpdp.it, è in corso di pubblicazione nella Gazzetta Ufficiale.