Da tempo ormai le grandi aziende tech si adoperano per trovare dati con cui addestrare i propri sistemi di Intelligenza Artificiale. Spesso però, lo fanno utilizzando illecitamente materiale coperto da copyright, motivo per il quale questi procedimenti vengono tenuti il più possibile nascosti dal pubblico. Nonostante la difficoltà di reperire informazioni a riguardo, recentemente il New York Times (NYT) è riuscito ricostruire le varie strategie adottate da OpenAI per appropriarsi di dati utili all’addestramento, cosicché molte delle azioni della compagnia sono ora sotto gli occhi di tutti.
In particolare, uno dei più recenti scandali riguarda l’utilizzo di oltre un milione di ore di video su YouTube, trascritte e utilizzate per l’allenamento di GPT-4, il più potente modello linguistico creato da OpenAI. Questo costituisce una chiara violazione delle regole dell’app, i cui contenuti non possono essere destinati ad “applicazioni indipendenti dalla piattaforma”.
Secondo quanto riportato dal NYT, alla fine del 2021 la compagnia si è trovata senza più materiali da utilizzare per lo sviluppo del suo ultimo sistema di AI, avendo esaurito “ogni riserva di testi attendibili in lingua inglese su internet”. I ricercatori hanno quindi creato Whisper, uno strumento di riconoscimento vocale “in grado di trascrivere l’audio dei video di YouTube, producendo un nuovo testo di conversazione che avrebbe contribuito a migliorare un sistema di Intelligenza Artificiale”.
È chiaro che il reperimento di dati da destinare all’AI rappresenta una priorità per le Big Tech che a questo fine si servono di “numerose fonti, compresi i dati disponibili pubblicamente e alcune partnership per dati non pubblici”, ha dichiarato Lindsay Held, portavoce di OpenAI.
Stando al NYT, presto verranno utilizzate come fonti anche le cosiddette informazioni sintetiche, ovvero testi, immagini e codici generati dagli strumenti AI, cosicché questi “imparino da ciò che essi stessi generano“.
A.L.R