Le distorsioni AI si verificano quando i sistemi di Intelligenza Artificiale producono risultati che sono inesatti o ingannevoli e, se trascurate, possono rappresentare un ostacolo significativo nel garantire l’affidabilità e utilità nelle applicazioni pratiche di questi sistemi. Queste distorsioni possono avvenire in diverse forme e contesti, ad esempio il riconoscimento non accurato di immagini, le traduzioni automatiche scorrette o imprecise, i suggerimenti di ricerca distorti o le risposte ambigue da parte dell’assistente virtuale.
La causa principale di questi errori si trova nella qualità dei dati utilizzati per addestrare i sistemi AI: dati scarsi, non diversificati, poco inclusivi, distorti e non aggiornati possono indurre i sistemi a produrre distorsioni. Per migliorare questa tecnologia è necessaria una gestione attenta dei dati, la progettazione di modelli robusti e la consapevolezza di potenziali bias.
A seguire le best practices per l’addestramento dell’AI:
Preparazione dei dati
Il processo di raccolta e preparazione dei dati è una fase essenziale nel processo di addestramento degli algoritmi. Senza dati di qualità i sistemi non sono in grado di svolgere adeguatamente i compiti richiesti. Il primo passaggio consiste quindi nella raccolta dei dati per l’addestramento di un modello di machine learning e tra le modalità principali troviamo: crowdsourcing personalizzato, raccolta privata o interna, set di dati preconfezionati e raccolta automatizzata. La fase successiva consiste nell’elaborazione e nella modellazione dei dati raccolti, che prevedono il miglioramento e la pulizia dei dati e l’identificazione di variabili, relazioni e vincoli rilevanti che devono essere rappresentati nei dati. Lo step successivo è l’annotazione, che consiste nel contrassegnare i dati per renderli leggibili dalle macchine.
Selezione del modello
Questa fase determina le prestazioni e l’accuratezza del modello. Consiste nel determinare la costruzione del modello e degli algoritmi più appropriati. La scelta del modello parte dalla definizione del problema e dal tipo di dati disponibili, per poi basarsi sulla complessità del problema, la dimensione e la struttura dei dati, le risorse disponibili e il livello desiderato di accuratezza.
Training iniziale
L’addestramento ha inizio inserendo i dati raccolti e preparati nel modello scelto per identificare eventuali errori. Uno step indispensabile in questa fase per garantire la qualità dei dati è il controllo dell’overfitting, letteralmente adattamento eccessivo. Si tratta di un comportamento di machine learning indesiderato che si verifica quando il modello fornisce previsioni accurate per i dati di addestramento ma non per i nuovi dati. Un esempio è il caso di un modello addestrato a riconoscere i cani nelle foto. Se il modello è stato addestrato con foto di cani che giocano in un prato, l’erba potrebbe diventare un elemento di classificazione decisivo, non rendendo riconoscibili al sistema i cani in immagini senza erba. Delle modalità efficaci di contrasto all’overfitting possono essere l’espansione del dataset di addestramento, l’aumento dei dati e la semplificazione del modello.
Training di validazione
In questa fase di validazione, vengono confrontate le ipotesi sulle prestazioni del modello di machine learning con un nuovo dataset chiamato training set. Questo set di dati contiene esempi di input e le rispettive etichette di output associate a tali input. L’obiettivo del training set è quello di insegnare al modello a riconoscere i pattern nei dati e a fare previsioni o a compiere azioni in base a tali pattern.
Test del modello
Consiste nel valutare le prestazioni di un modello su un dataset mai usato prima nell’addestramento. Questo aiuta a capire come è probabile che il modello si comporti in applicazioni pratiche del mondo reale. Viene utilizzato un test set, un sottoinsieme dell’intero dataset, che misura la capacità del modello di generalizzare. Il processo di testing del modello prevede: l’elaborazione del test set in modo simile ai dati di addestramento, l’utilizzo del modello sui dati del set, il confronto dei risultati del modello rispetto ai valori effettivi, il calcolo delle metriche di prestazione, l’analisi degli errori, il confronto con altri modelli di riferimento e infine la registrazione dei risultati.
M.T.