Come è possibile definire il buon funzionamento dei modelli di AI generativa? L’intelligenza delle macchine è misurabile sulla base della loro capacità di ingannare l’essere umano: più una macchina è capace di simulare efficacemente una persona, più è considerata intelligente. Tuttavia, ad oggi è necessario ridefinire i confini entro cui valutiamo il buon funzionamento di un sistema.
Ma quali sono gli strumenti di valutazione contemporanei? La metodologia tradizionalmente adoperata è quella di rivolgere al modello di AI una serie di domande “multiple-choice” e valutarne l’accuratezza. Dunque, calcolando la percentuale delle risposte corrette, è possibile comprenderne l’efficacia. In questo modo si ha una classifica dei modelli sulla base delle loro capacità di risposta.
Qual è il grande rischio in questo processo? Può verificarsi una contaminazione dei dati utili alla fase di addestramento. Più precisamente, è possibile che alcuni modelli conoscano già le domande e le risposte fornite loro durante il test: questo fa sì che alcuni sistemi siano più avvantaggiati di altri. A rendere ancora più complessa la situazione si inserisce la difficoltà di riconoscere quali modelli siano stati contaminati e quali siano “puliti”. Si aggiunge il fatto che i modelli evolvono significativamente nel tempo: una batteria di domande che anni fa appariva complessa, ad oggi può risultare immediata da risolvere. Dunque, i test devono essere continuamente aggiornati con domande sempre più difficili.
Esistono modalità per testare i sistemi di AI più avanzati ed efficienti? Occorre introdurre il concetto di “LLM-as-a-judge”: si tratta di assegnare la valutazione di un “task” a un modello che fa da giudice. Nonostante alcuni studiosi siano scettici al riguardo, sembra essere una strada particolarmente promettente. In altre parole, sarebbero dei modelli di AI a valutare altri modelli di AI: un vero e proprio paradosso.
Ma perdere il filtro umano significherebbe entrare in un circolo vizioso, dove è sempre più difficile capire se il modello di AI stia sbagliando. Tuttavia, le prospettive future sembrano dire altro e l’idea di un’AI che valuta un’altra AI sembra più vicina del previsto.
L.V.
Diritto dell’informazione
“Diritto dell’informazione: la bussola per orientarsi tra notizie e giurisprudenza.”
Continua a seguirci!

















