Una delle sfide fondamentali del campo tecnologico moderno è capire come valutare efficacemente un sistema di IA e cercare di capire come questo si evolve e come poterlo migliorare ulteriormente. Ultimamente l’IA delle aziende si è evoluta talmente tanto da riuscire a superare facilmente i test che venivano fatti prima, richiedendo quindi una rivalutazione completa e una progettazione di nuovi test.
Nei test attuali, basati soprattutto, su domande di cultura generale e di buon senso l’IA riesce a rispondere correttamente a circa il 90% delle domande, ciò dimostra che oramai i metodi di valutazione odierni non sono più sufficienti.
Ora per valutare più efficacemente i sistemi di IA bisogna creare ambienti complessi dove essa può interagire con diversi strumenti.
Inoltre vi è anche la difficoltà di come le aziende addestrano l’IA. I ricercatori della Apple affermano che l’IA genera risposte in base a come essa sia stata addestrata, arrivando nel tempo a rispondere automaticamente senza ragionare, solo perché quella domanda è stata già vista e assimilata, causando però il problema che nel momento in cui le domande vengono modificate anche leggermente la percentuale di riposte corrette cala drasticamente.
Uno dei nuovi test che sta venendo usato attualmente è FrontierMath, un test di matematica molto complesso che richiede l’utilizzo di algoritmi e di dimostrazione per completare i calcoli, con la presenza di una protezione nel sito che impedisce le risposte casuali o la creazione di domande già viste.
Questa crescente difficoltà ha anche portato i ricercatori ad organizzare degli eventi come “L’Ultimo Esame per l’Umanità” una sfida organizzata da Scale AI e il Center for AI Safety (CAIS) che chiedono alle persone di inviare domande per poter testare la AI, che ha l’obbiettivo di capire quanto si è vicini a creare delle AI quasi perfette.
S.P.
Diritto dell’informazione
“Diritto dell’informazione: la bussola per orientarsi tra notizie e giurisprudenza.”
Continua a seguirci!
▶️ https://dirittodellinformazione.it/chi-siamo/
S.P.