Emergono nuove ed interessanti possibilità all’interno del campo degli LLM, i large language model, nei quali alcuni modelli di IA, come per esempio GPT-4, hanno evidenziato capacità notevoli di ragionamento autonomo, di fatto non presente nell’input ad essi fornito.
Capacità, queste, che sono state rilevate durante le fasi di “addestramento” dei modelli, spesso corrispondenti ai metodi reinforcement learning (RL) o reinforcement learning with human feedback (RLHF).
Il primo di questi due metodi riguarda la fornitura di una ricompensa al modello di IA in questione in base alla correttezza dell’azione svolta. Nel corso del tempo, il modello capisce quali sono le azioni migliori da compiere per assicurarsi ricompense sempre maggiori.
Il secondo prevede la presenza di umani nel fornire all’IA le ricompense, attuando quindi un processo di verifica su quanto elaborato dal modello. Man mano, l’IA impara a fornire risposte sempre più complete e sempre più attinenti a quanto richiesto dagli umani, di fatto pensando e ragionando come noi.
C’è da sottolineare come in nessuno di questi casi all’IA siano state fornite indicazioni precise sul tipo di risposta da formulare o sul ragionamento da seguire. Si tratta quindi di un apprendimento automatico che il modello esegue richiesta dopo richiesta, in base alle ricompense fornite, per immagazzinare tutto ciò che potrebbe essergli utile ad ottenerne sempre di maggiori.
L’obiettivo a lungo termine è quindi quello di arrivare a formulare vere e proprie scoperte totalmente in autonomia, in base a ricerche e studi eseguite dalla stessa IA. Pensando invece più a breve termine, si punta ad ulteriori progressi sulla scrittura di ragionamenti di maggiore lunghezza e complessità.
S.C.
Diritto dell’informazione
“Diritto dell’informazione: la bussola per orientarsi tra notizie e giurisprudenza.”
Continua a seguirci!
▶️ https://dirittodellinformazione.it/chi-siamo/