Dietro la crescente capacità dei modelli linguistici di rispondere in modo comprensibile, pertinente, cortese e utile, c’è una tecnica chiamata RLHF: Reinforcement Learning from Human Feedback. È la strategia adottata da OpenAI, uno standard per rendere l’Intelligenza Artificiale generativa più allineata alle aspettative umane, combinando addestramento supervisionato, feedback umano e apprendimento per rinforzo.
Il processo si articola in tre fasi. Si parte con il fine-tuning supervisionato (SFT): si prende un modello già addestrato e lo si fa lavorare su esempi scelti da esperti umani. Per ogni domanda (o “prompt”) si fornisce una risposta scritta da persone, che l’AI deve cercare di imitare.
È il primo passo per insegnare al modello a seguire istruzioni in modo coerente.
Nella seconda fase si introduce un modello di ricompensa (Reward Model). Si chiede a gruppi di valutatori umani di confrontare le diverse risposte dell’AI e di scegliere quella che preferiscono. L’AI impara così a riconoscere cosa è più apprezzato, trasformando questi giudizi in numeri che identificano la “qualità” di una risposta.
La terza fase ottimizza la “policy” del modello, cioè le sue scelte, affinché massimizzi la ricompensa assegnata dal modello precedente. Si usa un algoritmo chiamato PPO, che regola quanto il nuovo comportamento possa deviare da quello originale. Troppa libertà rischia di generare output distorti, troppo controllo blocca l’apprendimento.
Questa tecnica ha migliorato drasticamente qualità e sicurezza dei modelli linguistici. Ma ha alcuni limiti: è costosa, dipende da etichettatori umani, può amplificare bias e portare e, in certi casi, “barare”, imparando a ottenere punteggi alti senza davvero migliorare il contenuto.
Per questo la ricerca si sta muovendo verso alternative come il Direct Preference Optimization (che semplifica il processo) e la Constitutional AI (che usa principi scritti al posto di giudizi umani).
L’RLHF ha mostrato che non basta addestrare l’AI tramite testi: serve anche insegnarle come comportarsi. E questo, oggi, lo possiamo fare solo grazie al nostro giudizio, umano.
A.C.