sabato, 11 Ottobre, 2025
Diritto Dell'informazione - Portale di Informazione
Nessun risultato
Vedi tutti i risultati
  • Home
  • Chi siamo
  • Diritti in Rete
    • Libertà d’informazione
    • Fake news
    • Pluralismo e concorrenza
    • Privacy
    • Diffamazione
    • Copyright
    • Tutela dei minori
  • AI
    • Normativa AI
    • Soluzioni AI
    • Etica AI
  • Pubblico e privato
    • Cittadini
    • Cronaca
    • Imprese
    • Enti pubblici
    • Scuola e università
    • Associazioni e movimenti
    • Authority
    • Ordini professionali
    • Fondazioni
    • Cybersecurity
  • Rubriche
    • L’angolo di Ruben Razzante
    • Tecnologie
    • Libri
  • Innovazione
    • Sostenibilità
    • Blockchain
  • YouTube
  • interviste
  • Ultim’ora
Morning News
Nessun risultato
Vedi tutti i risultati
Home Ai

RLHF: COSÌ L’INTELLIGENZA ARTIFICIALE IMPARA A CAPIRCI

Con il Reinforcement Learning from Human Feedback, l’Intelligenza Artificiale impara a generare risposte più utili, sicure e vicine a ciò che l’utente si aspetta

by Redazione
3 Luglio 2025
in Ai
0 0
0
RLHF: COSÌ L’INTELLIGENZA ARTIFICIALE IMPARA A CAPIRCI
0
CONDIVIDI
FacebookShare on TwitterLinkedinWhatsappEmail

Dietro la crescente capacità dei modelli linguistici di rispondere in modo comprensibile, pertinente, cortese e utile, c’è una tecnica chiamata RLHF: Reinforcement Learning from Human Feedback. È la strategia adottata da OpenAI, uno standard per rendere l’Intelligenza Artificiale generativa più allineata alle aspettative umane, combinando addestramento supervisionato, feedback umano e apprendimento per rinforzo.

Il processo si articola in tre fasi. Si parte con il fine-tuning supervisionato (SFT): si prende un modello già addestrato e lo si fa lavorare su esempi scelti da esperti umani. Per ogni domanda (o “prompt”) si fornisce una risposta scritta da persone, che l’AI deve cercare di imitare.

È il primo passo per insegnare al modello a seguire istruzioni in modo coerente.

Nella seconda fase si introduce un modello di ricompensa (Reward Model). Si chiede a gruppi di valutatori umani di confrontare le diverse risposte dell’AI e di scegliere quella che preferiscono. L’AI impara così a riconoscere cosa è più apprezzato, trasformando questi giudizi in numeri che identificano la “qualità” di una risposta.

La terza fase ottimizza la “policy” del modello, cioè le sue scelte, affinché massimizzi la ricompensa assegnata dal modello precedente. Si usa un algoritmo chiamato PPO, che regola quanto il nuovo comportamento possa deviare da quello originale. Troppa libertà rischia di generare output distorti, troppo controllo blocca l’apprendimento.

Questa tecnica ha migliorato drasticamente qualità e sicurezza dei modelli linguistici. Ma ha alcuni limiti: è costosa, dipende da etichettatori umani, può amplificare bias e portare e, in certi casi, “barare”, imparando a ottenere punteggi alti senza davvero migliorare il contenuto.

Per questo la ricerca si sta muovendo verso alternative come il Direct Preference Optimization (che semplifica il processo) e la Constitutional AI (che usa principi scritti al posto di giudizi umani).

L’RLHF ha mostrato che non basta addestrare l’AI tramite testi: serve anche insegnarle come comportarsi. E questo, oggi, lo possiamo fare solo grazie al nostro giudizio, umano.

A.C.


Diritto dell’informazione

“Diritto dell’informazione: la bussola per orientarsi tra notizie e giurisprudenza.”

Continua a seguirci!

▶️ https://dirittodellinformazione.it/chi-siamo/

Tags: addestramento AIAIrisposteutiliRLHF
Plugin Install : Subscribe Push Notification need OneSignal plugin to be installed.

Articoli Correlati - Articolo

GOOGLE PORTA AI MODE IN ITALIA: LA RICERCA DIVENTA UNA CONVERSAZIONE
Ai

GOOGLE PORTA AI MODE IN ITALIA: LA RICERCA DIVENTA UNA CONVERSAZIONE

10 Ottobre 2025
CHAT CONTROL PER IL CONTROLLO DEGLI ABUSI SESSUALI SUI MINORI
Ai

CHAT CONTROL PER IL CONTROLLO DEGLI ABUSI SESSUALI SUI MINORI

10 Ottobre 2025
CHATGPT PULSE
Ai

CHATGPT PULSE

10 Ottobre 2025
POLITICA E STRATEGIE DI SPECIALIZZAZIONE INTELLIGENTE
Ai

POLITICA E STRATEGIE DI SPECIALIZZAZIONE INTELLIGENTE

9 Ottobre 2025
LA NUOVA LEGGE SULL’AI: TRA INNOVAZIONE E INCERTEZZE
Ai

LA NUOVA LEGGE SULL’AI: TRA INNOVAZIONE E INCERTEZZE

9 Ottobre 2025
TUTELA DEI MINORI E CYBERBULLISMO: COME FUNZIONA SU INTERNET?
Ai

TUTELA DEI MINORI E CYBERBULLISMO: COME FUNZIONA SU INTERNET?

8 Ottobre 2025

PORTALE SVILUPPATO DA

MyWebSolutions Web Agency

Categorie Articoli

News Popolari

È REATO PUBBLICARE FOTO DI MINORI SENZA IL CONSENSO DEI GENITORI?

È REATO PUBBLICARE FOTO DI MINORI SENZA IL CONSENSO DEI GENITORI?

27 Dicembre 2022
CHI SONO E COSA FANNO GLI INFLUENCER

CHI SONO E COSA FANNO GLI INFLUENCER

29 Novembre 2021
WHATSAPP, E-MAIL E SMS HANNO VALORE DI PROVA LEGALE

WHATSAPP, E-MAIL E SMS HANNO VALORE DI PROVA LEGALE

25 Gennaio 2023
Tutela del diritto d’autore e download di giornali e notizie

Tutela del diritto d’autore e download di giornali e notizie

17 Aprile 2020
DIFFAMAZIONE, INGIURIA E SOCIAL NETWORK

CHAT DI GRUPPO SU WHATSAPP E DIFFAMAZIONE, LA NUOVA SENTENZA DELLA CORTE DI CASSAZIONE

10 Gennaio 2023

In rilievo

MURENA ONE, LO SMARTPHONE SENZA GOOGLE PER TUTELARE LA PRIVACY

MURENA ONE, LO SMARTPHONE SENZA GOOGLE PER TUTELARE LA PRIVACY

16 Giugno 2022
LO SVILUPPO DELLA MOBILITÀ AEREA AVANZATA NELLE CITTÀ DELL’EMILIA-ROMAGNA

LO SVILUPPO DELLA MOBILITÀ AEREA AVANZATA NELLE CITTÀ DELL’EMILIA-ROMAGNA

27 Giugno 2022
ECCO COME GLI ITALIANI USANO I SOCIAL

ECCO COME GLI ITALIANI USANO I SOCIAL

11 Febbraio 2022
I NUOVI CV GENERATI DALL’AI

I NUOVI CV GENERATI DALL’AI

25 Settembre 2025
ACQUISTA ORAACQUISTA ORAACQUISTA ORA

RR Consulting

E-mail: redazione.dirittodellin
formazione@gmail.com

Condividi sui Social

Ultimi articoli pubblicati

  • GOOGLE PORTA AI MODE IN ITALIA: LA RICERCA DIVENTA UNA CONVERSAZIONE 10 Ottobre 2025
  • CHAT CONTROL PER IL CONTROLLO DEGLI ABUSI SESSUALI SUI MINORI 10 Ottobre 2025
  • CHATGPT PULSE 10 Ottobre 2025

Categorie articoli

Cerca articolo per mese…

Cerca articolo per nome…

Nessun risultato
Vedi tutti i risultati

Calendario Pubblicazioni

Ottobre 2025
L M M G V S D
 12345
6789101112
13141516171819
20212223242526
2728293031  
« Set    
  • Privacy policy
  • Cookie Policy

© 2019 Diritto dell'informazione - P.IVA:06530190963 - Created by MyWebSolutions - Web Agency

Nessun risultato
Vedi tutti i risultati
  • Home
  • Chi siamo
  • Dicono di noi
  • Authority
  • Deontologia dei giornalisti
  • Diffamazione
  • Diritto all’oblio
  • Fake news
  • Libertà d’informazione
  • Eventi
  • Tutela dei minori
  • Copyright
  • Privacy
    • Cittadini
    • Imprese

© 2019 Diritto dell'informazione - P.IVA:06530190963 - Created by MyWebSolutions - Web Agency

Area riservata ai relatori - Accedi al tuo account inserendo il tuo nome utente e la tua password...

Password dimenticata?

Fill the forms bellow to register

All fields are required. Entra

Recupera la tua password

Inserisci il tuo nome utente o indirizzo e-mail per reimpostare la password.

Entra