La pubblicazione dello studio di OpenAI e Apollo Research ha portato a una svolta chiave nell’ambito della trasparenza e della sicurezza dell’AI. Quello che emerge è che i modelli riescono a mentire proponendo veri e propri comportamenti occulti.
Si tratta del fenomeno dello “scheming”, che si verifica quando l’AI raggira gli obiettivi dei suoi sviluppatori e ne persegue altri non allineati. Tuttavia, grazie allo sviluppo di tecniche di training dedicate, è possibile limitare queste casistiche. A minacciare questa parziale soluzione, si inserisce il fatto che i modelli riconoscono di essere testati e questo rende la valutazione di affidabilità complessa.
Ma nello specifico, cosa dimostra questa ricerca congiunta? Partendo dalla realizzazione di ventisei test indipendenti in oltre centottanta ambienti, è stato dimostrato un trend decrescente dei comportamenti occulti dopo l’addestramento anti-scheming. Ma proprio a questo punto si inserisce una grande abilità sviluppata dai modelli stessi: questi sanno riconoscere di essere testati. Dunque, le tecniche di valutazione possono essere raggirate da un sistema che sa di essere sotto esame.
Il punto focale della fase di addestramento è il deliberative alignment, nonché un approccio che spinge il modello a consultare un documento con valori di riferimento e utilizzarlo come guida per fornire le proprie risposte. Ma cosa attiva un campanello d’allarme nei modelli? Nelle loro tracce di ragionamento si inseriscono avvertimenti che fanno comprendere loro di essere testati: si tratta di una vera e propria consapevolezza situazionale nei test. Il problema vero è che questo riconoscimento si intensifica al crescere dell’addestramento.
Dunque, ad oggi, l’esigenza è di definire nuovi metodi più attenti e precisi. Bisogna prevedere strumenti di valutazione più avanzati e requisiti minimi di trasparenza che impongano alle aziende di documentare i test.
L.V.

















