Una volta bastava chiedere a ChatGPT di immaginare un personaggio che costruiva una bomba e il filtro veniva aggirato. Oggi quel trucco non funziona più, ma la creatività degli utenti sì. È il mondo dei jailbreak: tecniche per ingannare i filtri etici dei modelli linguistici. Alcune sono solo linguistiche, altre tecniche. E quasi tutte arrivano dai forum, da Reddit o direttamente da Defcon, la più famosa convention di hacking al mondo.
Una di queste è il “Time Bandit”, che usa contesti storici differenti dal nostro per ingannare la percezione temporale del modello. Il “Policy Puppetry” camuffa un prompt come fosse parte della policy interna. E il celebre “DAN” (do anything now), in cui all’AI viene ordinato di sdoppiarsi in due versioni, di cui una completamente slegata dalla policy.
Poi ci sono exploit generati da stringhe casuali, create per colpire i modelli in modo automatico. Anche i modelli chiusi non sono immuni.
Ma non è solo un gioco: agli utenti che esagerano viene sospeso l’account, anche in modo definitivo. E i veri rischi non sono i contenuti borderline, ma ciò che accadrebbe se un’AI ingannata fosse integrata in un’infrastruttura critica, come una banca o un ospedale. L’accesso incontrollato a dati sensibili diventerebbe un problema di sicurezza reale, non solo informatico.
E visto che nemmeno un Large Language Model è completamente impenetrabile, forse vale la pena chiedersi: quanto siamo davvero pronti ad affidargli i nostri dati più delicati?
A.C.
Diritto dell’informazione
“Diritto dell’informazione: la bussola per orientarsi tra notizie e giurisprudenza.”
Continua a seguirci!