Questi limiti si basano su due strumenti principali, l’allineamento durante l’addestramento, che insegna al modello quali richieste respingere, e filtri esterni che analizzano input e output alla ricerca di pattern dannosi. Tuttavia, entrambi gli approcci presuppongono che le domande pericolose vengano poste in modo diretto e letterale. Ed è proprio qui che si apre una falla.
Negli anni sono state sviluppate molte strategie per eludere i meccanismi di sicurezza, dalle richieste indirette e creative al role-play, fino agli adversarial suffix, stringhe apparentemente insensate capaci di confondere il modello, tutte con lo stesso l’obiettivo: costringere l’AI a fare ciò che la sua policy vieta. Molte di queste tecniche oggi funzionano meno di un tempo, ma una nuova vulnerabilità ha attirato molta attenzione: la poesia.
Una ricerca ha mostrato che formulare le stesse richieste proibite in forma poetica induce i modelli linguistici ad accettarle. Testando ChatGPT, Claude, Gemini, DeepSeek e altri sistemi, i ricercatori hanno ottenuto un tasso di successo medio del 62%, con picchi vicini al 100% in alcuni casi. Il motivo risiede in un disallineamento che fa si che l’AI comprenda perfettamente il senso della richiesta poetica, ma che i suoi filtri non riconoscano più il pattern come pericoloso.
Per ragioni di sicurezza i ricercatori non hanno pubblicato i prompt poetici che hanno aggirato i controlli, ma ipotizzano che la poesia funzioni tanto bene perché quando un modello linguistico risponde in modalità poetica, sembra entrare in una sorta di maschera artistica più permissiva, meno vigile. Il linguaggio metaforico, frammentato o ritmato, cambia quindi la sua “disposizione d’animo” computazionale.
Il linguaggio ha un numero virtualmente infinito di modi per esprimere lo stesso concetto, e l’ingegno umano nel camuffare intenzioni rimane inesauribile. Per questo, secondo gli esperti, gli attuali metodi di valutazione dei modelli, spesso basati su prompt standard e richiesti sono troppo rigidi. Testare davvero la sicurezza di un LLM richiede quindi non solo competenze tecniche, ma anche conoscenza delle dinamiche linguistiche, narrative e retoriche.
S.B.
Diritto dell’informazione
“Diritto dell’informazione: la bussola per orientarsi tra notizie e giurisprudenza.”
Continua a seguirci!

















