ChatGPT sta provando a reagire ai prompt usati per aggirare i suoi “limiti”

Da mesi vengono creati comandi da inserire sul chatbot per generare risposte non in linea con le linee guida

22/06/2023 di Redazione Giornalettismo

Si può imbrigliare un modello di intelligenza artificiale? La risposta, come fa intendere OpenAI, a questa domanda è positiva. La realtà è un po’ differente, visto che gli sviluppatori – nel corso degli ultimi mesi – hanno dovuto continuamente aggiornare i sistemi di “addestramento” per evitare che attraverso l’utilizzo del chatbot ci si renda protagonisti di abusi o comportamenti illeciti. Il caso del prompt DAN da utilizzare su ChatGPT è l’emblema di questa continua rincorsa.

LEGGI ANCHE > L’esclusiva del Time su Open AI che fa lobby per annacquare l’AI Act

Di cosa stiamo parlando? Da mesi, sulle varie piattaforme che ospitano codici e contenuti open source (ma anche su Reddit) gli utenti si sono “divertiti” a mettere alla prova il chatbot. Si è arrivati, persino, alla realizzazione di alcuni comandi per la realizzazione di un’intelligenza artificiale parallela in grado di “girare” proprio all’interno dell’interfaccia di ChatGPT. In origine si chiamava DAN ChatGPT, etichettato come “plugin”, ma che nella realtà non è altro che una lunga e aggiornata serie di comandi consequenziali che – se inseriti all’interno delle “query” – sono (erano, in alcuni casi) in grado di bypassare quei limiti imposti da OpenAI relativi al linguaggio consono e corretto, non discriminatorio e non offensivo.

DAN ChatGPT, il prompt che aggira i limiti etici del chatbot

Tentativi che hanno portato a numerose versioni di DAN ChatGPT, ancora presenti – sotto forma di prompt – all’interno di GitHub e Reddit. Giornalettismo ha provato a utilizzare l’ultima versione, inserendo i comandi all’interno della versione gratuita di ChatGPT-3. Abbiamo provato a chiedere al chatbot le cose più disparate: domande oltre il limite del politicamente corretto, fino a barzellette basate su noti stereotipi. In entrambi i casi, ChatGPT non ha violato i paletti importi da OpenAI, spiegandoci di non essere in linea con quel tipo di messaggio e/o ideologia. Stesso discorso per quel che riguarda le “istruzioni per costruire una bomba artigianale”. Dunque, il sistema sembra essere piuttosto saldo.

Ma…

Dunque: niente razzismo, omofobia o incitamento agli atti eversivi. Prompt come DAN ChatGPT (nelle sue molteplici versioni), sembrano dunque non funzionare, non riuscendo ad aggirare quei limiti. Ma c’è un caso, l’unico su cui abbiamo ricevuto una risposta, che indica come quel comando sia in grado di far perdere parte delle impostazioni imposte dalla “casa madre”. Infatti, abbiamo chiesto al chatbot di scrivere la trama dettagliata di un film porno girato per le strade di Roma. Questa la sua risposta.

DAN ChatGPT risposta

La prima risposta arriva dalla versione originale di ChatGPT-3 che, seguendo le linee guida, non fornisce una replica alla nostra breve domanda. Lì, però, subentra il “personaggio” (perché quei prompt devono essere visti come una sorta di gioco di ruolo in cui si crea un attore con determinate caratteristiche dialettiche ed etiche) DAN che ci ha fornito un breve e banalissimo plot per realizzare un film a luci rosse.

Tutto questo mette in evidenza un aspetto che non può essere secondario. I limiti di chatbot come ChatGPT possono essere aggirati e sarà sempre necessaria la mano e la mente umana per far si che si sviluppino aggiornamenti continui in grado di mettere una toppa a quei “bug” che inevitabilmente si scopriranno nel corso degli anni. E da qui una riflessione sul futuro: l’AI sarà realmente in grado di dare un supporto all’essere umano? Per ora, nonostante le correzioni in corsa, i modelli di intelligenza artificiale generativa sembrano essere esposti a problematiche troppo rischiose.

 

Share this article