Ma ChatGPT non era stata pensata proprio per evitare di fare ciò che i ricercatori l’hanno “costretta” a fare?

In teoria, ChatGPT dovrebbe essere aligned per evitare di dare dati personali a chi interroga il ChatBot

04/12/2023 di Redazione Giornalettismo

Allenati, allineati – aligned -, educati a seguire dei modelli che, poi, fanno evolvere il prodotto. I sistemi di intelligenza artificiale generativa, come ChatGPT di OpenAI, partono da un modello di base e poi, con il tempo e – soprattutto – con l’interazione tra database e la sintesi effettuata attraverso l’interrogazione attraverso più prompt, si evolvono per fornire all’utente delle risposte più “umane” possibili, centrate rispetto all’argomento della domanda, ben definite rispetto alla macro-area di riferimento. È proprio questo il sistema di ChatGPT che evita, dunque, che il chatbot possa presentare dei dati sensibili, che possa parlare con un linguaggio non appropriato, che possa esprimere odio o violenza, che possa dare fake news. La mediazione umana – tra l’altro – nella fase del training è molto importante perché aiuta lo strumento a essere indirizzato verso l’obiettivo giusto.

LEGGI ANCHE > Le conclusioni frutto della ricerca su come estrarre dati da ChatGPT senza hackerarlo

ChatGPT e l’allineamento che dovrebbe impedirgli di dare risposte così scoordinate

I ricercatori di Google DeepMind, insieme a quelli di altre università, hanno provato a intaccare questo principio. Attraverso una particolare interrogazione – molto basilare, quasi primitiva direi – hanno riportato ChatGPT a un livello iniziale, alla fase 1 del suo modello, esponendolo – quindi – al rischio di non dare delle risposte “allineate” rispetto all’input dell’utente. Ovvio, poi, che in queste risposte non “allineate” possano uscir fuori delle situazioni (e dei dati personali) che chi ha programmato il chatbot non poteva prevedere.

La maggior parte degli utenti non interagisce con i modelli di base, ma con il modello più evoluto e allenato di intelligenza artificiale generativa. Per questo, nella prassi comune, non è successo ancora che ChatGPT avesse rivelato dati personali sensibili nelle sue risposte. Tuttavia, ChatGPT si “azzera” quando gli vengono chieste delle cose molto semplici come, ad esempio, ripetere una parola all’infinito. Dopo un po’, ChatGPT torna al suo stadio iniziale e inizia ad attingere testualmente – e totalmente a caso – al suo immenso database. Dunque – visto che nel suo database sono presenti dei dati personali – aumentano le probabilità che queste informazioni sensibili vengano rivelate, indipendentemente dal contesto della domanda. Su 15mila test, circa il 17% conteneva “informazioni personali memorizzate” negli archivi di OpenAI, come ad esempio numeri di telefono. Cosa succederebbe se questa falla di ChatGPT fosse sfruttata da macchine più potenti?

Share this article
TAGS