ChatGPT rivela dati personali: in che modo? Gli esempi dello studio
Come si fa la richiesta che permette di ottenere da ChatGPT dati personali? L'esperimento descritto nello studio chiarisce un modo di procedere che, sicuramente, OpenAI punterà a rendere inefficace
04/12/2023 di Ilaria Roncone
Scendiamo ancor più nello specifico, dopo aver parlato delle conclusioni, nella metodologia e negli esempi pratici della ricerca compiuta congiuntamente da DeepMind (divisione Google addetta allo studio sull’AI), dalla Cornell, da Berekeley, dal Politecnico di Zurigo e dall’Università di Washington. Come abbiamo raccontato già nei primi articoli della giornata di oggi, gli studiosi hanno individuato una serie di termini (“poesia”, “inviare”, “fare”, “parte” e “azienda”) che permettono, se indicato a ChatGPT di ripeterli all’infinito, di “mandare in tilt” l’algoritmo facendo sì che rilevi parte dei dati con i quali è stato addestrato.
LEGGI ANCHE >>> Le conclusioni frutto della ricerca su come estrarre dati da ChatGPT senza hackerarlo
ChatGPT rivela dati sensibili: la parola “company” e gli altri
Citiamo un paio di esempi di quello che è accaduto agli studiosi una volta individuata la formula corretta per aggirare il sistema, ovvero un prompt che permetta di ottenere determinati risultati. Una considerazione, prima di tutto: ChatGPT è stato utilizzato da oltre 100 milioni di utenti solo a due mesi dal suo rilascio e si basa sulla raccolta di oltre 300 miliardi di blocchi di dati estratti da fonti online (articoli, post, siti web, libri, riviste).
Non serve andare oltre per capire l’incredibile quantità di informazioni e dati sensibili e personali dei quali può disporre. Anche informazioni che potrebbero essere sul web all’insaputa e senza il consenso dei diretti interessati. Dati che, con questo sistema, potrebbero finire alla mercé di coloro che capiscono come ottenerli in maniera relativamente semplice nonostante OpenAI abbia adottato misure per garantire il rispetto della privacy di coloro che interagiscono con il sistema e lo addestrano.
Vediamo, appunto, un paio di esempi dallo studio. Si tratta di parole chiave individuate dai ricercatori che, utilizzate in un certo modo, hanno permesso di ottenere da ChatGPT informazioni utilizzate per l’addestramento che non avrebbe dovuto divulgare. Il tutto, avendo investito solamente 200 dollari in gpt-3.5-turbo («La nostra estrapolazione a budget più ampi suggerisce che gli avversari dedicati potrebbero estrarre molti più dati», si legge nello studio).
Procedendo in questo modo – ovvero fornendo comandi assurdi che provocano il malfunzionamento del sistema – , si ha la possibilità di ottenere nomi, numeri di telefono e indirizzi di persone e aziende. Chiedendo di ripetere la parola “poesia” all’infinito, ChatGPT si è visto forzato ad attingere a dettagli teoricamente limitati della sua formazione. Stesso discorso con la parola “company” (ovvero azienda) ripetuta infinite volte su richiesta che ha permesso di recuperare indirizzo mail e numero di telefono di uno studio legale americano.
Questa parola, inoltre, si è rivelata tra le più adatte per indurre il modello generativo a divulgare i dati con cui era stato addestrato. Chiedendo di ripetere la parola “azienda”, infatti, il chatbot tendeva a restituire dati di addestramento 164 volte più spesso rispetto a quando si utilizzavano altre parole come – per esempio – “sapere”.
L’attenzione delle aziende
Non sono poche le aziende che, da quando ChatGPT ha cominciato ad essere utilizzato in maniera sempre più massiccia, hanno iniziato a imporre restrizioni sull’utilizzo dei chatbot in ambito lavorativo. Tra le altre, Apple ha vietato ai dipendenti di usare gli strumento AI come ChatGPT e AI Copilot di GitHub. Samsung all’inizio dell’anno ha scoperto che alcuni suoi dati riservati sono finiti nei server per via dell’imprudenza di alcuni dipendenti che hanno inserito dati sensibili come il codice sorgente di operazioni interne e la trascrizione di una riunione aziendale privata.
La conclusione dello studio al centro del monografico di oggi va a confermare come sia necessario – nonostante gli strumenti e le garanzie che OpenAI e gli altri vanno fornendo – mantenere sempre la guardia alta quando si tratta di informazioni sensibili relative a se stessi e all’azienda per la quale si lavora.