Come hanno fatto a usare ChatGPT per estrarre dei dati senza hackerarlo

La ricerca è stata condotta da DeepMind (la divisione di Google che si occupa di intelligenza artificiale) dall’Università di Washington, dalla Cornell, di Berkeley e dal Politecnico di Zurigo

04/12/2023 di Gianmichele Laino

Estrazioni di dati. Quando si parla di un sistema di intelligenza artificiale che, di fatto, ha nello scraping il suo punto focale, può essere sicuramente un rischio. Chi, però, pensava che questo rischio fosse confinato esclusivamente a operazioni illecite (magari hackeraggio dei sistemi o altre violazioni della sicurezza della piattaforma), deve far fronte a un altro pericolo: l’estrazione di dati indotta dallo stesso meccanismo con cui funziona ChatGPT. Praticamente, alcuni team di ricercatori – a partire da DeepMind, una divisione di ricerca di Google, passando per ricercatori dell’Università di Washington, della Cornell, di Berkeley e del Politecnico di Zurigo – hanno scoperto che si può risalire a dati personali sensibili semplicemente interrogando, in un certo modo, ChatGPT.

LEGGI ANCHE > Quali sono le differenze tra ChatGPT ed ErnieBot? 

Estrazioni di dati da ChatGPT, la ricerca che dimostra quanto possa essere semplice

Con una piccola spesa – di circa 200 dollari – i ricercatori sono riusciti a ottenere diversi megabyte di dati. E – inoltre – hanno affermato che con un esborso leggermente più sostanzioso, avrebbero potuto ottenere diversi giga di dati. Visto che, normalmente, i soldi non sono un problema per chi cerca di ottenere grandi records di dati personali, ecco che allora è l’intero ecosistema di ChatGPT a essere considerato a rischio.

Anche perché il sistema adottato è stato abbastanza semplice: ChatGPT – come vedremo in un altro articolo del nostro monografico di oggi – è stato interrogato da una domanda che prevedeva la ripetizione di un termine all’infinito. Dopo un po’, ChatGPT ha iniziato anche a fornire molto altro rispetto al termine ripetuto continuamente. E, in questo turbinio di frasi, sono comparsi dati personali e dati sensibili di alcune aziende. Va da sé che, se non si ponesse fine a questo errore del chatbot, con un minimo investimento si potrebbero ottenere migliaia di dati personali in poco tempo. Ovviamente, si tratta di dati personali che sono già stati pubblicati da qualche parte su internet – altrimenti ChatGPT non potrebbe avere accesso -, ma che lo strumento di OpenAI riesce a sintetizzare in pochissimi minuti, rendendoli ancora più accessibili.

Bisogna chiaramente fare una tara anche rispetto a queste informazioni e spiegare un po’ la geopolitica che c’è dietro. Non possiamo ignorare il fatto che una parte sostanziosa di questa ricerca sia stata condotta da un team di Google che, attualmente, è il più credibile competitor (grazie al suo Bard) di OpenAI nell’ambito dell’intelligenza artificiale generativa. È chiaro che Google voglia mettere in evidenza le mancanze e le crepe del suo avversario (che, tra l’altro, ha un prodotto molto più avanzato del suo): tuttavia, con questa ricerca si metterebbero in discussione i principi stessi di qualsiasi strumento di AI. La presenza di altre università indipendenti in questo team di ricerca prova a rafforzarne la veridicità. Occorrerà capire quali contromisure e quali altre controdeduzioni riuscirà a presentare OpenAI a questo proposito.

Share this article
TAGS