Come ChatGPT deve mitigare i rischi per rispettare il “legittimo interesse”
Seguendo il documento della task force dei Garanti Privacy europei, OpenAI deve lavorare ancora molto su questo aspetto
28/05/2024 di Enzo Boldi
C’è un legittimo interesse da parte di ChatGPT per la sua raccolta dei dati, ma tutto ciò dipende dalla mitigazione dei rischi che l’azienda che ha sviluppato questo (e altri) strumento di intelligenza artificiale deve rispettare. Questo è uno dei punti cardine del report della task force europea dei Garanti della privacy UE istituita a metà aprile per valutare la conformità del famoso chatbot di OpenAI al Regolamento Europeo sulla Protezione dei Dati Personali (GDPR). Dunque, c’è una base che consente a strumenti simili di effettuare lo scraping dei dati per addestrare l’AI, ma ci sono – al tempo stesso – numerosi problemi ancora da risolvere.
LEGGI ANCHE > Il Garante europeo dice che l’attività di scraping di OpenAI per l’addestramento di ChatGPT è di pubblico interesse
La valutazione della task force dell’EDPB (European Data Protection Board) in merito al legittimo interesse ChatGPT può lasciare di stucco. Di fatto, però, si tratta della conferma di quanto già dichiarato da OpenAI nella sua privacy policy sul suo prodotto di punta. Ma proprio questo aspetto porta a una serie di considerazioni che obbligheranno (o dovrebbero obbligare) l’azienda di Sam Altman a modificare molti dei paradigmi legati alla cosiddetta “mitigazione dei rischi” che, sotto molti aspetti, per ora sembra essere assente in molti ambiti.
Legittimo interesse ChatGPT, come mitigare i rischi
Per capire di cosa stiamo parlando, dobbiamo fare un passo indietro nel tempo, fino a quelle settimane di fuoco in cui il Garante Privacy italiano bloccò (temporaneamente) ChatGPT in Italia, aprendo le porte a una valutazione comunitaria sul “comportamento” del chatbot. In particolare, c’è una questione di fondo: l’accuratezza delle risposte. OpenAI rispose sottolineando come le risposte di ChatGPT non siano mai state “vendute” al pubblico come una verità assoluta. Ma questo, in termini di trasparenza, non basta a sottostare alle caratteristiche del “legittimo interesse”. E, infatti, la task force ha sottolineato un aspetto:
«In linea con il principio di trasparenza ai sensi dell’articolo 5, paragrafo 1, lettera a), del GDPR, è importante che il titolare del trattamento fornisca informazioni adeguate sui meccanismi di creazione di output probabilistici e sul loro limitato livello di affidabilità, compreso un riferimento esplicito al fatto che il testo generato, sebbene sintatticamente corretto, potrebbe essere parziale o inventato. Sebbene le misure adottate per rispettare il principio di trasparenza siano utili per evitare interpretazioni errate dell’output di ChatGPT, non sono sufficienti per rispettare il principio di accuratezza dei dati, come ricordato sopra».
Dunque, questo è il primo punto della mitigazione dei rischi non apportata, completamente, su ChatGPT dall’azienda di Sam Altman: il chatbot ha “allucinazioni” e restituisce anche informazioni con bias. Questo dovrebbe essere il punto centrale da rispettare per quel che riguarda il principio di trasparenza. Passando da quello relativo all’accuratezza:
«Va notato che lo scopo dell’elaborazione dei dati è quello di addestrare ChatGPT e non necessariamente di fornire informazioni fattualmente accurate. Infatti, a causa della natura probabilistica del sistema, l’attuale approccio all’addestramento porta a un modello che può produrre risultati distorti o inventati. Inoltre, è probabile che gli output forniti da ChatGPT siano considerati dagli utenti finali come accurati dal punto di vista dei fatti, comprese le informazioni relative agli individui, indipendentemente dalla loro effettiva accuratezza. In ogni caso, il principio dell’accuratezza dei dati deve essere rispettato».
Dunque, se si parla di legittimo interesse ChatGPT nel trattamento dei dati (e nello scraping per addestrare il suo modello AI), occorre mettere in luce queste criticità che non sono state ancora risolte.
I diritti dell’interessato
L’altro aspetto da approfondire per quel che riguarda la mitigazione dei rischi (e la sussistenza del principio del “legittimo interesse”) è quello relativo ai diritti dell’interessato e ai dati che dovrebbero essere esclusi dallo scraping per addestrare ChatGPT:
«Nel contesto attuale, in cui grandi quantità di dati personali vengono raccolte tramite web scraping, è difficile esaminare caso per caso ogni serie di dati. Tuttavia, le suddette misure di salvaguardia possono contribuire a soddisfare i requisiti del GDPR. Ad esempio, tali misure dovrebbero prevedere il filtraggio delle categorie di dati che rientrano nell’articolo 9, paragrafo 1, del GDPR. Il filtraggio dovrebbe essere applicato sia alla raccolta dei dati (ad esempio, selezionando i criteri per la raccolta dei dati) sia immediatamente dopo la raccolta dei dati (cancellazione dei dati). In linea con l’articolo 5, paragrafo 2, e l’articolo 24 del GDPR, l’onere della prova per dimostrare l’efficacia di tali misure spetta a OpenAI in qualità di responsabile del trattamento».
Dunque, dati personali relativi a appartenenza religiosa o politica di un utente, alla sua etnia, alla salute e all’orientamento sessuale (per non parlare dei dati biometrici) devono essere esclusi dallo scraping per l’addestramento. E c’è anche altro:
«Sebbene la valutazione della liceità sia ancora soggetta a indagini in corso, tali garanzie potrebbero essere, tra l’altro, misure tecniche, definendo criteri precisi di raccolta e garantendo che alcune categorie di dati non vengano raccolte o che alcune fonti (come i profili pubblici dei social media) siano escluse dalla raccolta dei dati. Inoltre, dovrebbero essere adottate misure per cancellare o rendere anonimi i dati personali raccolti tramite web scraping prima della fase di formazione».
Sarà ora compito di OpenAI quello di rispondere a queste perplessità sulla mitigazione dei rischi. Perché se il legittimo interesse è stato confermato dalla task force dell’EDPB, allo stato attuale ci sono molte criticità a livello di mitigazione dei rischi.