Social Network

La mossa di Musk è per limitare lo scraping dell’intelligenza artificiale?

A dichiararlo è stato lo stesso proprietario di Twitter che punta il dito, senza citare nessuna azienda, proprio sul data scraping attraverso il suo social

In origine erano 6mila per gli account verificati (a pagamento), 600 per gli utenti che utilizzano gratuitamente la piattaforma e 300 per quelli nuovi. Poi questi numeri, nel corso delle ore e nel bel mezzo delle proteste social, sono cresciuti fino ad arrivare a 10mila per chi versa ogni mesi il costo della sottoscrizione per ottenere la “spunta blu”, mille per chi continua a usufruirne in modo gratuito e 500 per i nuovi iscritti. Parliamo dei limiti imposti da Twitter per la lettura dei tweet, tema che ha provocato un vero e proprio subbuglio sui social. Si parla di limitazioni che, come spiegato da Elon Musk, sono temporanee e che hanno come obiettivo primario quello di porre un freno al data scraping dei sistemi di intelligenza artificiale. È veramente così o si tratta dell’ennesima mossa per cercare di far defluire il “pubblico” che usufruisce gratuitamente del social sulla versione a pagamento?

Una domanda che, come diceva Antonio Lubrano, sorge spontanea. Perché nella narrazione fatta da Elon Musk sulla decisione – in seguito a un malfunzionamento denunciato dagli utenti che, in realtà, non era altro che un aggiornamento delle linee guida sui limiti Twitter giornalieri, ci sono alcuni punti che non tornano. A partire dalle dinamiche che hanno portato questi numeri a variare compulsivamente nel corso di meno di 24 ore.

Now to 10k, 1k & 0.5k

— Elon Musk (@elonmusk) July 1, 2023

Dunque, tutto ciò già fa emergere delle serie perplessità. Ma, d’altro canto, parliamo sempre di Elon Musk che anche nel suo modo di comunicare e gestire le aziende continua a essere vulcanico. Soprattutto per quel sui riferimento al data scraping degli strumenti di intelligenza artificiale.

Limiti Twitter, Musk parla di soluzione allo scraping AI

Perché nel suo annuncio iniziale, il fondatore di Tesla ha scritto esplicitamente: «Per affrontare i livelli estremi di data scraping e manipolazione del sistema, abbiamo applicato i seguenti limiti temporanei». Dunque, scraping dei dati di Twitter per addestrare e allenare sistemi di AI. Un concetto ribadito più volte, anche in risposta ad altri tweet.

Temporary emergency measure. We were getting data pillaged so much that it was degrading service for normal users!

— Elon Musk (@elonmusk) June 30, 2023

Anche nella sua risposta al CEO di Epic Games, Tim Sweeney – che ha commentato questa vicenda sostenendo come l’intero ecosistema internet sia diventato il mondo degli “account walled” (non più a fruizione libera, ma a pagamento) anche per quel che riguarda Twitter – Elon Musk ha puntato il dito sul data scraping dell’AI.

Several hundred organizations (maybe more) were scraping Twitter data extremely aggressively, to the point where it was affecting the real user experience.

What should we do to stop that? I’m open to ideas.

— Elon Musk (@elonmusk) June 30, 2023

E nel prosieguo del suo thread con Sweeney – che suggeriva a Musk di trovare soluzioni alternative a quella dei limiti Twitter (dall’implementazione dei sistemi di sicurezza al divieto di scraping inserito all’interno dei termini di servizio, per arrivare fino alla denuncia degli abusi) -, il fondatore di Tesla ha risposto che queste dinamiche già sono presenti in piattaforma, ma che il data scraping sta avvenendo attraverso indirizzi IP “modificati” dal proxy.

1. Scraping is already disallowed by T&C.

2. The scraping orgs dgaf & mask their IPs through proxy servers or through orgs that appear legit. For example, a recent massive scraping operation originating from Oracle IP addresses was just using their servers as a laundromat.

3.…

— Elon Musk (@elonmusk) June 30, 2023

Ma una soluzione tecnica arriva dallo stesso Sweeney: «È un gioco al gatto e al topo di limitazione della velocità o blocco degli host cloud e degli intervalli IP VPN, inviando loro un flusso di “cessazione e desistere” oltre ad aprire un contenzioso contro le società di intelligenza artificiale che impiegano i loschi subappaltatori. Non c’è vincita, solo una pila di topi in crescita». Suggerimenti che, però, non sembrano aver convito Elon Musk.

Contro OpenAI e le altre?

Come detto all’inizio di questo approfondimento, il capo di Twitter non ha fatto i nomi delle aziende che starebbero utilizzando la piattaforma per le attività di data scraping. Ma lo scorso 14 giugno, era stato proprio lui a fare il nome di OpenAI, denunciando un abuso in termini di “scraping” utilizzando ChatGPT.

Interesting, given that OpenAI has no authorized X/Twitter feed

— Elon Musk (@elonmusk) June 14, 2023

Da tempo, infatti, Musk aveva deciso di interrompere l’accesso di ChatGPT ai dati di Twitter, avviando una causa contro la società americana guidata da Sam Altman (OpenAI). Dunque, unendo i tasselli, la decisione potrebbe essere ricondotta proprio alla questione del data scraping per i sistemi di AI. A tutto ciò si somma la decisione, che risale al mese di aprile, di mettere a pagamento l’accesso all’API della piattaforma. Questo vuol dire che gli sviluppatori di terze parti avrebbero dovuto pagare per poter utilizzare l’Interfaccia di programmazione delle applicazioni.

Cosa non torna?

Il quadro, dunque, sembra andare nella direzione raccontata da Elon Musk. Ma nella sua narrazione ci sono alcuni aspetti che non tornano. Perché limitare (seppur temporaneamente, come dichiarato da lui stesso) la lettura – anche attraverso la mera attività di scrolling, senza alcuna interazione – dei tweet sembra essere una soluzione tampone, dallo scarso senso logico. Perché, per esempio, basterebbe realizzare un algoritmo in grado di “grattare” i dati ottenuti sfruttando un centinaio di account “fake” per superare quell’ostacolo dettato dai limiti Twitter. Inoltre, ci sono sistemi che permettono di impedire il web scraping e il data scraping, con annessa possibilità di bloccare gli IP e inviare segnalazioni e denunce in caso di abuso. E sullo sfondo resta quel rumore chiamato “abbonamento” a Twitter Blue: pagare anche per avere meno limiti di “scroll”.