Attualità

Come funziona il data scraping dell’intelligenza artificiale

Elon Musk ha motivato la scelta (temporanea) di imporre dei limiti nella fruizione dei tweet proprio a questo

Quel che avvenuto nel corso delle ultime ore su Twitter, con l’imposizione (temporanea, forse) di un limite di lettura dei tweet (in base al livello di “abbonamento), ha riportato in auge una questione che rischia di avere gravi problemi di risoluzione. In attesa di un importante intervento legislativo – come l’AI Act in Europa -, infatti, sta diventando sempre più di dominio pubblico il problema dell’addestramento dei modelli di intelligenza artificiale attraverso il cosiddetto Data Scraping. Una pratica comune che ha spesso portato a riflessioni e decisioni da parte delle aziende (come nel caso dell’accesso alle API di Reddit a pagamento), dando vita a un effetto domino.

L’intelligenza artificiale, senza dati, è un contenitore vuoto. Quei dati, presenti all’interno dell’ecosistema web, sono la linfa vitale in grado di addestrare, allenare e – di conseguenza – allineare l’AI. E come tutto ciò può diventare realtà? Con il Data Scraping. E oltre al “web” in generale, moltissimi di quei dati necessari a procedere in questa direzione sono contenuti all’interno delle piattaforme social.

Data Scraping, come funziona nel mondo dell’intelligenza artificiale

Ma di cosa stiamo parlando? Proviamo a spiegarlo in parole semplici. Lo scraping dell’intelligenza artificiale – detto anche AI scraping – è un processo di “estrazione” e “raccolta” di dati che provengono da diverse fonti. Per fare tutto ciò si utilizzano tecniche e strumenti basate sull’intelligenza artificiale e algoritmi. Dunque, avviene una combinazione tra l’apprendimento automatico e l’automazione per poter procedere al reperimento delle informazioni in grado di addestrare uno strumento AI. Ma non si tratta di un “fenomeno” recente, visto che già in passato ci siamo trovati di fronti a fenomeni di web scraping. Con l’evoluzione dell’intelligenza artificiale, però, tutto ciò sta portando a dei confini molto più labili e sempre più allargati.

Infatti, a differenza del data scraping “tradizionale” – che si basa principalmente sui dati provenienti dalle pagine web -, lo scraping dell’Intelligenza Artificiale sembra non avere confini: dai file PDF alle immagini, passando per video, dati strutturati (e non). Fino ad arrivare alle piattaforme social. Il tutto attraverso tecniche molto avanzate, come l’elaborazione del linguaggio naturale, l’apprendimento automatico e l’OCR (il riconoscimento ottico dei caratteri di scrittura).

Il caso Twitter

Nelle ultime ore, questo tema è diventato d’interesse pubblico per via delle decisioni prese da Elon Musk di limitare la lettura dei tweet a un numero prestabilito di contenuti quotidiani (in base all’abbonamento sottoscritto, o no). Perché lo stesso imprenditore ha parlato di soluzione necessaria per contrastare il data scraping di Twitter. Ma ci sono degli aspetti da sottolineare, perché fino ad aprile scorso l’utilizzo dell’API della piattaforma era gratuito, ma ad aprile la fruizione da terze parti è stata resa a pagamento. Dunque, il limite alla possibilità di scrollare lungo i “Per te” e i “Seguiti” sembra essere poco in linea con il principio alla base dello scraping social da parte di strumenti di intelligenza artificiale.