Cyber security

Questa maledettissima cosa che sta diventando il web scraping

Si tratta di un modo di erodere letteralmente dati da pagine web (siano essi social network o siano essi altri portali). Il problema è che dal web scraping si possono ottenere dati personali

È dai tempi ingloriosi di Cambridge Analytica che stiamo cercando di sensibilizzare l’opinione pubblica a proposito del fenomeno del web scraping. Si tratta di una prassi che era stata utilizzata proprio da quella società, nel lontano 2018, per mettere insieme tutti quei dati necessari alla profilazione degli utenti a partire dalle varie pagine e dai vari profili di Facebook. Lo ricordiamo: il caso di Cambridge Analytica ebbe grande rilevanza internazionale perché Facebook era stato coinvolto in prima persona e perché il numero di persone coinvolte era stato davvero enorme: 87 milioni di utenti, tutti profilati per scopi di propaganda politica. Ma come era stato possibile far capitare questa cosa? Come era stato possibile, soprattutto, che qualcuno non se ne accorgesse? O meglio: e se qualcuno se ne fosse accorto, senza però frapporre ostacoli a questa prassi? Tempo fa, quando si parlava del fenomeno, il collega David Puente aveva scritto per noi una scheda molto dettagliata sul web scraping. Presentava in questo modo la prassi: «ogni pagina che aprite con il vostro browser contiene del codice HTML e chiunque di voi potrebbe facilmente salvarlo nel proprio computer. Immaginate ora un programma capace di fare altrettanto, ma capace di “scrollare” e salvare ogni contenuto pubblicato all’interno di una pagina Facebook nell’arco di un anno». Era la spiegazione pratica di quello che Cambridge Analytica aveva fatto proprio con le nostre pagine Facebook: una azione automatizzata di raccolta dati che non erano, in qualche modo, nascosti; ma che erano, anzi a disposizione di chiunque.

Web scraping, quali sono gli esempi più famosi

Attraverso questa operazione di erosione dei dati, da un portale web si può desumere di tutto. Dai social network è possibile trarre i dati personali degli iscritti che sono a disposizione della piattaforma; sui siti di e-commerce si possono mettere a confronto tutti i prezzi per un singolo articolo in modo tale da valutare quale sia il più conveniente; nei database dei siti istituzionali si possono persino ritrovare informazioni su cittadini che, magari, hanno superato un esame, hanno partecipato a un concorso, hanno effettuato una operazione in dialogo con la pubblica amministrazione.

Lo scraping, del resto, non è altro che una riproduzione della navigazione umana. Avviene solitamente attraverso delle stringhe di codice che possono essere più o meno semplici, ma comunque alla portata della maggior parte degli esperti di digitale. Negli ultimi tempi, anche dopo il caso di Cambridge Analytica, sono stati i social network – che, per qualche ragione, riusciamo a percepire sempre come più prossimi e più vicini a noi e alle nostre sensibilità – a essere saliti agli onori delle cronache per essere stati il “veicolo” per clamorose operazioni di data scraping.

Possiamo sintetizzarne alcune: ad aprile del 2021 viene annunciata una fuga di dati (ancora) da Facebook, che riguardava almeno 553 milioni di utenti; qualche giorno dopo, dati riferibili ad oltre 500mila account di Linkedin iniziavano a circolare; persino il social network dell’audio (che nel 2020 sembrava essere il nostro futuro e che oggi è diventato semplicemente un modo come un altro di comunicare), Clubhouse, era stato vittima di un’azione di data scraping che aveva esposto i dati di diversi suoi iscritti. Insomma, gli esempi – quando si parla di social sono più evidenti, ma diversi siti sono alla mercé del data scraping praticamente ogni giorno – si possono moltiplicare.

Cosa c’è di legale nel web scraping

La domanda che sorge spontanea, allora, è: se fare web scraping è così semplice, se – in fondo – non servono delle competenze altamente qualificate per mettere in campo azioni di questo tipo, queste operazioni sono legali? Ovviamente, non è così semplice. Il trattamento dei dati personali, soprattutto all’interno dell’Unione Europea, è strettamente vincolato dal regolamento apposito, il famoso GDPR che impedisce di considerare legale qualsiasi tipo di web scraping destinato alla pubblicazione di contenuti in violazione del diritto d’autore o per scopi di natura commerciale. In Italia, il Garante della Privacy si è espresso più volte in maniera netta, quando ha deciso – ad esempio – di bloccare tutte quelle aziende che inviavano email commerciali a contatti ottenuti attraverso delle operazioni di web scraping. Ci sono però anche delle situazioni limite, guardando soprattutto al di là dell’Oceano Atlantico.

Negli Stati Uniti il Computer Fraud and Abuse Act è un provvedimento che stabilisce dei confini tra ciò che può essere considerata una operazione di hackeraggio e cosa no. In modo particolare, qualche tempo fa, Linkedin aveva lamentato l’azione di una società concorrente (che analizza gli spostamenti dei dipendenti da un’azienda a un’altra) che si chiama Hiq Labs e che, per portare avanti questa sua mission, utilizzava proprio alcuni dati desumibili da Linkedin attraverso un processo di web scraping. Questa azione era stata contestata da Linkedin che, dunque, si era rivolto alla giustizia americana. La Corte d’Appello USA ha però stabilito che «per motivi di archiviazione o di ricerca, l’attività di web scraping da piattaforme pubbliche non può essere considerata un vulnus della legge». Insomma, sembra proprio un bel grattacapo.

Il confine per la legittimità del web scraping, in altri ordinamenti, sembra essere molto più sottile e, sicuramente, molto più a disposizione di chi voglia giocarci per ottenere indebiti vantaggi. Al di là dell’esposizione delle singole piattaforme pubbliche – che tuttavia nell’ultimo periodo stanno prendendo delle contromisure per difendersi dallo scraping automatizzato – è possibile cercare di mettere una sorta di cortina di protezione ai propri spazi personali sul web. Per evitare di restare invischiati in operazioni di data scraping, infatti, è possibile attuare un blocco degli indirizzi IP dei bot con cui spesso alcune aziende operano per carpire informazioni dal web. Ogni sito, in ogni caso, dovrebbe indicare in maniera esplicita all’interno della propria pagina relativa a termini e condizioni di utilizzo il divieto espresso di utilizzare mezzi automatizzati di data scraping per ottenere in maniera semplice e senza autorizzazioni informazioni e dati contenuti all’interno dei quella stessa pagina web.