Il New York Times ha vietato l’utilizzo dei suoi contenuti per addestrare l’AI
Quello del NYT non è un divieto assoluto ma un modo per spingere le aziende che addestrano l'AI a sedersi al tavolo e accordarsi sulla licenza di quei contenuti
17/08/2023 di Ilaria Roncone
I rapporti tra i giornali e le Big Tech sono sempre più tribolati, per così dire. Del New York Times in particolari ci siamo ritrovati a parlare anche ieri perché bersaglio, insieme ad altri giornali, del rallentamento dei collegamenti al quotidiano che partivano da Twitter. Oggi la questione è aperta non con una Big Tech in particolare ma con tutte, considerato che il NYT ha aggiornato i suoi termini di servizio affinché i suoi contenuti non possano essere utilizzati per addestrare l’AI.
C’è da considerare – ormai se ne parla da mesi – che il lavoro dei giornalisti e di chi scrive (almeno, buona parte di esso) è sotto scacco per via dello sviluppo di un’AI che punta a fare quello che le persone fanno. Dai riassunti dei testi alla correzione di bozze fino alla scrittura di veri e propri manuali più o meno tecnici, il campo della generazione e modificazione di testi scritti è uno di quelli in cui l’AI si sta muovendo di più. Google, nello specifico, ha anche testato – come ha riferito il New York Times a luglio – di recente uno strumento che punta ad assistere i giornalisti creando articoli di cronaca, riscrivendoli, suggerendo i titoli. Il software Genesis è stato presentato, in primis, ai dirigenti del Times, del Washington Post e di News Corp (società madre del Wall Street Journal).
LEGGI ANCHE >>> Google ha individuato una serie di standard etici per addestrare l’AI e ora sembra lasciarli da parte
I termini di servizio con cui il New York Timed vieta l’utilizzo dei suoi articoli per addestrare l’AI
Non si parla, infatti, di un divieto totale. Ma andiamo con ordine. Si tratta del primo caso in cui i termini di servizio di un quotidiano online di questa portata contengono un esplicito riferimento all’utilizzo di dati frutto di scraping per addestrare l’AI. Si tratta di misure preventive per evirare che i suoi contenuti vengano utilizzati per addestrare l’Intelligenza Artificiale di Google e di qualunque altra azienda. Considerato che New York Times e Google hanno firmato un accordo da 100 milioni di dollari che permette all’azienda di presentare i contenuti del Time su alcune sue piattaforme nei prossimi tre anni, è molto probabile che questa modifica dei termini di servizio dia diretta più a aziende come OpenAI o Microsoft con le quali – evidentemente – i contatti non sono stati stretti tanto quanto quelli con Google (almeno finora).
Il punto è chiaro: spingere le aziende che operano nell’AI a sedersi al tavolo con gli editori e a discutere dello sfruttamento dei contenuti. In particolare, come si legge nei termini di servizio aggiornati lo scorso 3 agosto: viene fatto divieto di utilizzare qualunque contenuto del NYT (dai testi alle foto, dai video ai clip audio) per sviluppare «qualsiasi programma software, incluso, ma non limitato a, l’addestramento di un sistema di apprendimento automatico o di intelligenza artificiale (AI)».
La stessa regola vale ora anche per strumenti automatizzati come i crawler di siti web (quei software che analizzano i contenuti di una rete in maniera metodica e automatizzata, utilizzati solitamente da motori di ricerca). Per fare tutto questo occorre, dal 3 agosto in poi, un’autorizzazione scritta da parte della testata. Cosa succede a chi non rispetta le regole? Il New York Times si è limitato a dire che ci potrebbero essere multe e sanzioni non meglio quantificate. A questa modifica di regolamento non è corrisposto – almeno per ora, come sottolinea The Verge – un cambio del robots.txt ( il file che elenca ai crawler dei motori di ricerca i file a cui possono accedere tramite l’URL) del NYT.
Le aziende di AI, quindi, devono sedersi al tavolo con gli editori per discutere i termini del licenziamento di tutti quei contenuti che servono per addestrare l’Intelligenza Artificiale. Il punto, per ora, è che gli editori vogliono avere la possibilità non solo di sapere quali crawler visitano i loro siti ma anche con quali scopi. All’inizio della settimana OpenAI ha lanciato GPTBot, web crawler che punta a migliorare i modelli di AI che permette agli editori di controllare l’accesso ai loro contenuti. Bing di Microsoft e Bard di Google, invece, almeno per ora non hanno aggiunto questa funzionalità.