Gli sviluppatori utilizzano più volentieri articoli di giornale che contenuti generici per addestrare i chatbot

Nell'addestrare i modelli linguistici che danno vita a chatbot come ChatGPT gli sviluppatori preferiscono contenuti giornalistici di qualità rispetto a contenuti generici

06/11/2023 di Ilaria Roncone

Non solo i sistemi AI come ChatGPT si baserebbero su contenuti editoriali protetti da copyright per essere addestrati, lo farebbero anche in maniera massiccia e sproporzionata. Questa l’accusa della News Media Alliance, un gruppo commerciale che rappresenta oltre 2.200 editori e proprietari di siti web (tra cui anche il New York Times). La conclusione arriva accompagnata alla pubblicazione di una ricerca – citata dal NYT, appunto – che dimostra come gli sviluppatori preferiscano articoli di giornale a contenuti generici reperiti online quando si tratta di addestrate l’AI e che i chatbot vanno a riproporre frammenti di articoli in alcune delle loro risposte.

LEGGI ANCHE >>> Le preoccupazioni del Guardian nella lettera ufficiale inviata a Microsoft

La legge del copyright violata per addestrare i chatbot

«È un’esacerbazione di un problema già esistente», afferma a chiare lettere Danielle Coffey, presidentessa e amministratrice delegata della News Media Alliance. Si tratta di una questione che si può far rientrare nell’ambito del mancato pagamento da parte delle Big Tech di un equo compenso alle organizzazioni giornalistiche per il traffico che da sempre ottengono grazie alle visualizzazioni di quel materiale.

Da parte dei rappresentati di Google e OpenAI non c’è stata risposta in merito alla questione dopo una richiesta di commento.

News Alliance Media conferma: preferiti contenuti di qualità per l’AI

La metodologia della ricerca che ha portato a questa conclusione è stata spiegata. In particolar modo, la News Alliance Media ha messo a confronto una serie di set di dati pubblici che si presume vengano utilizzati per addestrare i più noti modelli linguistici di grandi dimensioni (alla base, tra gli altri, di ChatGPT) con un set di contenuto open source di tipo generico estratti dal web.

Cosa è emerso? Che i contenuti di tipo giornalistico, quelli più accurati, venivano utilizzati dalle cinque alle cento volte in più rispetto a quelli di natura più generica. Coffey ha tradotto questo numero, che dimostra – in sostanza – come chi si occupa di addestrare le intelligenze artificiali (gli sviluppatori, all’atto pratico) preferisca usare contenuti di maggiore qualità. Ci sono stati anche casi in cui dopo la richiesta fatta a un chatbot è stato restituito un testo che riproduceva in maniera diretta il linguaggio utilizzato in alcuni articoli. Questo dimostra, secondo l’ad di News Alliance Media, come i chatbot conservino copie dei contenuti degli editori.

Chatbot come competitor nella stesura della cronaca

Questo sistema sta arrivando a rendere i chatbot dei competitor nel lavoro di cronaca:«Agisce davvero come un sostituto del nostro lavoro – ha affermato Coffey -. Si vede che i nostri articoli sono solo presi e rigurgitati alla lettera». questo report è stato presentato presso lo studio dell’U.S. Copyright Office sull’IA e la legge sul copyright mentre si punta a portare le Big Tech in tribunale.

Le preoccupazioni di chi lavora con le parole e nel mondo dell’editoria concernenti l’AI, dunque, aumentano: la paura di essere sostituiti dall’intelligenza artificiale, la paura di vedere il traffico delle testate diminuire in favore di realtà interamente prodotte da chatbot, la paura che questi ultimi – sfruttando materiale per il quale non viene corrisposto nessun compenso – possano arrivare a produrre contenuti di cronaca di qualità. News Media Alliance, intanto, sta esplorando la possibilità di concedere licenze collettive per i contenuti dei suoi membri (tra i quali figurano i maggiori editori di notizie e riviste degli Stati Uniti).

Share this article