Quali sono i dati utilizzati per addestrare Life2vec e perché potrebbe non essere mai reso disponibile al pubblico
Per far funzionare un modello di questo tipo sono necessarie grandissime quantità di dati: ecco i criteri utilizzati dal team di ricerca
04/01/2024 di Gianmichele Laino
Un modello come quello di Life2vec necessita, come detto, di un grande quantitativo di dati per esprimere i propri risultati. Il team di ricerca capeggiato da Germans Savcisens e composto dai ricercatori Tina Eliassi-Rad, Lars Kai Hansen, Laust Hvas Mortensen, Lau Lilleholt, Anna Rogers, Ingo Zettler e Sune Lehmann ha avuto a disposizione un enorme data base – anche di ambito sanitario – sul quale effettuare sintesi e operazioni di analisi. Innanzitutto, il team di ricerca ha avuto a disposizione dei dati statistici che fotografano molto bene la situazione sociale in Danimarca nel periodo di tempo che è stato scansionato. Nella fattispecie, si è fatto riferimento al Labour Market Account (AMRUN) dell’istituto di statistica danese (che prende in considerazione abitudini di lavoro, salari e orari lavorativi di chi ha un impiego nel Paese nordeuropeo) e al National Patient Registry, l’apposito elenco che fotografa la situazione sanitaria nello stato dell’Unione Europea.
LEGGI ANCHE > La questione etica sollevata dagli stessi ricercatori di Life2vec
Dataset di Life2vec: quali sono gli elenchi utilizzati e le informazioni estratte dal modello
Il periodo di tempo esaminato dai ricercatori di cui accennavamo all’inizio, anche per una questione meramente pratica del controllo dei risultati della ricerca, è limitato agli anni compresi tra il 2008 e il 2015. Visto che il modello previsionale cerca di individuare le tendenze negli anni successivi al 2016, il poter contare su un quantitativo di dati di partenza afferenti a un periodo di tempo tra 15 e 8 anni fa consente anche di poter controllare gli esiti delle ricerche. Se si fa una previsione su questo periodo di tempo, infatti, si possono ipotizzare delle parabole di vita (e la famosa data di morte, che rappresenta solo una fase dello studio) dal 2016 in poi. Cosa diversa sarebbe stata analizzare dati più recenti, con relative previsioni su eventi che ancora non si sono verificati (e che, quindi, non possono essere confermati).
Il numero preciso di persone che sono state analizzate dalla ricerca è di 3 milioni 252mila: si tratta di persone vive e che risultavano residenti in Danimarca al 31 dicembre 2015. Ovviamente, in questo vasto campionario sono state utili principalmente quelle persone che avevano almeno 12 documenti disponibili, sia per quanto riguarda il loro impiego, sia per quanto riguarda la loro storia sanitaria.
Nello studio si spiega che è stata fatta anche una ulteriore selezione: «Per l’attività di previsione della mortalità – si legge -, abbiamo escluso individui giovani con tassi di mortalità molto bassi e individui anziani con un’elevata probabilità di morte. Pertanto, abbiamo ristretto le specifiche dei requisiti e abbiamo limitato il set di dati alle persone che hanno tra i 35 e i 55 anni al 31 dicembre 2015 (ovvero circa 2 milioni e 302mila persone). In base al dataset estratto dall’istituto di statistica danese che analizza il mercato del lavoro, sono state estratte informazioni legate al reddito imponibile ricevuto da ciascun residente, al suo stipendio, a eventuali borse di studio statali, alla sua pensione. Ovviamente, sono stati presi in considerazione anche i rischi e le tipologie di lavoro legate a ciascun mestiere. Per i dati sanitari sono stati analizzati gli accessi al pronto soccorso, i livelli di emergenza con cui sono stati trattati i singoli pazienti, le cure a cui sono stati sottoposti.
Tuttavia, per fare in modo che questi dati potessero essere utilizzati per scopi di ricerca accademica, sono stati anonimizzati, secondo quanto previsto dal GDPR. L’operazione di dissociazione tra il dato personale e la persona a cui appartiene ha sicuramente fatto in modo che i ricercatori potessero andare avanti con le loro ricerche. Del resto, una pubblicazione di questo modello renderebbe praticamente impossibile l’operazione di anonimizzazione del dato. Un ostacolo in apparenza insormontabile, che non permette – al momento – di mettere a disposizione degli utenti (nemmeno attraverso formule di piattaforme a pagamento) il modello Life2vec.