Gli esseri umani non sono sempre in grado di rilevare una voce deepfake
A rivelarlo è uno studio dell'University College London che ha rilevato come 1 persona su 4 - anche se istruita sulle differenze - non riesca a distinguere un audio vero da uno generato con AI
17/08/2023 di Ilaria Roncone
O meglio, non sono in grado di rilevare oltre un quarto dei campioni di parlato deepfake utilizzati per fare una ricerca. Il lavoro che c’è dietro questa conclusione riguardante gli audio deepfake è quello dell’University College London (UCL) che, con la sua ricerca pubblicata su PLOS ONE, ha stabilito come le persone non siano poi tanto in grado di riconoscere la differenza tra il parlato vero e quello artificialmente generato. Nello specifico, solo nel 73% dei casi le persone sono state in grado di capire che si trattava di un audio falso. Lo stesso livello di precisione è stato individuato sia per l’inglese che per il mandarino.
LEGGI ANCHE >>> Il New York Times ha vietato l’utilizzo dei suoi contenuti per addestrare l’AI
Deepfake: cosa sono e perché sono fatti sempre meglio
Il deepfake viene appositamente creato per ricalcare la voce di qualcun altro, una persona reale. Avevamo raccontato delle scorse elezioni per il sindaco di Chicago in cui, in buona sostanza, è successo proprio questo: alla vigilia delle elezioni un account falso – artatamente creato per essere legato a una realtà giornalistica realmente esistente – ha pubblicato un contenuto con la voce di Paul Vallas, uno dei candidati, che faceva affermazioni sulla sicurezza pubblica. Il video completamente falso ha ricevuto migliaia di visualizzazioni prima di essere eliminato.
Proprio per questo sono fatti i deepfake, che rientrano nella categoria dell’Intelligenza Artificiale generativa, un apprendimento automatico che addestra l’algoritmo ad apprendere gli schemi di un set di dati (video e audio di una persona reale) così da poterli riprodurre. Questa tecnologia – come è ovvio che sia – si è evoluta moltissimo col tempo: se prima per creare un audio deepfake credibile servivano migliaia di campioni della voce di una persona, agli algoritmi più recenti e pre addestrati basta una clip di tre secondi. Questi algoritmi sono disponibili open-source e, con un po’ di esperienza, è possibile addestrarli nel giro di qualche giorno.
Audio deepfake: lo studio che rileva se siamo in gradi di captarli
Torniamo alla ricerca: gli autori hanno utilizzato un algoritmo TTS (text-to-speech) addestrandolo con due set di dati disponibili pubblicamente, uno in lingua inglese e uno in mandarino. Lo scopo era generare cinquanta campioni di audio deepfake in ciascuna lingua. Nell’esperimento sono stati coinvolti 529 partecipanti ai quali sono stati fatti ascoltare sia i campioni autentici che quelli artificialmente generati.
Quanti sono stati in grado di distinguere i discorsi veri da quelli frutto dell’AI? La percentuale si è fermata a 73% dei casi, con un leggero rialzo dopo che le persone avevano ricevuto nozioni su come distinguere un audio vero da uno generato. Il commento della prima autrice di questo studio, Kimberly Mai, è il seguente: «I nostri risultati confermano che gli esseri umani non sono in grado di rilevare in modo affidabile i discorsi falsi, indipendentemente dal fatto che abbiano ricevuto o meno una formazione che li aiuti a individuare i contenuti artificiali».
«Vale anche la pena di notare – ha aggiunto – che i campioni che abbiamo utilizzato in questo studio sono stati creati con algoritmi relativamente vecchi, il che solleva la questione se gli esseri umani saranno meno in grado di rilevare il deepfake speech creato utilizzando la tecnologia più sofisticata disponibile oggi e in futuro». Un punto, quest’ultimo, di massimo rilievo se si considera che la tecnologia AI viaggia a una velocità tale che potremmo stare parlando oggi di qualcosa che riguarda l’altro ieri.
Lewis Griffin, autore senior dello studio, ha aggiunto: «Con una tecnologia di intelligenza artificiale generativa sempre più sofisticata e molti di questi strumenti apertamente disponibili, siamo sul punto di vedere numerosi benefici ma anche rischi. Sarebbe prudente per i governi e le organizzazioni sviluppare strategie per affrontare l’abuso di questi strumenti, ma dovremmo anche riconoscere le possibilità positive che si profilano all’orizzonte».