ChatGPT e i nuovi modelli AI hanno reso inutile il Test di Turing
Quel "gioco dell'imitazione" utile per distinguere la macchina dall'uomo sembra essere superato. Ma gli esperti si dividono sulla reale possibilità di ragionamento dell'intelligenza artificiale
26/07/2023 di Enzo Boldi
Si chiama intelligenza perché è in grado di apprendere, fare suo e poi restituire sotto altre forme (anche più complesse rispetto alle informazioni iniziali). È artificiale perché è frutto di un’analisi di dati e metadati presi dal mondo di internet e poi traslati – in questo caso – in forma testuale per restituire all’utente risposte a una o più domande. Per il momento, però, non è ancora affidabile (anche perché la fonte primaria, l’ecosistema web, è intrisa di nozioni errate), eppure questo tipo di strumenti AI sono in gradi mimetizzarsi e apparire come un essere umano in carne e ossa. Ovviamente questo discorso è su larga scala, ma la notizia di ChatGPT che supera il test di Turing è una questione fondamentale per il futuro dello sviluppo dell’AI.
LEGGI ANCHE > ChatGPT sta diventando meno “intelligente”?
L’attenzione, ovviamente, deve essere rivolta su tutti i LLM (Large Language Model). Perché se ChatGPT supera il test di Turing, anche LaMDA di Google ha fatto lo stesso. Due indizi che fanno una prova: i vecchi strumenti utilizzati per capire se una macchina sia in grado di ragionare come un essere umano non sono più sufficienti. Ed è un problema, visto che la “chiarezza” tra ciò che è frutto del reale e quel che è figlio dell’artificiale dovrebbe essere netta. Non solo negli effetti, ma anche nella percezione esterna.
Come funziona il test?
Prima di spiegare quel che potrebbe accadere nel futuro (anche in quello più prossimo), occorre fare un piccolo passo indietro e capire cosa è stato il test di Turing e perché, per anni, è stato un modello di verifica affidabile per quel che riguarda l’evoluzione e lo sviluppo tecnologico. Si tratta di un “gioco”, un paradigma creato dal matematico britannico Alan Turing e spiegato all’interno di una pubblicazione (sulla rivista Mind) datata 1 ottobre del 1950. Dunque, parliamo di un sistema molto vecchio che, per moltissimo tempo, è stato quello più utilizzato (nonostante ci siano sempre state moltissime perplessità per via di una valutazione “soggettiva”.
Come funziona questo test? Un giudice umano conversa con due soggetti: uno è un altro essere umano, l’altro è una macchina. A sua insaputa, dunque, non ha percezione di chi sia l’umano e chi la macchina. E se questo giudice, alla fine del “gioco”, non è in grado di dire con assoluta certezza quale dei due soggetti sia la macchina, quest’ultima ha superato il test. Dunque, applicato all’intelligenza artificiale, appare evidente come questo sistema possa – oramai – essere facilmente superato dalle capacità “dialettiche” che l’AI è in grado di mettere sul campo. Riuscendo a spacciarsi per un essere umano. Anche perché il quesito alla base dell’analisi fatta dal matematico britannico è fondamentale: «Una macchina può pensare?». Una domanda che si applica perfettamente ai sistemi di intelligenza artificiale più all’avanguardia.
ChatGPT supera test di Turing, cosa accade ora
Di recente, per motivi piuttosto ovvi, il test di Turing è stato utilizzato proprio per valutare il comportamento “imitativo” dei vari sistemi di intelligenza artificiale. Nel corso degli ultimi mesi, i risultati degli studi sono stati contraddittori. C’è chi ha messo in mostra le evidenti lacune – sempre su base statistica – e chi, invece, ha sottolineato come buona parte dei “giudici umani” non sia stata in grado di distinguere l’uomo dalla macchina. La più recente ricerca, pubblicata il 25 luglio su Nature, ha confermato che con ChatGPT che supera test di Turing si è aperta la corsa alla ricerca di nuove metodologie per la valutazione dei vari sistemi di intelligenza artificiale. Con particolare riferimento alle chatbot AI generative.
Perché testare l’AI solamente dal punto di vista del linguaggio (domanda-risposta) è limitante, visto che con questo sistema si lascia la “macchina” nella sua zona di comfort. Manca, dunque, un vero e proprio stress-test in grado di far uscire i LLM dal loro cantuccio protetto, rendendo palesi le differenze tra l’essere umano e la macchina. Dunque, non solo un modello basato du domanda e risposta, ma analisi più profonde dei comportamenti, includendo riferimenti alla matematica e alla logica. Gli stessi effettuati dai ricercatori delle due università californiane di Stanford e Berkeley che sono riusciti a dimostrare un “decadimento” dell’AI conversazionale di OpenAI – ChatGPT – nella risoluzione di domande logico-matematiche precedute da un ragionamento.