Come funziona e quali sono le potenzialità dell’AI di Showrunner

Lo strumento sviluppato da The Simulation fa tremare il mondo di Hollywood. Bastano prompt di poche parole per realizzare scene da 2 a 20 minuti

14/06/2024 di Enzo Boldi

Il mondo della produzione cinematografica rischia di ritrovarsi all’inizio di un nuovo scossone. Dopo lo sciopero di Hollywood – con ben 118 giorni di mobilitazione -, i grandi studios avevano preso l’impegno con il sindacato Sag-Aftra affinché l’utilizzo di tecnologie AI fosse limitato ed etico (anche per quel che riguarda la tutela della professione attoriale e il diritto d’autore). Per il momento, questi presupposti sembrano non esser stati toccati, ma c’è un grande rischio alle porte chiamato “Showrunner”.

LEGGI ANCHE > Showrunner è l’AI che si sta per abbattere sul mondo del cinema

La piattaforma è nata lo scorso anno, ma da qualche giorno è stata messa a disposizione degli utenti che possono iscriversi alla lista che – a oggi – supera le 50mila persone in attesa. Lì dentro, a mo’ di catalogo “Netflix”, vengono mostrati in anteprima alcuni dei progetti di mini-serie tv animate create interamente dalla loro intelligenza artificiale. Basta un comando (prompt) di poche parole (anche 15-20) per ottenere una puntata (sempre animata, almeno per il momento) che può andare dai 2 ai 20 minuti di durata. L’esempio più emblematico delle potenzialità di questo strumento è stato pubblicato lo scorso anno.

E nel frattempo, vedendo gli altri esempi pubblicati sul sito ufficiale, il sistema sembra essere ancor più migliorato. Come punto di partenza, infatti, si è scelto di utilizzare il modello “South Park”, la famosa serie di animazione irriverente (e molto poco politically correct) che nel corso degli anni ha ottenuto un grande successo. Come si vede dal video esempio, l’ironia non è pungente come nell’originale, ma già lo scorso anno si intuivano le potenzialità di questo strumento.

Showrunner, come funziona l’AI che fa tremare Hollywood

Ma come funziona Showrunner? Tutto si basa sullo “Show-1 model”, un LLM sviluppato da Fable Studio (ora “The Solution”), che combina i punti di forza di due tipologie differenti di approccio al modello text-to-video (e non solo): quello basato sulla diffusione di pixel (a bassa risoluzione, ma molto più attinenti ai comandi impostati dall’utente) e quelli basati su latenti (ad alta risoluzione, ma con il rischio di essere meno attinenti al prompt inserito). Dunque, si tratta di un modello ibrido che si unisce a una serie di agenti AI (tra cui GPT-4 e Stable Diffusion) in grado di trasformare in video i comandi, come spiegato nel documento di ricerca basato sul test effettuato su South Park.

«Il processo di generazione della storia in questa proposta è una responsabilità condivisa tra la simulazione, l’utente e GPT-4. Ognuno ha punti di forza e di debolezza e un ruolo unico da svolgere a seconda di quanto vogliamo coinvolgerli nel processo creativo complessivo. I loro contributi possono avere pesi diversi. Mentre la simulazione di solito fornisce il contesto fondamentale basato sull’IP (proprietà intellettuale, ndr), le storie dei personaggi, le emozioni, gli eventi e i luoghi che danno origine al processo creativo iniziale. L’utente introduce la propria intenzionalità, esercita un controllo comportamentale sugli agenti e fornisce i suggerimenti iniziali che danno il via al processo generativo. L’utente funge anche da discriminatore finale, valutando il contenuto della storia generato alla fine del processo. GPT-4, d’altra parte, funge da motore generativo principale, creando ed estrapolando scene e dialoghi in base alle istruzioni che riceve sia dall’utente che dalla simulazione». 

Sintetizzando: potrebbe bastare un singolo prompt di 15-20 parole per dare vita a un video con trama, battute e sonoro. Ovviamente si può intervenire, passo dopo passo, per integrare il risultato.

Share this article