Il modello text-to-video: i sample di Sora sono realmente ultra-realistici?
OpenAI ha pubblicato alcuni esempi. Per molti aspetti l'innovazione è impressionante, ma ci sono anche molti limiti
26/02/2024 di Enzo Boldi
Un tempo erano i testi. Poi si è arrivati alle immagini e oggi, inevitabilmente, stiamo entrando nell’era dei video generati dall’intelligenza artificiale. La scorsa settimana, OpenAI ha iniziato a condividere sui social (e sul sito ufficiale) i primi esempi di ciò che il suo nuovo prodotto – chiamato “Sora” e ancora in fase di sviluppo – è in grado di fare. Basta un comando (dettagliato) per vedere sul proprio schermo il risultato scorrere davanti ai nostri schermi. Il funzionamento, dunque, sembra essere piuttosto semplice e proprio per questo sono già emerse le prime critiche e perplessità su molti fronti: dal mondo del cinema (per ovvi motivi), fino a quello dell’informazione.
LEGGI ANCHE > Siamo sicuri che Sora sia un passo verso il futuro?
La scelta del nome non è ancora stata spiegata né da OpenAI, né da Sam Altman. Le ipotesi al vaglio possono essere molti: in giapponese, l’ideogramma 空 (Sora) vuol dire “cielo” e, dunque, potrebbe essere questa la reference al concetto di vastità della libertà e di fantasia. Ma c’è anche chi pensa che si tratti di un acronimo, con varie ipotesi in ballo: “Speech Or Reality Augmentation” oppure “Storytelling Or Reality Architecture”. Per ora, però, si tratta solamente di ipotesi.
Sora, il text-to-video di OpenAI funziona veramente?
Sta di fatto che dopo tanti esperimenti che non hanno ancora raggiunto una “perfezione” vicina alla realtà, questo modello text-to-video (o video from text) sembra avere le carte in regola per entrare a gamba tesa all’interno di molti dei mondi che fanno delle immagini in movimento il proprio fulcro. Ma come funziona – o dovrebbe – questo strumento? Il tutto si esaurisce in tre semplici step:
- Descrizione testuale – anche attraverso un breve schema – in cui vengono spiegati i dettagli di ciò che si vuole vedere nel video (dall’ambiente circostante, ai personaggi – comprese le loro caratteristiche fisiche e di “personalità” – fino alle azioni che compiono le “telecamere”, per arrivare allo stile di ripresa).
- Scelta delle impostazioni, partendo dalla durata (per il momento, fino a 60 secondi) del video, passando per la qualità di definizione e altri parametri opzionali.
- Dare il via libera alla generazione del il video, con Sora che lavora basandosi sulle indicazioni dei primi due step per realizzare – nel giro di pochissimo tempo – un filmato.
Dunque, stando alla descrizione fatta da OpenAI tutto è estremamente semplice e immediato. Esattamente come ChatGPT, ma più preciso di ChatGPT.
I primi risultati
E i primi risultati sono stati pubblicati in un thread su X. Per il primo, il “prompt” utilizzato è il seguente: «Una Tokyo magnifica e innevata è in fermento. La telecamera si muove per le strade affollate della città, seguendo diverse persone che si godono la neve e fanno acquisti nelle vicine bancarelle. Splendidi petali di sakura volano nel vento insieme ai fiocchi di neve». Questo il risultato.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Anche il secondo, probabilmente per esaltare due stili architettonici che convivono nello stesso Paese, fa riferimento alla capitale giapponese: «Una donna elegante cammina lungo una strada di Tokyo piena di neon caldi e luminosi e di segnaletica animata della città. Indossa una giacca di pelle nera, un lungo vestito rosso e stivali neri e porta una borsa nera. Indossa occhiali da sole e rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni camminano».
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Due esempi che mostrano le potenzialità che, al momento, non sono ancora a disposizione di tutti gli utenti. Si tratta, infatti, di un annuncio in cui si spiega che si è ancora in fase di controllo – soprattutto per capire come mitigare i rischi di deepfake – che ora sarà esteso ad alcune realtà che potranno maneggiare con cura questo nuovo prodotto AI.
I problemi
Questi due esempi (che fanno parte di un portfolio di video condivisi sui social e sul blog ufficiale di OpenAI), sembrano essere ultra-realistici. Dal punto di vista delle immagini lo sono, ma c’è qualcosa che non torna. Per esempio, nel primo filmato – quello della coppia – i “protagonisti” si trovano di fronte a un marciapiede che sembra essere un vicolo cieco. Nel secondo – così come nel primo – gli ideogrammi che compaiono lungo la “passeggiata” non fanno riferimento a parole o concetti reali nel vocabolario giapponese. Piccole, ma grandi pecche che rendono questo strumento (ancora in fase di sviluppo) ancora da migliorare.