Il modello text-to-video: i sample di Sora sono realmente ultra-realistici?

OpenAI ha pubblicato alcuni esempi. Per molti aspetti l'innovazione è impressionante, ma ci sono anche molti limiti

26/02/2024 di Enzo Boldi

Un tempo erano i testi. Poi si è arrivati alle immagini e oggi, inevitabilmente, stiamo entrando nell’era dei video generati dall’intelligenza artificiale. La scorsa settimana, OpenAI ha iniziato a condividere sui social (e sul sito ufficiale) i primi esempi di ciò che il suo nuovo prodotto – chiamato “Sora” e ancora in fase di sviluppo – è in grado di fare. Basta un comando (dettagliato) per vedere sul proprio schermo il risultato scorrere davanti ai nostri schermi. Il funzionamento, dunque, sembra essere piuttosto semplice e proprio per questo sono già emerse le prime critiche e perplessità su molti fronti: dal mondo del cinema (per ovvi motivi), fino a quello dell’informazione.

LEGGI ANCHE > Siamo sicuri che Sora sia un passo verso il futuro?

La scelta del nome non è ancora stata spiegata né da OpenAI, né da Sam Altman. Le ipotesi al vaglio possono essere molti: in giapponese, l’ideogramma 空 (Sora) vuol dire “cielo” e, dunque, potrebbe essere questa la reference al concetto di vastità della libertà e di fantasia. Ma c’è anche chi pensa che si tratti di un acronimo, con varie ipotesi in ballo: “Speech Or Reality Augmentation” oppure “Storytelling Or Reality Architecture”. Per ora, però, si tratta solamente di ipotesi.

Sora, il text-to-video di OpenAI funziona veramente?

Sta di fatto che dopo tanti esperimenti che non hanno ancora raggiunto una “perfezione” vicina alla realtà, questo modello text-to-video (o video from text) sembra avere le carte in regola per entrare a gamba tesa all’interno di molti dei mondi che fanno delle immagini in movimento il proprio fulcro. Ma come funziona – o dovrebbe – questo strumento? Il tutto si esaurisce in tre semplici step:

  1. Descrizione testuale – anche attraverso un breve schema – in cui vengono spiegati i dettagli di ciò che si vuole vedere nel video (dall’ambiente circostante, ai personaggi – comprese le loro caratteristiche fisiche e di “personalità” – fino alle azioni che compiono le “telecamere”, per arrivare allo stile di ripresa).
  2. Scelta delle impostazioni, partendo dalla durata (per il momento, fino a 60 secondi) del video, passando per la qualità di definizione e altri parametri opzionali.
  3. Dare il via libera alla generazione del il video, con Sora che lavora basandosi sulle indicazioni dei primi due step per realizzare – nel giro di pochissimo tempo – un filmato.

Dunque, stando alla descrizione fatta da OpenAI tutto è estremamente semplice e immediato. Esattamente come ChatGPT, ma più preciso di ChatGPT.

I primi risultati

E i primi risultati sono stati pubblicati in un thread su X. Per il primo, il “prompt” utilizzato è il seguente: «Una Tokyo magnifica e innevata è in fermento. La telecamera si muove per le strade affollate della città, seguendo diverse persone che si godono la neve e fanno acquisti nelle vicine bancarelle. Splendidi petali di sakura volano nel vento insieme ai fiocchi di neve». Questo il risultato.

Anche il secondo, probabilmente per esaltare due stili architettonici che convivono nello stesso Paese, fa riferimento alla capitale giapponese: «Una donna elegante cammina lungo una strada di Tokyo piena di neon caldi e luminosi e di segnaletica animata della città. Indossa una giacca di pelle nera, un lungo vestito rosso e stivali neri e porta una borsa nera. Indossa occhiali da sole e rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni camminano».

Due esempi che mostrano le potenzialità che, al momento, non sono ancora a disposizione di tutti gli utenti. Si tratta, infatti, di un annuncio in cui si spiega che si è ancora in fase di controllo – soprattutto per capire come mitigare i rischi di deepfake – che ora sarà esteso ad alcune realtà che potranno maneggiare con cura questo nuovo prodotto AI.

I problemi

Questi due esempi (che fanno parte di un portfolio di video condivisi sui social e sul blog ufficiale di OpenAI), sembrano essere ultra-realistici. Dal punto di vista delle immagini lo sono, ma c’è qualcosa che non torna. Per esempio, nel primo filmato – quello della coppia – i “protagonisti” si trovano di fronte a un marciapiede che sembra essere un vicolo cieco. Nel secondo – così come nel primo – gli ideogrammi che compaiono lungo la “passeggiata” non fanno riferimento a parole o concetti reali nel vocabolario giapponese. Piccole, ma grandi pecche che rendono questo strumento (ancora in fase di sviluppo) ancora da migliorare.

Share this article