Veo 3, come fare i video artificiali più belli: la guida

Gemini Veo 3 è disponibile per gli utenti con i livelli pro e ultra della sottoscrizione di Gemini (in modo analogo a quanto avviene con Sora che è disponibile per gli utenti con i livelli plus e pro), e contrariamente a quanto avviene nel caso di OpenAI è integrato con l’interfaccia standard di Gemini, aggiungendo una nuova abilità all’assistente AI di Google.
La generazione del video richiede uno due minuti, e si possono generare al più 3 video al giorno con il livello pro della sottoscrizione e a volte quando fallisce una generazione il conteggio viene comunque diminuito di uno rendendo l’uso per ora limitato se non si dispone del livello Ultra della sottoscrizione (analogamente Sora impone il limite di generazione di video 720p e lunghi massimo 10 secondi per chi ha ChatGPT Plus).
Per provare Veo 3 ho provato quattro prompt che mettessero alla prova vari aspetti della generazione video, anche se è bene tener presente che la generazione di contenuto multimediale richiede prompt più articolati e descrittivi per ottenere buoni risultati, e anche molta sperimentazione (il che complica un po’ la vita con le limitazioni di Gemini).
Video con audio
Il primo prompt che ho provato aveva come obiettivo quello di definire una storia che beneficiasse della capacità di generare audio nel video.
Genera il video di una legione romana che marcia sotto l’arco di trionfo con un generale a cavallo alla testa. A un certo punto si sente la suoneria con il “Va pensiero” e il generale incuriosito scende da cavallo e dietro un cespuglio trova un telefono cellulare. Lo raccoglie meravigliato incapace di capire cosa sta vedendo. Sullo sfondo un portale Stargate.
L’audio generato è sicuramente appropriato ma il generatore di audio evidentemente ha ancora limitazioni: i rumori di sottofondo sono tutti ragionevoli ma la suoneria del cellulare è standard e il “Va pensiero” è divenuta una didascalia. Il modello ha seguito abbastanza fedelmente le richieste contenute nel prompt adattando la storia agli otto secondi di durata del video generato (durata di tutti i video generati da Veo 3).
Lo stesso prompt eseguito su Sora genera un video senza audio (rendendo meno l’idea della storia che si basa su un elemento uditivo) e si vede anche uno stile decisamente diverso nella gestione della camera e dei suoi filtri. I video generati da Sora sono infatti più “lucidi” e iperrealistici rispetto a quelli di Veo 3.
La possibilità di generare video con Audio ha scatenato la generazione di notiziari in stile americano, con il parlato in inglese nonostante il prompt italiano. Ecco ad esempio un video che annuncia lo sbarco su Marte generato dal seguente prompt:
Genera un video di una breaking news in cui la anchor woman annuncia l’atterraggio dell’uomo su Marte e la scoperta di marziani. Sullo sfondo il video dell’atterraggio e dell’incontro con i marziani.
Lo stesso prompt su Sora genera solo il video con una gestione della telecamera decisamente meno plausibile rispetto a quanto fa Veo 3.
Generare video con effetti con Veo 3
Ho provato anche la generazione di video astratti e Veo 3 si e comportato in modo decisamente sorprendente, anche rispetto a Sora. Il primo prompt provato è il seguente:
Genera un video che mostra la torre di Pisa che cresce come se fosse un fiore con l’effetto timelapse. La crescita deve sembrare come se si assemblasse da mattoni e non semplicemente apparire dalla terra. Un grande annaffiatoio meccanico versa blocchetti di marmo per farla crescere.
Il modello ha colto assolutamente lo spirito della richiesta generando il video che mi attendevo, nonostante il vincolo degli 8 secondi che ha forzato nella generazione una transizione verso la fine del video. È interessante osservare come Sora non riesca ad interpretare un prompt astratto altrettanto bene pur mantenendo uno stile iper-realistico nel generato.
Un altro prompt che ho provato è il seguente:
Genera il video di un caccia da guerra che, vista la distruzione dall’alto della guerra si trasforma in una colomba. La camera deve girare prima intorno al caccia mostrando la distruzione della guerra tenendo il caccia al centro, si vedono esplosioni. Poi si trasforma in una colomba e volando si posa su un ulivo in cima ad una collina deserta. Unica pianta sopravvissuta alla distruzione.
Anche in questo caso vi sono elementi astratti e Veo 3 sembra cogliere lo spirito della richiesta in modo più efficace di Sora che nuovamente sembra privilegiare la generazione di contenuti iper-realistici.
Controllo della generazione in Google Veo 3
Google ha annunciato il sistema Flow per l’editing dei video generati da Veo3, ma attualmente questa interfaccia non è disponibile, e il controllo sulla generazione dei video è sostanzialmente inesistente. Non si possono neanche fornire contenuti come immagini o video a partire dai quali si può condizionare la generazione del video o il suo stile. In questo campo per ora l’interfaccia di OpenAI basata sul concetto di storyboard e la funzione di “remix” offrono un controllo decisamente superiore a quello di Veo 3.
Inoltre, con Gemini non è ancora possibile controllare la durata del video generato né la sua risoluzione o il formato.
Conclusioni
Gemini Veo 3 è un modello decisamente efficace per la generazione di video a partire da prompt, si tratta di un primo rilascio e quindi mancano i controlli sulla generazione che probabilmente saranno oggetto dei prossimi rilasci.
La capacità di generare video con audio, seppur con limitazioni, offre possibilità di cui si sente la mancanza in Sora. Si tratta comunque di un modello che è allo stato dell’arte capace di generare video che potranno trovare applicazioni in numerosi ambiti.
Autore del post: Agenda Digitale Fonte: https://www.agendadigitale.eu/ Continua la lettura su: https://www.agendadigitale.eu/industry-4-0/veo-3-come-fare-i-video-artificiali-piu-belli-la-guida/
Il Ministero delle Pari Opportunità finanzia il tuo corso digitale
Chiedi tutte le informazioni a [email protected] |

