Google DeepMind, le laboratoire de recherche phare de Google pour l’IA, souhaiterait devancer OpenAI dans le domaine de la génération de vidéos, et il pourrait réussir, du moins pour un instant. Lundi, DeepMind a présenté Veo 2, une IA qui génère des vidéos de nouvelle génération et est le successeur de Veo, qui alimente un nombre croissant de produits dans le portefeuille de Google. Veo 2 peut créer des clips de plus de deux minutes en résolution allant jusqu’à 4k (4096 x 2160 pixels). On remarque que c’est 4 fois la résolution et plus de 6 fois la durée que peut atteindre Sora d’OpenAI. C’est pour l’instant un avantage théorique. Dans l’outil de création de vidéos expérimental de Google, VideoFX, où Veo 2 est actuellement disponible en exclusivité, les vidéos sont limitées à 720p et huit secondes de longueur. (Sora peut produire des clips allant jusqu’à 1080p et d’une durée de 20 secondes.)
VideoFX a une liste d’attente, mais Google annonce qu’il élargit cette semaine le nombre d’utilisateurs pouvant y accéder. Eli Collins, le vice-président de la production chez DeepMind, a également informé TechCrunch que Google rendrait Veo 2 disponible via sa plateforme de développement Vertex AI “lorsque le modèle sera prêt à être utilisé à grande échelle”. “Au cours des prochains mois, nous continuerons à itérer en fonction des commentaires des utilisateurs”, a déclaré Collins, “et nous chercherons à intégrer les fonctionnalités mises à jour de Veo 2 dans des cas d’utilisation convaincants à travers l’écosystème Google … Nous espérons partager d’autres mises à jour l’année prochaine.”
DeepMind est en train de travailler avec des artistes et des producteurs pour affiner ses modèles de génération de vidéos et ses outils.
Comme Veo, Veo 2 peut générer des vidéos à partir d’une invite textuelle (par exemple “Une voiture roulant à grande vitesse sur une autoroute”) ou d’un texte et d’une image de référence. Alors, qu’est-ce qui est nouveau dans Veo 2 ? Eh bien, DeepMind affirme que le modèle, qui peut générer des clips dans une variété de styles, a une meilleure “compréhension” de la physique et des commandes de la caméra, et produit des images “plus claires”. Par “plus claires”, DeepMind veut dire que les textures et les images dans les clips sont plus nettes, en particulier dans les scènes avec beaucoup de mouvement. Quant aux commandes de caméra améliorées, elles permettent à Veo 2 de positionner la “caméra” virtuelle dans les vidéos qu’il génère de manière plus précise, et de déplacer cette caméra pour capturer des objets et des personnes sous des angles différents.
DeepMind prétend également que Veo 2 peut modéliser le mouvement, la dynamique des fluides (comme du café versé dans une tasse) et les propriétés de la lumière (telles que les ombres et les reflets) de manière plus réaliste. Cela comprend aussi différentes lentilles et effets cinématographiques, affirme DeepMind, ainsi que les expressions humaines “nuancées”. Les échantillons de Veo 2 partagés par DeepMind avec TechCrunch la semaine dernière étaient plutôt bons pour des vidéos générées par IA, voire exceptionnellement bons. Veo 2 semble avoir une bonne compréhension de la réfraction et des liquides difficiles, comme le sirop d’érable, ainsi qu’un talent pour émuler l’animation de style Pixar. Mais malgré l’insistance de DeepMind à dire que le modèle est moins susceptible d’halluciner des éléments comme des doigts supplémentaires ou des “objets inattendus”, Veo 2 ne parvient pas tout à fait à franchir la vallée déconcertante.
Outre Veo 2, Google DeepMind a annoncé ce matin des améliorations de Imagen 3, son modèle commercial de génération d’images. Une nouvelle version d’Imagen 3 est mise à la disposition des utilisateurs d’ImageFX, l’outil de génération d’images de Google, à partir d’aujourd’hui. Il peut créer des images et des photos “plus lumineuses, mieux composées” et dans des styles tels que le photoréalisme, l’impressionnisme et l’anime, selon DeepMind. “Cette mise à niveau [d’Imagen 3] respecte également les invites de manière plus fidèle, et rend des détails et des textures plus riches”, a écrit DeepMind dans un post de blog fourni à TechCrunch.