Le modèle Movie Gen de Meta produit des vidéos réalistes avec du son, pour que nous puissions enfin avoir du Moo Deng infini | TechCrunch

Generated with DALL·E 3

Personne ne sait vraiment encore à quoi servent les modèles vidéo génératifs, mais cela n’a pas empêché des entreprises comme Runway, OpenAI et Meta d’investir des millions pour les développer. Le dernier-né de Meta s’appelle Movie Gen, et comme son nom l’indique, il transforme des invites de texte en vidéo relativement réaliste avec du son… mais heureusement pas de voix pour l’instant. Et judicieusement, ils ne donnent pas à celui-ci une sortie publique. Movie Gen est en fait une collection (ou “cast”, comme ils l’appellent) de modèles fondamentaux, dont le plus important est le texte-à-vidéo. Meta affirme qu’il surpasse des modèles similaires de Runway’s Gen3, de LumaLabs et de Kling1.5, bien que ce genre de chose serve plus à montrer qu’ils jouent le même jeu qu’à dire que Movie Gen gagne. Les détails techniques peuvent être trouvés dans l’article que Meta a publié décrivant tous les composants.

Le son est généré pour correspondre au contenu de la vidéo, ajoutant par exemple des bruits de moteur qui correspondent à des mouvements de voiture, ou le bruit d’une cascade en arrière-plan, ou un coup de tonnerre au milieu de la vidéo quand cela est nécessaire. Il ajoutera même de la musique si cela semble pertinent. Il a été formé sur “une combinaison de jeux de données sous licence et publiquement disponibles” qu’ils ont appelés “propriétaires/commercialement sensibles” et sur lesquels ils n’ont donné aucun détail supplémentaire. Nous ne pouvons que supposer qu’il s’agit d’un grand nombre de vidéos Instagram et Facebook, ainsi que de quelques éléments de partenaires et d’un grand nombre d’autres qui sont insuffisamment protégés contre les scrapers – c’est-à-dire “publiquement disponibles”.

L’objectif clair de Meta est cependant non seulement de capturer la couronne “d’état de l’art” pendant un mois ou deux, mais d’adopter une démarche pratique du début à la fin, où un produit final solide peut être produit à partir d’une simple invite en langage naturel. Des choses comme “imaginez-moi en tant que boulanger faisant un gâteau d’hippopotame brillant sous un orage”. Les mouvements de la caméra sont également généralement compris, des choses comme “plan de suivi” et “panoramique à gauche” sont pris en compte lors de la génération de la vidéo. C’est encore assez maladroit comparé au contrôle réel de la caméra, mais c’est beaucoup mieux que rien.

“Movie Gen est purement un concept de recherche en IA maintenant, et même à ce stade précoce, la sécurité est une priorité comme elle l’a toujours été avec toutes nos technologies génératives d’IA”, a déclaré un représentant de Meta en réponse aux questions de TechCrunch.

Les limitations du modèle sont un peu étranges. Il génère une vidéo de 768 pixels de large, une dimension familière à la plupart grâce au célèbre mais désuet 1024×768, mais qui est aussi trois fois 256, ce qui le fait bien fonctionner avec d’autres formats HD. Le système Movie Gen upscale cela à 1080p, ce qui est à l’origine de l’affirmation qu’il génère cette résolution. Ce n’est pas vraiment vrai, mais nous allons leur donner un pass car l’upscaling est étonnamment efficace. Étrangement, il génère jusqu’à 16 secondes de vidéo… à 16 images par seconde, un taux d’images que personne dans l’histoire n’a jamais voulu ou demandé. Vous pouvez cependant également faire 10 secondes de vidéo à 24 FPS. Menez avec celui-ci!

Quant à la raison pour laquelle il ne fait pas de voix… eh bien, il y en a probablement deux. Premièrement, c’est super dur. Générer de la parole est maintenant facile, mais l’adapter aux mouvements des lèvres, et ces lèvres aux mouvements du visage, est une proposition beaucoup plus compliquée. Je ne leur en veux pas d’avoir laissé cela pour plus tard, car ce serait un cas d’échec dès la première minute. Quelqu’un pourrait dire “génère un clown prononçant le discours de Gettysburg tout en faisant des cercles sur un petit vélo” – un cauchemar prêt à devenir viral. La deuxième raison est probablement politique : sortir ce qui équivaut à un générateur de deepfake un mois avant une élection majeure est… peu propice pour l’image. Limiter un peu ses capacités afin que, si des acteurs malveillants tentent de l’utiliser, cela requiert un vrai travail de leur part, est une étape préventive pratique. On pourrait certainement combiner ce modèle génératif avec un générateur de parole et un synchroniseur de lèvres ouvert, mais on ne peut pas simplement le faire générer un candidat faisant des affirmations sauvages.

Partagez cet article
article précédent

Revue Hygiène et sécurité du travail : numéro 274 – Actualité – INRS

article suivant

CPO Paul Gubbay indique que Squarespace forme ses outils IA avec curation et goût | TechCrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles