OpenAI, suivant les pas de startups comme Runway et des géants de la technologie comme Google et Meta, s’oriente vers la génération de vidéos. OpenAI a dévoilé aujourd’hui Sora, un modèle d’IA génératif qui crée des vidéos à partir de textes. Doté d’une brève – ou détaillée – description ou une image immobile, Sora peut générer des scènes de films en 1080p avec plusieurs personnages, différents types de mouvements et des détails d’arrière-plan, affirme OpenAI. Sora peut également “étendre” les clips vidéo existants – faisant de son mieux pour remplir les détails manquants.
“Sora a une compréhension profonde du langage, lui permettant d’interpréter avec précision les consignes et de générer des personnages convaincants qui expriment des émotions vibrantes”, écrit OpenAI dans un article de blog. “Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invitation, mais aussi comment ces choses existent dans le monde physique”. Maintenant, il y a beaucoup de bombes sur la page de démo de OpenAI pour Sora. Cependant, les échantillons sélectionnés du modèle semblent plutôt impressionnants, du moins par rapport aux autres technologies de texte-à-vidéo que nous avons vues.
Malgré l’éloge de ses capacités, OpenAI admet que le modèle n’est pas parfait. La société détails que le modèle peut lutter pour simuler avec précision la physique d’une scène complexe et peut ne pas comprendre les instances spécifiques de cause à effet.
Pour commencer, Sora peut générer des vidéos dans une gamme de styles (par exemple, photoréaliste, animé, noir et blanc) jusqu’à une minute de longueur – beaucoup plus long que la plupart des modèles de texte-à-vidéo. Et ces vidéos maintiennent une cohérence raisonnable, en ce sens qu’elles ne cèdent pas toujours à ce que j’aime appeler “l’étrangeté de l’IA”, comme les objets se déplaçant dans des directions physiquement impossibles.
Certains des clips de Sora, comme ceux présentant un sujet humaniste – un robot debout face à un paysage urbain, par exemple, ou une personne marchant sur un sentier enneigé – ont une qualité qui rappelle celle des jeux vidéo, peut-être parce qu’il n’y a pas grand-chose qui se passe en arrière-plan. L’étrangeté de l’IA parvient à s’infiltrer dans de nombreux clips, comme les voitures roulant dans une direction, puis soudainement en sens inverse ou les bras fondant dans une housse de couette.
OpenAI – malgré tous ses superlatifs – reconnaît que le modèle n’est pas parfait. L’entreprise écrit : “[Sora] peut avoir du mal à simuler avec précision la physique d’une scène complexe, et peut ne pas comprendre des instances spécifiques de cause à effet. Par exemple, une personne peut prendre une bouchée dans un biscuit, mais après, le biscuit n’aura peut-être pas de marque de morsure. Le modèle peut également confondre les détails spatiaux d’une invite, par exemple, mélanger la gauche et la droite, et peut avoir du mal avec des descriptions précises d’événements qui se déroulent dans le temps, comme suivre une trajectoire de caméra spécifique.”
OpenAI positionne très clairement Sora comme un aperçu de recherche, dans lequel elle révèle très peu de choses sur les données qui ont été utilisées pour entraîner le modèle (autre que ~10 000 heures de vidéo de “haute qualité”) et s’abstient de rendre Sora généralement disponible. Sa raison est le potentiel d’abus ; OpenAI fait correctement remarquer que des acteurs malveillants pourraient mal utiliser un modèle comme Sora de nombreuses façons. OpenAI affirme qu’elle travaille avec des experts pour sonder le modèle pour des exploits et créer des outils pour détecter si une vidéo a été générée par Sora.
La société déclare également que, si elle décide de transformer le modèle en un produit public, elle veillera à ce que les métadonnées de provenance soient incluses dans les résultats générés. “Nous dialoguerons avec les décideurs politiques, les éducateurs et les artistes du monde entier pour comprendre leurs préoccupations et identifier les utilisations positives de cette nouvelle technologie”, écrit OpenAI. “Malgré des recherches et des tests approfondis, nous ne pouvons pas prédire toutes les façons bénéfiques dont les gens utiliseront notre technologie, ni toutes les façons dont les gens l’abuseront. C’est pourquoi nous pensons que l’apprentissage de l’utilisation réelle est un composant critique de la création et de la libération de systèmes d’IA de plus en plus sûrs au fil du temps.”