3 min de lecture

La nouvelle IA de DeepMind génère des bandes sonores et des dialogues pour des vidéos | TechCrunch

19 juin 2024

Generated with DALL·E 3

DeepMind, le laboratoire de recherche sur l’IA de Google, déclare développer une technologie d’IA capable de générer des bandes sonores pour des vidéos. Dans un post sur son blog officiel, DeepMind voit dans cette technologie, V2A (pour “Video-to-Audio”), un élément essentiel du puzzle des médias générés par l’IA. De nombreuses organisations, dont DeepMind, ont développé des modèles d’IA de génération de vidéos, mais ces modèles ne peuvent pas créer d’effets sonores synchronisés avec les vidéos qu’ils génèrent. «Les modèles de génération de vidéos progressent à une vitesse incroyable, mais beaucoup de systèmes actuels ne peuvent générer que des sorties silencieuses», écrit DeepMind.

La technologie V2A de DeepMind prend la description d’une bande son (par exemple, “méduse pulsant sous l’eau, la vie marine, l’océan”) associée à une vidéo pour créer de la musique, des effets sonores et même des dialogues qui correspondent aux personnages et au ton de la vidéo, marquée par la technologie SynthID de DeepMind qui combat les deepfakes. Selon DeepMind, le modèle d’IA qui alimente V2A, un modèle de diffusion, a été formé sur une combinaison de sons et de transcriptions de dialogues ainsi que de clips vidéo.

“En s’entraînant sur la vidéo, l’audio et les annotations supplémentaires, notre technologie apprend à associer des événements sonores spécifiques à diverses scènes visuelles, tout en répondant aux informations fournies dans les annotations ou les transcriptions”, selon DeepMind.

Les outils de génération de son alimentés par l’IA ne sont pas nouveaux. La startup Stability AI en a publié un la semaine dernière, et ElevenLabs en a lancé un en mai. Il en va de même pour les modèles de création d’effets sonores vidéo. Un projet de Microsoft peut générer des vidéos parlantes et chantantes à partir d’une image fixe, et des plateformes comme Pika et GenreX ont formé des modèles pour prendre une vidéo et faire une meilleure estimation de la musique ou des effets appropriés dans une scène donnée. Mais DeepMind affirme que sa technologie V2A est unique en ce qu’elle peut comprendre les pixels bruts d’une vidéo et synchroniser automatiquement les sons générés avec la vidéo, éventuellement sans description.

V2A n’est pas parfait, et DeepMind l’admet. Etant donné que le modèle sous-jacent n’a pas été formé sur un grand nombre de vidéos comportant des artefacts ou des distorsions, il ne crée pas d’audio de très haute qualité pour celles-ci. Et en général, l’audio généré n’est pas très convaincant ; ma collègue Natasha Lomas l’a décrit comme “un assortiment de sons stéréotypés”, et je ne peux pas dire que je suis en désaccord. Pour ces raisons, et pour prévenir les abus, DeepMind déclare qu’elle ne rendra pas la technologie accessible au public de sitôt, si jamais elle le fait. “Pour nous assurer que notre technologie V2A peut avoir un impact positif sur la communauté créative, nous recueillons des perspectives diverses et des informations provenant de créateurs et de cinéastes de premier plan, et nous utilisons ces précieux retours pour informer notre recherche et développement en cours”, écrit DeepMind.

Avant d’envisager d’ouvrir l’accès à la technologie V2A au grand public, celle-ci subira des évaluations de sécurité rigoureuses et des tests. DeepMind présente sa technologie V2A comme un outil particulièrement utile pour les archivistes et les personnes travaillant avec des images d’archives. Mais l’IA générative de ce type menace également de bouleverser l’industrie du cinéma et de la télévision. Il faudra des protections du travail très solides pour s’assurer que les outils de médias génératifs n’éliminent pas d’emplois, voire des professions entières.

Source: DeepMind’s new AI generates soundtracks and dialogue for videos

article précédent

Prémédia : un outil pour estimer la durée de vie des masques de protection respiratoire – Actualité – INRS

article suivant

La nouvelle IA de DeepMind génère des bandes sonores et des dialogues pour des vidéos | TechCrunch

Prémédia : un outil pour estimer la durée de vie des masques de protection respiratoire – Actualité – INRS

Travail & Sécurité : numéro de février 2024 – Actualité – INRS

Laisser un commentaire Annuler la réponse

Les modèles d’IA Gemma de Google dépassent les 150 millions de téléchargements

Social planning : comment transformer le planning en un levier d’engagement et de bien-être des salariés ?

Image de marque employeur : pourquoi les offres d’emploi ne suffisent pas ?

L’IA ne va pas vous remplacer… mais elle va booster votre carrière RH

ROI de la Formation : enjeux, calcul et optimisation

La nouvelle IA de DeepMind génère des bandes sonores et des dialogues pour des vidéos | TechCrunch

Partagez cet article

Prémédia : un outil pour estimer la durée de vie des masques de protection respiratoire – Actualité – INRS

Travail & Sécurité : numéro de février 2024 – Actualité – INRS

Laisser un commentaire Annuler la réponse

Lire plus d'articles