La prochaine grande innovation AI de Google est arrivée pour contrer une avalanche de nouvelles offres de OpenAI. Mercredi dernier, Google a annoncé Gemini 2.0 Flash, une IA que l’entreprise dit capable de générer nativement des images et de l’audio en plus du texte. Le Flash 2.0 peut également utiliser des applications et des services tiers, ce qui lui permet de se connecter à Google Search, d’exécuter des codes, et plus encore. Une version expérimentale de Flash 2.0 sera disponible dès aujourd’hui via l’API Gemini et les plateformes de développement AI de Google, AI Studio et Vertex AI.
Les capacités de génération d’images et de sons ne seront lancées que pour les “partenaires d’accès anticipé” avant un déploiement général en janvier. Dans les mois à venir, Google prévoit de proposer Flash 2.0 dans une gamme de formats pour des produits tels que Android Studio, Chrome DevTools, Firebase, Gemini Code Assist, et autres. La première version de Flash, 1.5 Flash, ne pouvait générer que du texte et n’était pas conçue pour les charges de travail particulièrement exigeantes. Ce nouveau modèle est plus polyvalent, affirme Google, en partie parce qu’il peut appeler des outils comme Search et interagir avec des API externes.
“Nous savons que Flash est extrêmement populaire parmi les développeurs pour son … équilibre entre la vitesse et la performance”, a déclaré Tulsee Doshi, responsable de produit pour le modèle Gemini chez Google, lors d’une séance d’information mardi. “Et avec Flash 2.0, c’est toujours aussi rapide, mais maintenant c’est encore plus puissant.”
Google affirme que Flash 2.0, qui est deux fois plus rapide que le modèle Gemini 1.5 Pro de l’entreprise sur certains benchmarks, selon les tests de Google lui-même, est “significativement” amélioré dans des domaines comme le codage et l’analyse d’images. En fait, l’entreprise affirme que Flash 2.0 déplace le 1.5 Pro en tant que modèle phare de Gemini, grâce à ses compétences supérieures en mathématiques et en “factualité”. Comme nous l’avons évoqué précédemment, Flash 2.0 peut générer – et modifier – des images en plus du texte. Le modèle peut également ingérer des photos et des vidéos, ainsi que des enregistrements audio, pour répondre à des questions à leur sujet (par exemple, “Qu’a-t-il dit ?”).
La génération audio est l’autre caractéristique-clé de Flash 2.0, et Doshi l’a décrite comme “orientable” et “personnalisable”. Par exemple, le modèle peut narrer du texte à l’aide de l’une des huit voix “optimisées” pour différentes accents et langues. “Vous pouvez lui demander de parler plus lentement, vous pouvez lui demander de parler plus vite, ou vous pouvez même lui demander de dire quelque chose comme un pirate”, a-t-elle ajouté. Maintenant, en tant que journaliste, je suis obligé de noter que Google n’a pas fourni d’images ou d’échantillons audio de Flash 2.0. Nous ne savons pas comment la qualité se compare aux productions d’autres modèles, du moins au moment de la rédaction.
Google déclare qu’il utilise sa technologie SynthID pour marquer toutes les images et tous les sons générés par Flash 2.0. Sur les logiciels et les plateformes qui supportent SynthID – c’est-à-dire, certains produits Google – les productions du modèle seront signalées comme synthétiques. Cela vise à apaiser les craintes d’abus. En effet, les deepfakes sont une menace croissante. Selon le service de vérification d’identité Sumsub, le nombre de deepfakes détectés dans le monde a quadruplé entre 2023 et 2024.