Google a lancé Gemini Live lors de son événement “Made by Google” mardi. Cette fonctionnalité permet d’avoir une conversation orale semi-naturelle, non transposée par écrit, avec un chatbot alimenté par le dernier grand modèle linguistique de Google. TechCrunch était là pour le tester en direct. Gemini Live est la réponse de Google à Advanced Voice Mode d’OpenAI, une fonctionnalité presque identique de ChatGPT en phase d’essai alpha limité. Bien qu’OpenAI ait devancé Google en démontrant la fonctionnalité en premier, Google est le premier à déployer la fonctionnalité finalisée. D’après mon expérience, ces fonctionnalités verbales à faible latence sont beaucoup plus naturelles que de texter avec ChatGPT, ou même de parler avec Siri ou Alexa. J’ai trouvé que Gemini Live répondait aux questions en moins de deux secondes et était capable de faire preuve d’adaptabilité relativement rapide lorsqu’il était interrompu.
Gemini Live n’est pas parfait, mais c’est la meilleure façon d’utiliser son téléphone sans les mains que j’ai vu jusqu’à présent. Comment fonctionne Gemini Live Avant de parler avec Gemini Live, la fonctionnalité vous permet de choisir parmi 10 voix, contre seulement trois voix d’OpenAI. Google a travaillé avec des acteurs de voix pour créer chacun d’eux. J’ai apprécié cette variété et j’ai trouvé que chaque voix sonnait très humaine.
“Ainsi, bien que Gemini Live soit déjà impressionnant, la promesse future d’une compréhension en temps réel de la vidéo ajoute une couche d’anticipation supplémentaire.”
Dans un exemple, un responsable produit de Google a demandé à Gemini Live de trouver des vignobles adaptés aux familles près de Mountain View avec des espaces extérieurs et des aires de jeux à proximité, afin que les enfants puissent potentiellement venir. C’est une tâche bien plus compliquée que je ne demanderais à Siri, ou à Google Search, mais Gemini a réussi à recommander un endroit qui correspondait aux critères : Cooper-Garrod Vineyards à Saratoga. Cela dit, Gemini Live laisse quelque chose à désirer. Il semblait halluciner une aire de jeux à proximité appelée Henry Elementary School Playground qui est censée être “à 10 minutes” de ce vignoble. Il y a d’autres aires de jeux à proximité à Saratoga, mais la plus proche école primaire Henry est à plus de deux heures de route de là.
Google aimait montrer comment les utilisateurs peuvent interrompre Gemini Live en plein milieu d’une phrase, et l’IA se recentre rapidement. La société dit que cela permet aux utilisateurs de contrôler la conversation. En pratique, cette fonctionne ne fonctionne pas parfaitement. Parfois, les chefs de projet de Google et Gemini Live se parlaient l’un sur l’autre, et l’IA ne semblait pas capter ce qui était dit. Il est à noter que Google ne permet pas à Gemini Live de chanter ou d’imiter des voix en dehors des 10 qu’il propose, selon le responsable de produit Leland Rechis. La société le fait probablement pour éviter des conflits avec le droit d’auteur.
En outre, Rechis a déclaré que Google ne se concentre pas sur l’obtention de Gemini Live pour comprendre l’intonation émotionnelle dans la voix d’un utilisateur, quelque chose que OpenAI a vanté lors de sa démo. En somme, la fonctionnalité semble être un excellent moyen de plonger plus naturellement dans un sujet que vous ne le feriez avec une simple recherche Google. Google note que Gemini Live est un pas en avant vers le Projet Astra, le modèle AI complètement multimodal que la société a présenté lors de Google I/O. Pour l’instant, Gemini Live est juste capable de conversations vocales ; cependant, à l’avenir, Google souhaite ajouter une compréhension vidéo en temps réel.