3 min de lecture

Gemini Live en première vue : Mieux que de parler à Siri, mais moins bien que souhaité | TechCrunch

16 août 2024

Generated with DALL·E 3

Google a lancé Gemini Live lors de son événement “Made by Google” mardi. Cette fonctionnalité permet d’avoir une conversation orale semi-naturelle, non transposée par écrit, avec un chatbot alimenté par le dernier grand modèle linguistique de Google. TechCrunch était là pour le tester en direct. Gemini Live est la réponse de Google à Advanced Voice Mode d’OpenAI, une fonctionnalité presque identique de ChatGPT en phase d’essai alpha limité. Bien qu’OpenAI ait devancé Google en démontrant la fonctionnalité en premier, Google est le premier à déployer la fonctionnalité finalisée. D’après mon expérience, ces fonctionnalités verbales à faible latence sont beaucoup plus naturelles que de texter avec ChatGPT, ou même de parler avec Siri ou Alexa. J’ai trouvé que Gemini Live répondait aux questions en moins de deux secondes et était capable de faire preuve d’adaptabilité relativement rapide lorsqu’il était interrompu.

Gemini Live n’est pas parfait, mais c’est la meilleure façon d’utiliser son téléphone sans les mains que j’ai vu jusqu’à présent. Comment fonctionne Gemini Live Avant de parler avec Gemini Live, la fonctionnalité vous permet de choisir parmi 10 voix, contre seulement trois voix d’OpenAI. Google a travaillé avec des acteurs de voix pour créer chacun d’eux. J’ai apprécié cette variété et j’ai trouvé que chaque voix sonnait très humaine.

“Ainsi, bien que Gemini Live soit déjà impressionnant, la promesse future d’une compréhension en temps réel de la vidéo ajoute une couche d’anticipation supplémentaire.”

Dans un exemple, un responsable produit de Google a demandé à Gemini Live de trouver des vignobles adaptés aux familles près de Mountain View avec des espaces extérieurs et des aires de jeux à proximité, afin que les enfants puissent potentiellement venir. C’est une tâche bien plus compliquée que je ne demanderais à Siri, ou à Google Search, mais Gemini a réussi à recommander un endroit qui correspondait aux critères : Cooper-Garrod Vineyards à Saratoga. Cela dit, Gemini Live laisse quelque chose à désirer. Il semblait halluciner une aire de jeux à proximité appelée Henry Elementary School Playground qui est censée être “à 10 minutes” de ce vignoble. Il y a d’autres aires de jeux à proximité à Saratoga, mais la plus proche école primaire Henry est à plus de deux heures de route de là.

Google aimait montrer comment les utilisateurs peuvent interrompre Gemini Live en plein milieu d’une phrase, et l’IA se recentre rapidement. La société dit que cela permet aux utilisateurs de contrôler la conversation. En pratique, cette fonctionne ne fonctionne pas parfaitement. Parfois, les chefs de projet de Google et Gemini Live se parlaient l’un sur l’autre, et l’IA ne semblait pas capter ce qui était dit. Il est à noter que Google ne permet pas à Gemini Live de chanter ou d’imiter des voix en dehors des 10 qu’il propose, selon le responsable de produit Leland Rechis. La société le fait probablement pour éviter des conflits avec le droit d’auteur.

En outre, Rechis a déclaré que Google ne se concentre pas sur l’obtention de Gemini Live pour comprendre l’intonation émotionnelle dans la voix d’un utilisateur, quelque chose que OpenAI a vanté lors de sa démo. En somme, la fonctionnalité semble être un excellent moyen de plonger plus naturellement dans un sujet que vous ne le feriez avec une simple recherche Google. Google note que Gemini Live est un pas en avant vers le Projet Astra, le modèle AI complètement multimodal que la société a présenté lors de Google I/O. Pour l’instant, Gemini Live est juste capable de conversations vocales ; cependant, à l’avenir, Google souhaite ajouter une compréhension vidéo en temps réel.

Source: Gemini Live first look: Better than talking to Siri, but worse than I’d like

article précédent

Le retour de la bataille des retraites

article suivant

CodeRabbit lève 16 millions de dollars pour appliquer l’IA à la revue de code | TechCrunch

Laisser un commentaire Annuler la réponse

Lire plus d'articles

Intelligence artificielle

Les fabricants de puces AI sans usine, Rebellions et Sapeon, fusionnent face à l’intensification de la concurrence dans l’industrie mondiale du matériel AI

13 juin 2024

L’industrie sud-coréenne des puces IA sans usine (fabless) a connu une série d’événements de levée…

Illustration of Les fabricants de puces AI sans usine, Rebellions et Sapeon, fusionnent face à l'intensification de la concurrence dans l'industrie mondiale du matériel AI

Lire plus

Intelligence artificielle

Le programme de manuels scolaires AI de la Corée du Sud fait face au scepticisme des parents | TechCrunch

18 août 2024

Certains parents ont des réserves à propos des plans du gouvernement sud-coréen visant à introduire des…

Illustration of Le programme de manuels scolaires AI de la Corée du Sud fait face au scepticisme des parents | TechCrunch

Lire plus

Intelligence artificielle

Centres de contrôle technique : des outils pour prévenir les risques professionnels – Actualité – INRS

3 juillet 2024

Les professionnels travaillant dans les centres de contrôle technique sont exposés à une variété de risques liés…

Illustration of Centres de contrôle technique : des outils pour prévenir les risques professionnels - Actualité - INRS

Lire plus

Intelligence artificielle

Deezer poursuit Spotify et Amazon Music avec son propre générateur de playlists AI | TechCrunch

16 juillet 2024

La dernière entreprise à intégrer une fonctionnalité de playlist AI dans son application de streaming musical…

Illustration of Deezer poursuit Spotify et Amazon Music avec son propre générateur de playlists AI | TechCrunch

Lire plus

Gemini Live en première vue : Mieux que de parler à Siri, mais moins bien que souhaité | TechCrunch

Le retour de la bataille des retraites

CodeRabbit lève 16 millions de dollars pour appliquer l’IA à la revue de code | TechCrunch

Laisser un commentaire Annuler la réponse

Les modèles d’IA Gemma de Google dépassent les 150 millions de téléchargements

Social planning : comment transformer le planning en un levier d’engagement et de bien-être des salariés ?

Image de marque employeur : pourquoi les offres d’emploi ne suffisent pas ?

L’IA ne va pas vous remplacer… mais elle va booster votre carrière RH

ROI de la Formation : enjeux, calcul et optimisation

Gemini Live en première vue : Mieux que de parler à Siri, mais moins bien que souhaité | TechCrunch

Partagez cet article

Le retour de la bataille des retraites

CodeRabbit lève 16 millions de dollars pour appliquer l’IA à la revue de code | TechCrunch

Laisser un commentaire Annuler la réponse

Lire plus d'articles