L’un des nouveaux fleurons des modèles d’IA que Meta a dévoilé samedi, Maverick, se classe deuxième sur LM Arena, un test qui fait appel à des évaluateurs humains pour comparer les résultats des modèles et choisir ceux qu’ils préfèrent. Mais il semble que la version de Maverick que Meta a déployée sur LM Arena diffère de la version largement disponible pour les développeurs. Comme plusieurs chercheurs en IA l’ont souligné sur X, Meta a noté dans son annonce que le Maverick sur LM Arena est une “version de chat expérimentale”.
Un graphique sur le site officiel de Llama révèle que les tests de Meta sur LM Arena ont été réalisés en utilisant ” Llama 4 Maverick optimisée pour la conversation”. Nous avons déjà écrit sur ce sujet, pour diverses raisons, LM Arena n’a jamais été la mesure la plus fiable de la performance d’un modèle d’IA. Cependant, les entreprises d’IA n’ont généralement pas personnalisé ou autrement amélioré leurs modèles pour obtenir de meilleurs scores sur LM Arena – ou n’ont pas admis l’avoir fait, du moins.
“Le problème de l’adaptation d’un modèle à un critère de performance, de le retenir, puis de publier une variante ‘vanilla’ de ce même modèle est qu’il est difficile pour les développeurs de prédire exactement comment le modèle se comportera dans des contextes particuliers. C’est également trompeur.”
En effet, les critères de performance – aussi insuffisants soient-ils – devraient offrir une vision instantanée des forces et des faiblesses d’un seul modèle à travers un éventail de tâches. En effet, les chercheurs sur X ont observé des différences marquées dans le comportement du Maverick téléchargeable publiquement par rapport au modèle hébergé sur LM Arena. La version LM Arena semble utiliser beaucoup d’emojis et donne des réponses incroyablement longues.
Nous avons contacté Meta et Chatbot Arena, l’organisation qui gère LM Arena, pour obtenir des commentaires. Kyle Wiggers est le rédacteur en chef d’IA à TechCrunch. Ses écrits sont apparus dans VentureBeat et Digital Trends, ainsi que dans une série de blogs de gadgets, dont Android Police, Android Authority, Droid-Life et XDA-Developers. Il vit à Manhattan avec son partenaire, un musicotherapeute.