Un cadre de Meta a démenti lundi une rumeur selon laquelle l’entreprise aurait ajusté ses nouveaux modèles d’IA pour bien se présenter sur des benchmarks spécifiques tout en cachant les faiblesses des modèles. L’exécutif, Ahmad Al-Dahle, vice-président de l’IA générative chez Meta, a déclaré dans un post sur X que ce n’est “tout simplement pas vrai” que Meta a formé ses modèles Llama 4 Maverick et Llama 4 Scout sur des “ensembles de test”. Dans les benchmarks de l’IA, les ensembles de test sont des collections de données utilisées pour évaluer la performance d’un modèle après qu’il a été formé. La formation sur un ensemble de test pourrait gonfler de manière trompeuse les scores de benchmark d’un modèle, faisant apparaître le modèle plus capable qu’il ne l’est réellement.
Au cours du week-end, une rumeur non fondée selon laquelle Meta aurait artificiellement augmenté les résultats des nouveaux modèles sur le benchmark a commencé à circuler sur X et Reddit. La rumeur semble avoir été lancée par un post sur un site de médias sociaux chinois d’un utilisateur qui prétend avoir quitté Meta en protestation contre les pratiques de benchmarking de l’entreprise. Des rapports indiquant que Maverick et Scout ont du mal à accomplir certaines tâches ont alimenté la rumeur, tout comme la décision de Meta d’utiliser une version expérimentale non publiée de Maverick pour obtenir de meilleurs scores sur le benchmark LM Arena.
“Puisque nous avons terminé les modèles dès qu’ils étaient prêts, nous nous attendons à ce qu’il faille plusieurs jours avant que toutes les mises en œuvre publiques ne soient mises au point”, a déclaré Al-Dahle.
Des chercheurs sur X ont observé de grandes différences dans le comportement du modèle Maverick téléchargeable publiquement par rapport au modèle hébergé sur LM Arena. Al-Dahle a reconnu que certains utilisateurs voient une “qualité mitigée” de Maverick et Scout parmi les différents fournisseurs d’hébergement des modèles.
“Depuis que nous avons abandonné les modèles dès qu’ils étaient prêts, nous nous attendons à ce que cela prenne plusieurs jours pour que toutes les implémentations publiques soient mises au point”, a déclaré Al-Dahle. “Nous allons continuer à travailler sur nos corrections de bugs et nos partenaires à bord”.