“`html
Un nouveau défi de codage IA a récemment révélé son premier gagnant, établissant ainsi une nouvelle norme pour les ingénieurs logiciels alimentés par l’intelligence artificielle. Mercredi à 17h, heure du Pacifique, l’institut à but non lucratif Laude a annoncé le gagnant du K Prize, un défi de codage IA en plusieurs rounds lancé par Andy Konwinski, cofondateur de Databricks et Perplexity. Le gagnant, Eduardo Rocha de Andrade, un ingénieur en prompt brésilien, recevra un prix de 50 000 dollars. Mais ce qui est encore plus surprenant que sa victoire, c’est son score final : il a obtenu des réponses correctes à seulement 7,5% des questions du test.
“Nous sommes ravis d’avoir construit un étalon qui est réellement difficile,” a déclaré Konwinski. “Les benchmarks doivent être difficiles s’ils veulent avoir de l’importance,” a-t-il ajouté, tout en précisant : “Les scores seraient différents si les grands laboratoires avaient participé avec leurs meilleurs modèles. Mais c’est un peu le but. Le K Prize fonctionne hors ligne avec une capacité de calcul limitée, ce qui favorise les modèles plus petits et ouverts. J’adore ça. Cela nivelle le terrain de jeu.” Konwinski a promis un million de dollars au premier modèle open source capable d’atteindre un score supérieur à 90% sur le test.
“Si nous ne pouvons pas même dépasser 10% sur un SWE-Bench sans contamination, c’est un véritable retour à la réalité pour moi.”
Similaire au système bien connu SWE-Bench, le K Prize teste les modèles en les confrontant à des problèmes signalés sur GitHub pour évaluer leur capacité à traiter des problèmes de programmation du monde réel. Cependant, tandis que le SWE-Bench est basé sur un ensemble fixe de problèmes que les modèles peuvent utiliser pour s’entraîner, le K Prize est conçu comme une version “sans contamination” de SWE-Bench, utilisant un système d’entrée chronométrée pour éviter tout entraînement spécifique aux benchmarks. Pour le premier round, les modèles étaient attendus avant le 12 mars. Les organisateurs du K Prize ont ensuite construit le test en utilisant uniquement les problèmes GitHub signalés après cette date.
Le score de 7,5% contraste fortement avec le SWE-Bench lui-même, qui affiche actuellement un score de 75% sur son test “Vérifié” plus facile et de 34% sur son test “Complet” plus difficile. Konwinski n’est pas encore sûr si cette disparité est due à une contamination sur SWE-Bench ou simplement à la difficulté de collecter de nouveaux problèmes sur GitHub, mais il s’attend à ce que le projet K Prize réponde bientôt à cette question. “Au fur et à mesure que nous aurons plus de courses, nous aurons une meilleure idée,” a-t-il confié à TechCrunch, “car nous nous attendons à ce que les gens s’adaptent à la dynamique de la compétition tous les quelques mois.”
Il peut sembler curieux de rencontrer de telles difficultés, étant donné la large gamme d’outils de codage IA déjà disponibles publiquement. Cependant, avec des benchmarks devenant trop simples, de nombreux critiques considèrent des projets comme le K Prize comme une étape nécessaire pour résoudre le problème croissant de l’évaluation des IA. “Je suis assez optimiste quant à la création de nouveaux tests pour les benchmarks existants,” déclare Sayash Kapoor, chercheur à Princeton, qui a avancé une idée similaire dans un document récent. “Sans de telles expériences, nous ne pouvons pas réellement dire si le problème est une contamination, ou même si c’est juste en visant le tableau de classement SWE-Bench avec un humain dans la boucle.”
“`