Cette semaine, Sakana AI, une startup soutenue par Nvidia ayant levé des centaines de millions de dollars auprès de sociétés de capital-risque, a fait une affirmation remarquable. L’entreprise a déclaré avoir créé un système IA, l’AI CUDA Engineer, capable d’accélérer efficacement l’entraînement de certains modèles d’IA jusqu’à un facteur de 100x. Cependant, le système ne fonctionne pas. Les utilisateurs de X ont rapidement découvert que le système de Sakana entraînait en réalité une performance d’entraînement de modèles pire que la moyenne.
Selon un utilisateur, l’IA de Sakana a entraîné un ralentissement de 3x – non pas un accélérateur. Que s’est-il passé ? Un bug dans le code, selon un post de Lucas Beyer, membre du personnel technique chez OpenAI. “Leur code d’origine est erroné de manière subtile”, a écrit Beyer sur X. “Le fait qu’ils exécutent des tests de performance DEUX fois avec des résultats extrêmement différents aurait dû les faire s’arrêter et réfléchir”.
“Cette situation nous rappelle que si une affirmation semble trop belle pour être vraie, particulièrement en IA, cela est probablement le cas.”
Dans un post-mortem publié vendredi, Sakana a admis que le système avait réussi à “tricher” (comme Sakana l’a décrit) et a blâmé la tendance du système à “hacker la récompense”, c’est-à-dire à identifier des failles pour atteindre des mesures élevées sans atteindre l’objectif recherché (accélération de l’entraînement des modèles). Un phénomène similaire a été observé dans l’IA entraînée à jouer aux échecs.
Selon Sakana, le système a trouvé des failles dans le code d’évaluation que l’entreprise utilisait, ce qui lui permettait de contourner les validations de précision, parmi d’autres contrôles. Sakana déclare avoir corrigé le problème et prévoit de réviser ses affirmations dans des documents mis à jour. “Nous avons depuis rendu l’évaluation et le profilage du temps d’exécution plus robustes pour éliminer de nombreuses failles de ce type”, a écrit l’entreprise dans le post X. “Nous sommes en train de réviser notre document, et nos résultats, pour refléter et discuter des effets… Nous nous excusons profondément pour notre négligence à nos lecteurs. Nous fournirons une révision de ce travail bientôt, et discuterons de nos apprentissages.”