“`html
Les flux de travail des ingénieurs logiciels ont subi une transformation significative ces dernières années grâce à l’afflux d’outils de codage alimentés par l’IA tels que Cursor et GitHub Copilot. Ces outils promettent d’améliorer la productivité en rédigeant automatiquement des lignes de code, en corrigeant des bogues et en testant des modifications. Ils sont alimentés par des modèles d’IA issus de sociétés telles qu’OpenAI, Google DeepMind, Anthropic et xAI, qui ont rapidement amélioré leurs performances sur une série de tests en ingénierie logicielle.
Cependant, une nouvelle étude publiée jeudi par le groupe de recherche sur l’IA à but non lucratif METR remet en question l’étendue des gains de productivité que ces outils pourraient offrir aux développeurs expérimentés. Pour cette étude, METR a réalisé un essai contrôlé randomisé en recrutant 16 développeurs open source expérimentés et en leur faisant compléter 246 tâches réelles sur de grands dépôts de code auxquels ils contribuent régulièrement.
L’étude souligne que les outils de codage AI, en particulier ceux désignés comme “vibe coders”, ne garantissent pas un gain de temps immédiat pour les développeurs.
Les chercheurs ont attribué aléatoirement environ la moitié des tâches aux développeurs comme « autorisées par l’IA », leur permettant d’utiliser des outils de codage alimentés par l’IA tels que Cursor Pro, tandis que l’autre moitié interdisait l’utilisation de ces outils. Avant de commencer leurs tâches, les développeurs estiment que l’utilisation des outils AI réduira leur temps de réalisation de 24 % ; pourtant, les résultats furent surprenants : « Nous constatons que l’autorisation de l’IA augmente en réalité le temps d’achèvement de 19 % – les développeurs sont plus lents lorsqu’ils utilisent des outils IA », rapportent les chercheurs.
Il est à noter que seulement 56 % des développeurs de l’étude avaient de l’expérience avec Cursor, l’outil IA principal utilisé dans l’étude. Alors que près de tous les développeurs (94 %) avaient déjà utilisé des modèles de langage basés sur le web dans leurs flux de travail de codage, c’était la première fois que certains d’entre eux utilisaient spécifiquement Cursor. Les chercheurs soulignent que les développeurs avaient été formés à l’utilisation de Cursor en préparation de l’étude.
Cependant, les résultats de METR soulèvent des questions sur les gains de productivité supposés par les outils de codage AI d’ici 2025. Selon l’étude, les développeurs ne devraient pas présumer que ces outils entraîneront une accélération de leur flux de travail. Les chercheurs avancent plusieurs raisons possibles expliquant pourquoi l’IA a ralenti les développeurs au lieu de les accélérer : ils passent beaucoup plus de temps à interroger l’IA et à attendre ses réponses plutôt qu’à coder réellement. De plus, l’IA a souvent des difficultés avec des bases de code grandes et complexes, comme celles utilisées dans ce test.
Les auteurs de l’étude se gardent de tirer des conclusions trop hâtives, notant qu’ils ne croient pas que les systèmes d’IA échouent à accélérer le travail de nombreux développeurs. D’autres études à grande échelle ont démontré que les outils AI peuvent effectivement accélérer les flux de travail des ingénieurs logiciels. Les auteurs reconnaissent également que les progrès de l’IA ces dernières années ont été substantiels et qu’ils n’attendraient pas les mêmes résultats dans trois mois. Néanmoins, cette recherche propose une nouvelle raison d’être sceptique quant aux gains promis par les outils de codage AI, tout en rappelant que d’autres études montrent également que ces outils peuvent introduire des erreurs et, dans certains cas, des vulnérabilités de sécurité.
“`