Depuis près de deux ans, Satya Nadella, le PDG de Microsoft, annonçait que l’intelligence artificielle (IA) transformerait en profondeur les emplois de la sphère de la connaissance, notamment ceux de juristes, banquiers d’investissement, bibliothécaires, comptables ou encore professionnels de l’informatique. Pourtant, malgré les progrès significatifs réalisés par les modèles fondateurs, la mutation attendue du travail intellectuel demeure timide. Si ces modèles ont maîtrisé l’investigation approfondie et la planification agentique, leur impact sur les métiers de la connaissance est encore largement limité, une énigme analysée désormais avec précision par de nouvelles recherches.
Une étude menée par Mercor, spécialiste en données d’entraînement, met en lumière cette difficulté. Elle introduit une nouvelle référence appelée APEX-Agents, permettant d’évaluer la capacité des modèles d’IA à réaliser des tâches concrètes propres aux professions de conseil, banque ou droit, en mettant en évidence leur efficacité face aux requêtes professionnelles en situation réelle. Les résultats sont frisants, chaque laboratoire d’IA obtenant une note d’échec. Pour expert en la matière, Brendan Foody, CEO de Mercor, le principal obstacle rencontré réside dans la capacité des modèles à rechercher et joindre des informations dispersées sur plusieurs domaines — une opération cruciale dans le quotidien professionnel.
“Le benchmark reflète la complexité du travail réel, où l’on évolue entre Slack, Google Drive et autres outils, et non dans un seul espace centralisé.”
Les scénarios, puisés dans des professionnels actifs sur le marché expert de Mercor, révèlent toute la complexité des questions posées. Par exemple, une question dans le secteur juridique concerne la conformité du traitement de logs dans le contexte du RGPD européen, une demande nécessitant une compréhension approfondie à la fois des lois et des politiques internes de l’entreprise. Ce type de tâche, qui pourrait mettre en difficulté un juriste expérimenté, constitue aujourd’hui une barrière pour les IA. Si ces modèles parvenaient à répondre de manière fiable, cela pourrait ouvrir la voie à une automatisation massive de certains métiers.
Ce défi dépasse le simple cadre de la connaissance générale. Alors qu’OpenAI a tenté d’évaluer les compétences professionnelles avec son benchmark GDPval, la nouvelle évaluation APEX-Agents cible la capacité à effectuer des tâches soutenues dans des secteurs à forte valeur ajoutée. Les résultats montrent que, parmi les modèles analysés, Gemini 3 Flash s’en sort le mieux avec un taux d’exactitude d’à peine 24 %, suivi de près par GPT-5.2 à 23 %. Ces scores modestes, bien que décevants, marquent néanmoins une étape dans la progression de l’IA, laquelle montre une amélioration rapide année après année.
Les résultats actuels, bien que faibles, laissent entrevoir un potentiel d’évolution significatif, selon Brendan Foody. Il souligne que, comparée à l’année précédente, cette performance est en constante progression — un “stade d’apprentissage” qui pourrait rapidement transformer la donne si les efforts de recherche se poursuivent à ce rythme. La communauté des laboratoires d’IA voit dans cette nouvelle référence une occasion de repousser ses limites, un défi qu’elle s’engage à relever dans les mois à venir.
“Même si les modèles ne sont pas encore prêts à remplacer complètement ces professions, ils montrent une progression rapide qui pourrait transformer leur rôle à l’avenir.”
En conclusion, si la technologie continue sur sa lancée, les agents d’IA pourraient bientôt assister efficacement, voire prendre en charge une partie substantielle des tâches complexes jusque-là réservées aux experts humains. Cependant, le chemin reste long, et cet écart de performance actuel souligne que la sophistication de l’IA doit encore progresser pour se confronter à la réalité du monde professionnel. La communauté scientifique et technologique reste donc prudente, tout en étant optimiste quant à des avancées majeures à venir.
