Dans une étude de Harvard, l’IA a proposé des diagnostics plus précis que deux médecins en salle d’urgence

Une nouvelle étude publiée cette semaine dans la revue Science met en lumière les performances impressionnantes des grands modèles de langage (LLM) en contexte médical, notamment en salle d’urgence. Menée par une équipe de médecins et d’informaticiens de la Harvard Medical School et du Beth Israel Deaconess Medical Center, cette recherche explore le potentiel des intelligences artificielles à assister, voire surpasser, la précision des praticiens humains dans des situations critiques.

Lors de l’une des expérimentations, les chercheurs ont comparé les diagnostics fournis par deux médecins urgentistes aux propositions générées par deux modèles d’OpenAI, l’o1 et le 4o. Ces diagnostics ont ensuite été évalués par deux autres médecins, qui n’avaient aucune connaissance de l’origine des réponses. Les résultats ont montré que, à chaque étape critique, le modèle o1 obtenait des performances équivalentes ou meilleures que celles des médecins. La différence était particulièrement notable lors de la première étape d’évaluation à l’admission, où les données disponibles étaient encore limitées et où une décision rapide était cruciale.

Les chercheurs insistent sur le fait que, lors de ces tests, ils n’ont effectué aucune pré-traitement des données. Les modèles ont ainsi reçu exactement les mêmes informations issues des dossiers médicaux électroniques que celles disponibles au moment du diagnostic. Avec ces données, le modèle o1 a réussi à identifier la bonne ou une très proche cause dans 67 % des cas de triage, contre 55 % et 50 % pour les deux médecins respectivement. « Nous avons testé l’IA contre pratiquement tous les benchmarks existants, et elle a surpassé aussi bien les modèles antérieurs que nos médecins de référence », a déclaré Arjun Manrai, responsable d’un laboratoire d’IA à Harvard.

Toutefois, les chercheurs précisent que cela ne signifie pas que l’IA est prête à prendre des décisions de vie ou de mort dans les urgences, mais souligne plutôt l’urgence d’évaluer ces technologies dans des contextes réels via des essais prospectifs.

Le rapport souligne également que cette étude s’est concentrée uniquement sur des données textuelles, ce qui limite pour l’instant la capacité de ces modèles à analyser d’autres types d’informations, comme l’imagerie ou les données biométriques. Adam Rodman, médecin au Beth Israel, a averti qu’il n’existe actuellement aucun cadre officiel pour garantir la responsabilité des diagnostics réalisés par l’IA. Il insiste sur le fait que les patients attendent toujours des médecins pour les guider dans des décisions critiques et potentiellement mortelles.

Dans une publication relais, Kristen Panthagani, médecin urgentiste, a commenté que cette étude peut prêter à des interprétations excessive, en soulignant que la comparaison porte sur des diagnostics établis par des médecins en médecine interne, et non par des spécialistes de l’urgence. Elle rappelle que, pour un médecin d’urgence, l’objectif principal n’est pas de diagnostiquer en premier, mais de repérer rapidement si la condition du patient est vitale ou non.

Partagez cet article
article précédent

BrowserQuest – Le MMO HTML5 de Mozilla est de retour – Korben

article suivant

« Je renonce parfois à recruter un alternant » : le ras-le-bol des PME – Centre Inffo

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles