OpenAI : o1 dépasse les médecins aux urgences

Une équipe de Harvard Medical School et du Beth Israel Deaconess Medical Center vient de publier dans la revue Science une comparaison directe entre les modèles o1 et 4o d’OpenAI et deux médecins de médecine interne sur 76 cas réels aux urgences. Le modèle o1 propose le bon diagnostic ou un diagnostic très proche dans 67 % des cas de triage, contre 55 % et 50 % pour les deux praticiens. Les chercheurs ne concluent pas à une supériorité clinique opérationnelle, mais les chiffres relancent un débat que la médecine ne peut plus différer.

Pour résumer

o1 d’OpenAI atteint 67 % de diagnostics exacts au triage, contre 55 % et 50 % pour deux internistes
L’étude publiée dans Science porte sur 76 cas réels aux urgences du Beth Israel, évaluée à l’aveugle par d’autres médecins
Les auteurs appellent à des essais prospectifs avant tout déploiement clinique

Ce que l’étude a mesuré

76 patients admis aux urgences du Beth Israel Deaconess Medical Center à Boston. Les mêmes dossiers médicaux électroniques présentés à o1, à 4o, et à deux médecins de médecine interne, sans aucune adaptation ni reformatage. L’évaluation des diagnostics a ensuite été confiée à deux autres médecins, qui ignoraient quelle réponse provenait d’un humain et laquelle d’une machine.

Ce protocole en aveugle est l’un des points forts de l’étude. Il réduit le biais d’évaluation classique qui consiste à juger plus sévèrement ce qu’on sait être produit par une IA. Les résultats sont publiés dans Science, l’une des revues scientifiques les plus sélectives au monde, co-signée par des médecins et des informaticiens de Harvard Medical School et du Beth Israel.

o1 propose le diagnostic exact ou un diagnostic très proche dans 67 % des cas de triage. Le premier médecin atteint 55 %, le second 50 %. Les chercheurs précisent que l’écart est particulièrement marqué au premier point de contact, le triage initial : là où les informations sur le patient sont les plus rares, et l’urgence la plus forte.

Arjun Manrai, directeur d’un laboratoire d’IA à Harvard Medical School et co-auteur principal, indique que le modèle a surpassé les versions précédentes et les médecins de référence sur la quasi-totalité des critères testés. La performance n’est pas marginale, et elle s’observe précisément dans les conditions les plus difficiles.

Les chercheurs tiennent à souligner qu’aucun prétraitement des données n’a été effectué. o1 et 4o ont reçu exactement les mêmes informations que celles disponibles dans les dossiers médicaux au moment de chaque décision. Ce point est important pour la validité externe de l’étude.

Ce que les chiffres ne disent pas

Les deux médecins mis en comparaison sont des internistes, pas des urgentistes. Kristen Panthagani, urgentiste, note que cette comparaison pose un problème de fond : si l’objectif est d’évaluer les capacités de l’IA par rapport aux cliniciens, la comparaison doit se faire avec des spécialistes du domaine concerné, en l’occurrence des praticiens des urgences.

Elle soulève un point encore plus structurant. Aux urgences, l’objectif premier d’un médecin n’est pas de poser le diagnostic final. C’est de détecter ce qui peut tuer le patient dans l’heure qui suit. Ce sont deux tâches distinctes, et l’étude mesure la première, pas la seconde.

o1 et 4o ont été évalués uniquement sur des données textuelles. Les chercheurs le reconnaissent explicitement : les LLMs actuels restent limités dès qu’il s’agit de raisonner à partir d’informations non textuelles. Une consultation réelle aux urgences mobilise de l’imagerie, des constantes physiologiques, un examen clinique direct que les modèles ne traitent pas encore de façon satisfaisante.

Adam Rodman, médecin au Beth Israel et co-auteur de l’étude, formule une mise en garde complémentaire : il n’existe à ce jour aucun cadre formel de responsabilité pour les diagnostics posés par une IA. La question de qui répond en cas d’erreur reste entière, et les patients souhaitent toujours que ce soit un humain qui les guide dans les décisions vitales.

À voir également sur Horizon :

Ce que cette étude change dans le débat médical

L’étude ne conclut pas à un remplacement des médecins. Elle formule une recommandation précise : mener des essais prospectifs en conditions réelles avant toute intégration clinique. C’est un préalable, pas une approbation. Mais une publication dans Science, avec des chiffres aussi tranchés, va alimenter les discussions dans les comités d’éthique, les directions hospitalières et les agences de santé.

À court terme, les hôpitaux qui expérimentent déjà des outils d’aide au diagnostic vont se retrouver sous pression. Non pas pour déployer, mais pour se positionner. Avoir une réponse institutionnelle claire sur l’IA aux urgences devient une nécessité politique autant que médicale.

À moyen terme, cette étude s’inscrit dans une série de travaux convergents. Des LLMs ont montré des performances comparables en radiologie, en dermatologie, en interprétation d’électrocardiogrammes. La question n’est plus de savoir si les modèles peuvent rivaliser sur des tâches textuelles ciblées. La question est de définir dans quelles conditions cette performance est utile et suffisamment sûre pour être intégrée dans un parcours de soin.

Pour OpenAI, les résultats valident l’orientation vers les applications professionnelles à enjeux élevés. Figurer dans Science avec des résultats de ce type fait passer le discours de la démonstration commerciale à la validation scientifique. C’est un changement de registre qui compte pour les décideurs institutionnels.

Les urgentistes maintiennent leurs réserves à juste titre. Leur expertise intègre une lecture globale du patient, une gestion du flux, une prise de décision sous contrainte temps et sous pression que l’étude n’a pas cherché à modéliser. Ce que les chiffres mesurent est réel. Ce qu’ils laissent de côté l’est aussi.

OpenAI : o1 dépasse les médecins aux urgences

Pour résumer

Ce que l’étude a mesuré

Ce que les chiffres ne disent pas

Ce que cette étude change dans le débat médical

4 Comments

Laisser un commentaire Annuler la réponse