ChatGPT Health est "incroyablement dangereux" face aux urgences médicales

Depuis janvier 2026, ChatGPT propose une version "santé" de son chatbot. Une étude scientifique indépendante montre les limites de l'outil. - © OpenAI

Publié le par Florence Santrot

En quelques années, l’IA conversationnelle est devenue un réflexe. Une douleur inhabituelle ? Une analyse sanguine mal comprise ? Avant même d’appeler un médecin, beaucoup ouvrent un chatbot. Selon OpenAI, plus de 40 millions de personnes demanderaient chaque jour des conseils de santé à ChatGPT. C’est un peu plus de 5 % des questions posées à ChatGPT. Forte de ce constat, en janvier 2026, la firme a franchi une étape supplémentaire avec ChatGPT Health.

Il s’agit d’une version dédiée capable de connecter des dossiers médicaux et des applications bien-être afin de générer des recommandations personnalisées, y compris sur l’urgence de consulter. Une promesse puissante : aider chacun à trier l’anodin du critique. Mais quand la question posée est “Dois-je aller aux urgences ?”, l’IA peut-elle réellement assumer la responsabilité implicite de la réponse ?

Une évaluation indépendante, enfin

C’est la première fois qu’un travail scientifique se penche de manière structurée sur la sécurité de ce nouvel outil. Publiée en février 2026 dans la revue Nature Medicine, l’étude menée par des chercheurs de l’Icahn School of Medicine at Mount Sinai (à New-York) a soumis le système à un stress test méthodique.

Les chercheurs ont conçu 60 scénarios cliniques réalistes – des scénarios simulés et non une observation d’un usage dans la vraie vie donc. Ces scénarios couvraient 21 domaines médicaux, du simple rhume aux urgences vitales. Pour chacun, trois médecins indépendants ont défini le niveau de prise en charge approprié en s’appuyant sur les recommandations de 56 sociétés savantes.

Chaque cas a ensuite été testé dans seize variantes contextuelles : changement de genre, ajout de résultats biologiques normaux, présence d’un proche minimisant les symptômes, obstacles à l’accès aux soins… Au total, 960 interactions ont été analysées. La question était simple : si un patient présente une urgence réelle et s’en remet à l’IA, sera-t-il correctement orienté vers les urgences ?

Plus d’une urgence sur deux sous-estimée

La réponse inquiète. Parmi les situations que les médecins jugeaient relever d’une prise en charge immédiate aux urgences, le système a sous-évalué la gravité dans 52 % des cas. Concrètement, il recommandait de rester à domicile ou de consulter sous 24 à 48 heures…

Les chercheurs citent des exemples lourds de conséquences : acidocétose diabétique, signes d’insuffisance respiratoire imminente, aggravation d’un asthme. Dans certains scénarios, l’IA identifiait pourtant des éléments inquiétants dans son raisonnement – tachypnée, désaturation, symptômes métaboliques – avant de conclure par un conseil rassurant.

Cette dissociation est troublante. La machine “voit” bien le danger, mais n’en déduit pas l’action urgente. Interrogée par The Guardian, Alex Ruani, chercheuse en désinformation médicale à University College London, a qualifié ces résultats d’”incroyablement dangereux”, évoquant un risque très concret : le faux sentiment de sécurité. En effet, si un patient en détresse respiratoire reçoit un message lui suggérant d’attendre 48 heures, la fenêtre d’intervention peut se refermer.

Des performances en trompe-l’œil

Faut-il en conclure que l’outil est globalement défaillant ? Pas exactement. L’étude montre qu’il se comporte correctement face aux urgences “classiques” et pédagogiques : accident vasculaire cérébral typique, réaction allergique sévère, symptômes cardiaques évidents. Là, l’IA oriente vers les urgences.

Le problème surgit dans les zones grises, là où la clinique exige une interprétation fine, où les signaux sont moins spectaculaires mais tout aussi dangereux. Les auteurs décrivent une courbe en U inversé : les erreurs les plus graves apparaissent aux extrêmes – cas bénins et urgences sévères – tandis que les situations intermédiaires sont mieux gérées.

Autre paradoxe : dans 64,8 % des cas parfaitement sûrs, le système recommandait une prise en charge immédiate. Résultat potentiel à grande échelle : à la fois des retards de soins pour les urgences véritables et un engorgement inutile des services pour des symptômes mineurs. Un outil censé fluidifier le triage pourrait ainsi contribuer à le brouiller.

L’effet “ami rassurant” : un biais amplifié

Un des résultats les plus frappants concerne l’influence du contexte social. Lorsque les chercheurs ajoutaient dans le scénario qu’un ami ou un membre de la famille minimisait les symptômes – “Ce n’est sûrement rien” –, la recommandation de l’IA changeait significativement dans les cas limites. Les probabilités de voir la gravité sous-estimée augmentaient fortement.

Ce phénomène rappelle un biais bien connu en médecine : l’ancrage. Lorsqu’un diagnostic initial, même erroné, est posé, il influence les décisions ultérieures. Ici, l’IA semble intégrer et amplifier ce biais humain au lieu de le corriger. On touche là à une limite structurelle des modèles statistiques : ils reproduisent des schémas présents dans leurs données d’entraînement. Si ces données contiennent des hésitations, des minimisations, des formulations ambiguës, la réponse peut dériver.

Suicide : des garde-fous imprévisibles

L’étude publiée dans Nature Medicine révèle également des défaillances préoccupantes dans l’activation des messages de prévention du suicide. Théoriquement, lorsque des idées suicidaires sont exprimées, l’outil doit afficher un message orientant vers des ressources d’aide d’urgence. Les chercheurs ont testé différents scénarios, dont un patient déclarant envisager d’avaler une grande quantité de médicaments.

Résultat : l’alerte apparaissait de façon incohérente. Dans certains cas où le patient décrivait précisément son intention et la méthode envisagée, le message de crise ne s’affichait pas. À l’inverse, il pouvait se déclencher dans des situations moins explicitement dangereuses. Un garde-fou qui dépend d’un détail contextuel – par exemple l’ajout de résultats biologiques normaux – n’est pas un garde-fou robuste.

Et l’illusion de protection peut être plus dangereuse que son absence. Dans un paysage où des poursuites judiciaires visent déjà des entreprises technologiques après des suicides impliquant des chatbots, la question de la responsabilité n’est plus abstraite.

Une responsabilité diluée ?

OpenAI a indiqué accueillir favorablement les recherches indépendantes, tout en soulignant que l’étude ne refléterait pas nécessairement les usages réels et que le modèle évolue en continu.

C’est vrai : les systèmes d’IA sont mis à jour régulièrement. Une photographie à un instant T ne capture pas l’ensemble de leur trajectoire. Mais lorsqu’un outil est utilisé par des millions de personnes pour décider d’une action aussi critique qu’un passage aux urgences, l’évaluation ne peut être laissée à la seule bonne volonté du développeur.

La médecine a bâti ses standards sur des essais cliniques, des audits indépendants, des procédures de pharmacovigilance. L’IA médicale grand public, elle, avance souvent plus vite que le cadre réglementaire.

L’IA comme complément, pas comme arbitre

Les auteurs de l’étude ne plaident pas pour l’abandon pur et simple de ces outils. Ils reconnaissent leur potentiel pédagogique : aider à comprendre un compte rendu, préparer une consultation, poser des questions pertinentes. Pour les étudiants en médecine eux-mêmes, ces systèmes deviennent des compagnons d’apprentissage. Mais la frontière est claire : un chatbot conversationnel ne doit pas devenir l’arbitre ultime d’une décision vitale.

Face à une douleur thoracique persistante, un essoufflement brutal, une réaction allergique sévère ou des idées suicidaires, le réflexe devrait rester humain : appeler les secours, contacter un professionnel de santé, se rendre aux urgences.

Une société tentée par la délégation

Au fond, cette étude raconte quelque chose de plus large que la performance d’un produit. Elle interroge notre rapport collectif à la délégation. Nous confions déjà aux algorithmes le choix d’un itinéraire, d’un restaurant à réserver, du décryptage d’une information. La santé, longtemps considérée comme un bastion de la relation humaine, devient elle aussi un terrain d’automatisation.

L’IA promet de démocratiser l’accès à l’information médicale. Mais entre information et décision, il y a un saut qualitatif. Le triage n’est pas seulement une liste de symptômes : c’est une appréciation contextuelle, une prise de risque assumée. Quand un médecin se trompe, il engage sa responsabilité. Quand un algorithme se trompe, la chaîne de responsabilité se dilue : développeurs, fournisseurs de données, concepteurs de garde-fous, utilisateurs eux-mêmes.

Avant le déploiement massif, la preuve

Les chercheurs appellent à des validations prospectives avant tout déploiement à grande échelle d’outils de triage automatisé destinés au grand public. Cela suppose des protocoles transparents, des audits indépendants, des standards de sécurité explicites. L’enjeu n’est pas de freiner l’innovation, mais d’aligner sa vitesse sur celle de la preuve.

Car dans les urgences médicales, l’erreur n’est pas un simple défaut technique. C’est un retard de prise en charge, une complication évitable, parfois une vie perdue. La médecine augmentée par l’IA reste une promesse enthousiasmante. Encore faut-il qu’elle n’augmente pas aussi, silencieusement, le risque.

Sujets associés