L'IA dans le quotidien médical: OpenEvidence au banc d'essai

Les chatbots d'intelligence artificielle font leur entrée dans le quotidien clinique. Mais lequel fournit les réponses les plus précises aux questions médicales? Nous avons soumis OpenEvidence, ChatGPT et Google Gemini à un test – et les résultats sont surprenants.

Contribution invitée de Massimo Barbagallo et Roman Sager, 12 janvier 2026 à 23:00
image
«Cette expérience montre à quel point les modèles d'IA "normaux" se sont massivement améliorés» — Barbagallo et Sager.
OpenEvidence est un chatbot basé sur l’intelligence artificielle, considéré comme une référence par les professionnels de santé aux États-Unis, et souvent présenté comme le «ChatGPT du personnel médical». Nous l’avons soumis à une batterie de tests et analysé en détail. Quel chatbot est le mieux adapté aux questions médicales? Et lequel commet le moins d’erreurs?
Ces dernières années, l’intelligence artificielle a connu des progrès considérables. Patients comme médecins ont de plus en plus recours à ChatGPT et à d’autres chatbots pour obtenir des informations, poser des hypothèses diagnostiques ou accélérer leurs processus de travail.
Si cette technologie promet une grande facilité d’utilisation et une amélioration potentielle de la qualité des soins, elle comporte aussi des risques: les chatbots peuvent produire des réponses erronées sans en avoir conscience. Face à ce problème, OpenEvidence s’est donné pour objectif de réduire le taux d’erreur et de développer un assistant spécialisé pour les professionnels de santé.
Massimo Barbagallo est spécialiste en médecine interne générale et actuellement en formation pour devenir neurologue. En plus de son activité clinique, il mène des recherches dans le domaine des accidents vasculaires cérébraux. Pendant son temps libre, il est également actif comme DJ.
Roman Sager est en formation postgraduée pour devenir médecin spécialiste. Passionné de tennis, il s’intéresse aussi à l’informatique et aux nouvelles technologies.
Tous deux sont les fondateurs de la plateforme de documentation médicale «Berichteguru».
Nous avons mis OpenEvidence à l’épreuve et l’avons comparé à d’autres chatbots afin d’évaluer ses performances réelles et de déterminer s’il vaut la peine d’y recourir.
Avant d’aborder les résultats, revenons brièvement sur la théorie. Pourquoi OpenEvidence est-il considéré comme supérieur?
  • Les modèles généralistes (ChatGPT, Gemini, Claude, etc.) effectuent leurs recherches sur l’open web. Or, une grande partie de la littérature médicale spécialisée est protégée par des paywalls (The Lancet, NEJM, etc.). En théorie, ces modèles n’ont donc accès qu’aux contenus librement disponibles, principalement aux résumés (abstracts), mais pas aux articles complets. De plus, ils ne sont pas spécifiquement entraînés à la recherche systématique d’études cliniques ni à l’évaluation critique de leur pertinence.
  • OpenEvidence, en revanche, dispose de partenariats avec de grandes maisons d’édition scientifique (Elsevier, Wiley, etc.), ce qui lui donne pratiquement «la clé de la bibliothèque». Il accède aux textes intégraux et s’appuie, pour ses recherches, sur un vaste corpus de revues sous licence. Le risque de sources inventées ou de liens erronés s’en trouve ainsi fortement réduit, puisque cette bibliothèque riche et régulièrement mise à jour constitue l’arrière-plan documentaire de ses réponses.
En théorie, l’avantage paraît évident. Mais qu’en est-il dans la pratique, face à une question clinique concrète?
Qui fournit l’état actuel de la recherche de la manière la plus précise et la plus complète? Nous avons testé ChatGPT, Google Gemini et OpenEvidence avec exactement la même question (état: novembre 2025).
image
Page d'accueil d'OpenEvidence

Prompt de test

«Listez les essais cliniques randomisés (RCT) les plus pertinents des deux dernières années sur le thème du traitement de l’HFpEF, avec les liens correspondants.»

Résultats

🟥 3ème place: Google – obligation remplie.

Google a fourni des résultats solides. Il a identifié des études importantes telles que FINEARTS-HF (2024) et le programme STEP-HFpEF, avec des liens corrects. Le critère temporel des deux dernières années a globalement été respecté, bien que quelques études plus anciennes aient été mentionnées (clairement identifiées comme telles). En revanche, une étude majeure, SUMMIT, manquait. Solide, mais incomplet.

🟥 2ème place: OpenEvidence – l'expert théorique.

C'est là que sont apparues des faiblesses surprenantes dans l'utilisation.
  • Points positifs: les études pertinentes (FINEARTS, SUMMIT, STEP) ont été correctement citées, et le système a même proposé de lui-même des analyses de sous-groupes, suggérant un accès approfondi aux données.
  • Points négatifs: la consigne temporelle n’a pas été strictement respectée. Des études plus anciennes (EMPEROR-Preserved, DELIVER) ont été présentées comme centrales sans indication claire de leur ancienneté.
  • Enfin, le «problème des paywalls» demeure: bien que les liens soient exacts, l’utilisateur sans abonnement institutionnel se heurte souvent à un accès restreint, ce qui limite la possibilité de vérifier les sources.

🟥 1ère place: ChatGPT – le vainqueur inattendu.

  • Précision: il s'en est tenu strictement au calendrier.
  • Exhaustivité: il mentionnait toutes les nouvelles études pertinentes – FINEARTS-HF (Finerenon), STEP-HFpEF (Semaglutid, avec/sans diabète) et SUMMIT (Tirzepatide). Tous les liens fonctionnaient parfaitement.
  • Contexte: il a correctement reconnu que des classiques comme EMPEROR-Preserved étaient plus anciens et les a classés en conséquence.
  • Bonus: il a même fourni des études RCT non pharmacologiques (par exemple sur l'entraînement en cas de HFpEF) et des liens qui fonctionnent.

Pourquoi le polyvalent l'emporte

Cette comparaison illustre les progrès rapides des modèles d’IA généralistes en matière de fiabilité des sources et de compréhension fine des consignes.
Aucun des trois chatbots n'a inventé des études ou généré de faux liens. Il y a un an, la situation aurait certainement été différente.
  • Adhésion au prompt: ChatGPT comprend souvent mieux nos instructions (par ex. les filtres temporels) que les modèles spécialisés. OpenEvidence semblait plus rigide à cet égard.
  • Utilité vs. accès: l'avantage théorique d'OpenEvidence – l'accès au texte intégral – s'évapore si l'on ne veut qu'un aperçu. Pire encore: lorsque l'IA fournit une information en texte intégral, mais que l'on ne peut pas ouvrir ce lien (parce que moi ou mon institution n'avons pas d'abonnement à ce journal précis), il reste un sentiment d'incomplétude.
  • Les hallucinations sont devenues plus rares: le vieil argument selon lequel ChatGPT invente des sources et des contenus est de moins en moins vrai avec les derniers modèles (avec recherche web active). Lors du test, tous les liens étaient corrects.

À qui s'adresse OpenEvidence?

Pour 95% des questions cliniques et pour la recherche bibliographique, un outil polyvalent moderne comme ChatGPT (dans sa version actuelle) est actuellement non seulement «assez bon», mais souvent même supérieur en termes d'utilisation et de précision. Il fournit des liens qui fonctionnent, respecte les délais et offre un contexte plus large.

Quand privilégier OpenEvidence?

Actuellement, il semble principalement adapté aux personnes travaillant dans le système de santé américain, car il tient compte de dispositions supplémentaires en matière de protection des données qui ne sont actuellement pas pertinentes en Europe.
Au vu de cette évolution rapide, il reste à voir comment la situation se présentera dans quelques mois.

ChatGPT: un espace dédié à la santé

OpenAI a lancé ce mois-ci un espace spécifique de ChatGPT consacré aux thématiques de santé – pour l’instant uniquement aux États-Unis. Les utilisateurs peuvent y importer leurs données médicales, leurs dossiers de patients ainsi que les informations issues de leurs trackers de fitness et autres appareils connectés. Ces données sont ensuite analysées afin de fournir des recommandations personnalisées.
Il est ainsi possible de poser des questions telles que: «Mon pouls au repos augmente depuis trois semaines: quelles pourraient en être les raisons?» ChatGPT Health recherche alors des explications à partir des données personnelles fournies. Le système entend également aider à la préparation des consultations médicales, par exemple en répondant à des questions du type: «Quels points devrais-je aborder avec mon cardiologue? »
La date de lancement en Europe (et en Suisse) n’est pas encore connue. Ce retard s’explique notamment par les exigences strictes de la législation en matière de protection des données. OpenAI souligne que les informations saisies dans ChatGPT Health sont stockées et sécurisées de manière spécifique, et précise que cette fonctionnalité n’est pas destinée à poser des diagnostics ni à proposer des traitements.
Pour en savoir plus


  • cybersanté & IA
  • intelligence artificielle
  • tendances
Partager l'article

Loading

Commentaire

Plus d'informations sur ce sujet

image

«Se fier aveuglément à l'IA peut avoir des conséquences désastreuses»

Les caméras assistées par IA de l’Hôpital universitaire de Zurich alimentent le débat sur la protection des données et la sécurité des patients. L’expert en cybersécurité Marc Ruef en explique les opportunités et les risques. Interview, 2ème partie.

image

Entre standardisation et risque de concentration: à quel point le «boom Epic» est-il sûr?

Epic promet standardisation, efficacité et normes de sécurité élevées. Mais plus un système d'information hospitalier est centralisé et puissant, plus il est attractif pour les hackers, explique Marc Ruef en interview. Première partie.

image

Viktor Awards 2025: les nominations sont ouvertes!

Célébrez les performances d’exception qui ont marqué le système de santé suisse en 2025: nominez vos favoris personnels jusqu’au 14 janvier.

image

Floria, infirmière, pourrait faire remporter un Oscar à la Suisse

Le film «En première ligne» s'est hissé dans le top 15 des nominations aux Oscars. Largement salué par la critique, il a également provoqué des réactions contrastées parmi les professionnels des soins.

image

Cliniques de dermatologie: les raisons du succès

Le nombre de cliniques de dermatologie augmente rapidement en Suisse. Derrière l’expansion de groupes comme Matignon, Skinmed, Delc ou Dermis se cache un marché en plein essor.

image

À Berne, des parlementaires demandent une enquête sur Epic

Face au manque de transparence du Conseil d’État sur les coûts et les risques liés à l’introduction du système Epic, plusieurs partis exigent désormais l’ouverture d’une enquête parlementaire.