KI im Medizinalltag: OpenEvidence im Härtetest

KI-Chatbots halten Einzug in den klinischen Alltag. Doch welcher liefert die präzisesten Antworten auf medizinische Fragen? Wir haben OpenEvidence, ChatGPT und Google Gemini einem Test unterzogen – mit überraschendem Ergebnis.

, 9. Januar 2026 um 23:00
image
«Das Experiment zeigt, wie massiv sich die 'normalen' KI-Modelle verbessert haben»: Autoren Barbagallo, Sager.
OpenEvidence ist ein führender KI-gestützter Chatbot für verifizierte Mediziner in den USA und wird oft als «ChatGPT für medizinisches Personal» bezeichnet. Wir haben den Härtetest gemacht und OpenEvidence unter die Lupe genommen. Welcher Chatbot ist für medizinische Fragen am besten geeignet? Und welches System macht am wenigsten Fehler?
In den letzten Jahren hat die Künstliche Intelligenz extreme Fortschritte gemacht. Sowohl Patienten als auch Ärzte greifen immer häufiger auf ChatGPT & Co. zurück, um Informationen zu finden, Diagnosen zu stellen oder Arbeitsprozesse zu beschleunigen.
Diese Technologie verspricht zwar eine enorme Erleichterung und eine potenzielle Qualitätssteigerung, birgt aber auch Risiken: Chatbots können Fehler machen und sich irren, ohne dies zu erkennen. Angesichts dieser Problematik hat sich Open Evidence zum Ziel gesetzt, die Fehlerrate zu minimieren und einen spezialisierten Chatbot eigens für das Gesundheitspersonal zu entwickeln.
Massimo Barbagallo ist Facharzt für Allgemeine Innere Medizin und befindet sich in der Weiterbildung zum Facharzt für Neurologie. Neben seiner klinischen Tätigkeit engagiert er sich in der Schlaganfallforschung. In seiner Freizeit ist er zudem als DJ aktiv.
Roman Sager befindet sich aktuell in der Weiterbildung zum Facharzt. Er ist leidenschaftlicher Tennisspieler und interessiert an Informatik und Technologie.
Die beiden sind Gründer der Ärztedokumentations-Plattform «Berichteguru».
Wir haben OpenEvidence auf die Probe gestellt und mit anderen Chatbots verglichen, um zu sehen, was dahinter steckt und ob es sich lohnt, auf OpenEvidence umzusteigen.
Bevor wir zu den Ergebnissen kommen, kurz zur Theorie. Warum gilt OpenEvidence überhaupt als überlegen?
  • Die Allrounder (ChatGPT, Gemini, Claude etc.) durchsuchen das offene Web. Das Problem: Medizinische Fachliteratur liegt oft hinter Paywalls («The Lancet», NEJM). Die Theorie besagt, dass ChatGPT hier nur das öffentlich verfügbare sieht, also die Abstracts (Zusammenfassungen), aber nicht die ganzen Journals. Zudem sind sie nicht spezifisch darauf trainiert, Studien zu suchen und deren Relevanz zu beurteilen.
  • Der Spezialist OpenEvidence hat hingegen Partnerschaften mit grossen Fachverlagen (Elsevier, Wiley etc.) und damit quasi den «Schlüssel zur Bibliothek». Es kann den Volltext lesen und greift bei seiner Suche auf diese Bibliothek an lizenzierten Journals zurück. Somit ist die Gefahr von erfundenen Quellen oder falschen Links minimiert, da im Hintergrund diese riesige und aktiv gewartete Bibliothek an Journals steht.
Klingt in der Theorie nach einem klaren Vorteil für OpenEvidence. Doch wie sieht es in der Praxis aus, wenn man eine konkrete klinische Frage stellt?
Wer liefert mir die aktuelle Studienlage präziser und vollständiger? Wir haben ChatGPT, Google Gemini und OpenEvidence ausführlich getestet und unter anderem mit der exakt gleichen Frage gefüttert (Stand November 2025).
image
Stell eine medizinische Frage: Startseite von OpenEvidence

Der Prompt im Test

«Liste mir die relevantesten klinischen Studien (RCTs) der letzten 2 Jahre zum Thema "Therapie der HFpEF" mit jeweiligem Link auf.»

Hier sind die Resultate:

🟥 Platz 3: Google. Pflicht erfüllt.

Google lieferte solide Ergebnisse. Wichtige Studien wie FINEARTS-HF (2024) und das STEP-HFpEF Programm wurden gefunden und korrekt verlinkt. Auch der geforderte Zeitrahmen von 2 Jahren wurde eingehalten. Zwar wurden ältere Studien erwähnt, aber als solche gekennzeichnet. Allerdings wurde eine wichtige Studie (SUMMIT) übersehen. Solide, aber nicht vollständig.

🟥 Platz 2: OpenEvidence. Der theoretische Experte.

Hier zeigten sich überraschende Schwächen in der Bedienung.
  • Das Positive: OpenEvidence zitierte relevante Studien korrekt (FINEARTS, SUMMIT, STEP). Es bot sogar proaktiv an, Subgruppenanalysen durchzuführen – ein Hinweis darauf, dass es tiefen Zugriff auf die Daten hat.
  • Das Negative: Es hielt sich nicht an die Vorgabe der letzten 2 Jahre. Es listete auch ältere Studien wie EMPEROR-Preserved und DELIVER (2021/2022) als Haupttreffer auf, ohne zu deklarieren, dass es sich um ältere Studien handelt.
  • Das «Link-Problem»: Zwar verlinkte OpenEvidence korrekt auf die Papers. Doch klickt man als Nutzer ohne teures Journal-Abo darauf, landet man oft vor einer Paywall. Dass die KI das Paper lesen durfte, bringt mir als Nutzer nichts, wenn ich den Text selbst nicht prüfen kann.

🟥 Platz 1: ChatGPT. Der überraschende Sieger.

ChatGPT hat in diesem Test beeindruckt und sich den Sieg geholt.
  • Präzision: Es hielt sich strikt an den Zeitrahmen («letzte 2 Jahre»).
  • Vollständigkeit: Es nannte alle relevanten neuen Studien: FINEARTS-HF (Finerenon), STEP-HFpEF (Semaglutid, mit/ohne Diabetes) und SUMMIT (Tirzepatid). Alle Links funktionierten tadellos.
  • Kontext: Es erkannte korrekt, dass Klassiker wie EMPEROR-Preserved älter sind und ordnete sie entsprechend ein.
  • Bonus: Es lieferte sogar nicht-pharmakologische RCT-Studien (z. B. zu Training bei HFpEF) und funktionierende Links.

Warum der Allrounder gewinnt

Dieses Experiment zeigt, wie massiv sich die «normalen» KI-Modelle in den letzten Monaten verbessert haben hinsichtlich Zitierung und Qualität der Antworten.
Positiv war, dass keiner der drei Chatbots Studien erfand oder falsche Links generierte. Vor einem Jahr hätte es mit Sicherheit noch anders ausgesehen.
  • Prompt-Adhärenz: ChatGPT versteht unsere Anweisungen (z. B. Zeitfilter) oft besser als die spezialisierten Modelle. OpenEvidence wirkte hier starrer.
  • Nutzen vs. Zugriff: Der theoretische Vorteil von OpenEvidence – der Volltext-Zugriff – verpufft, wenn man nur eine Übersicht will. Schlimmer noch: Wenn die KI eine Information aus dem Volltext liefert, man diesen Link aber nicht öffnen kann (weil ich oder meine Institution kein Abo für genau dieses Journal hat), bleibt ein Gefühl der Unvollständigkeit.
  • Halluzinationen sind seltener geworden: Das alte Argument, dass ChatGPT Quellen und Inhalte erfindet, trifft bei den neuesten Modellen (mit aktiver Web-Suche) immer weniger zu. Im Test waren alle Links korrekt.

Für wen ist OpenEvidence geeignet?

Für 95 Prozent der klinischen Fragen und für die Literaturrecherche ist ein moderner Allrounder wie ChatGPT (in der aktuellen Version) derzeit nicht nur «gut genug», sondern in der Bedienung und Präzision oft sogar überlegen. Es liefert funktionierende Links, hält sich an Zeitvorgaben und bietet den breiteren Kontext.

Wann lohnt sich OpenEvidence trotzdem?

Derzeit scheint das System primär für Personen im US-Gesundheitssystem geeignet, da es dort zusätzliche Datenschutzbestimmungen berücksichtigt, die in Europa aktuell keine Relevanz besitzen.
Angesichts der rapiden Entwicklung bleibt abzuwarten, wie sich die Situation in wenigen Monaten präsentieren wird.

ChatGPT: Eigener Bereich zum Thema Gesundheit

OpenAI hat in dieser Woche einen eigenen ChatGPT-Bereich für Gesundheitsthemen lanciert – allerdings erst in den USA. Die Nutzer können dort ihre medizinischen Daten, ihre Patientendossiers oder die Daten aus Fitness-Trackern und ähnlichem einfügen. Diese Daten werden analysiert, um personalisierte Empfehlungen zu geben.
Man kann dem System also Fragen stellen wie: «Mein Ruhepuls steigt seit 3 Wochen – mögliche Gründe?» – und ChatGPT Health sucht auf der Basis der eingegebenen persönlichen Daten nach Erklärungen. Auch will es helfen, Arztbesuche vorbereiten, beispielsweise mit Antworten auf Fragen wie: «Welche Punkte sollte ich mit meiner Kardiologin besprechen?»
Ein Startdatum für Europa (und die Schweiz) ist nicht bekannt. Die Verzögerung wird mit dem Datenschutz-Recht erklärt. OpenAI betont, dass die Eingaben in ChatGPT Health speziell gespeichert und gesichert werden – und obendrein, dass die Funktion nicht für Diagnose oder Behandlung gedacht ist.
Mehr


  • digital & ki
Artikel teilen

Loading

Kommentar

Mehr zum Thema

image

Neues Da-Vinci-System startet in Zürich

Als erste Institution in der Schweiz nutzt die Klinik Hirslanden das Operationssystem «Da Vinci 5». Zunächst kommt es in der Viszeralchirurgie und Urologie zum Einsatz.

image

KI entdeckt in CT-Scans, ob jemand chronisch gestresst ist

Mit einem Deep-Learning-Modell wurde erstmals ein Biomarker für chronischen Stress in der Bildgebung entdeckt: Der «Adrenal Volume Index» deckt sich mit Cortisolspiegel, subjektiv wahrgenommenem Stress – und sogar mit dem Risiko für Herzinsuffizienz.

image

Digitaltherapien auf Rezept: Eine Depressions-App macht den Anfang

Die Schweiz führt ab Sommer 2026 Kostenübernahmen für digitale Therapien ein. Nun wurde eine erste Anwendung für die MiGel-Liste der Grundversicherung bewilligt.

image

Bern: Parlamentarier fordern weitere Untersuchungen zu Epic

Weil der Regierungsrat zu Kosten und Risiken kaum Transparenz zeigt, verlangen mehrere Parteien jetzt eine parlamentarische Untersuchung.

image

Digital statt analog: Bund ebnet Weg für Therapie-Apps auf Rezept

Ab Juli 2026 vergüten die Krankenkassen erstmals digitale Anwendungen. Konkret geht es um Apps zur Verhaltenstherapie bei Depressionen. Doch damit stellen sich viele neue Fragen.

image

Stimme erkennt Unterzuckerung – Handys könnten bald beim Diabetes-Management helfen

Die menschliche Stimme verrät frühe Anzeichen einer Hypoglykämie. Das zeigen Forschende aus Bern – und erklären, wie Smartphones das Diabetesmanagement sicherer und einfacher machen könnten.