Künstliche Intelligenz wird bekanntlich immer häufiger in der Medizin eingesetzt – was zur entscheidenden Frage führt: Wie gut funktioniert sie im Zusammenspiel mit menschlicher Expertise? Eine Studie des
Max-Planck-Instituts für Bildungsforschung hat sich nun mit dieser Frage beschäftigt.
Verglichen wurde die Treffsicherheit von Einzelpersonen, menschlichen Gruppen, KI-Systemen, KI-Kollektiven – und hybriden Mensch-KI-Kollektiven.
Dabei zeigte sich: Die Kombination aus menschlicher Fachkompetenz und KI-Modellen führt zu signifikant besseren medizinischen Diagnosen als wenn der Mensch alleine Urteilt – oder wenn die Maschine allein die Diagnose stellt.
«Unsere Ergebnisse zeigen, dass die Zusammenarbeit zwischen Menschen und KI-Modellen ein grosses Potenzial zur Verbesserung der Patientensicherheit hat.» — Nikolas Zöller, Max-Planck-Institut für Bildungsforschung.
Der Grund: Mensch und Maschine machen systematisch unterschiedliche Fehler – ihre Kombination kann diese gegenseitig ausgleichen.
Bereits das Hinzufügen eines einzelnen KI-Modells zu einer Gruppe von Ärztinnen und Ärzten verbesserte die diagnostische Genauigkeit spürbar.
Realitätsnahe Fälle, systematische Bewertung
Die Studie nutzte mehr als 2'100 reale Fallvignetten aus dem
Human Diagnosis Project – ein globales, kollaboratives Projekt zur medizinischen Weiterbildung. Insgesamt analysierten die Forschenden mehr als 40'000 Diagnosen, wovon jede nach dem internationalen Standard
Snomed CT klassifiziert und auf Genauigkeit geprüft wurde.
Besonders wichtig: Die Diagnosen betrafen komplexe, offene medizinische Fragestellungen – nicht nur einfache Ja-Nein-Entscheidungen.
Auch wenn die Ergebnisse vielversprechend sind, mahnt Co-Autor Stefan Herzog zur Vorsicht: «Es geht nicht darum, den Menschen durch Maschinen zu ersetzen. Vielmehr sollten wir Künstliche Intelligenz als ergänzendes Werkzeug begreifen, das in der kollektiven Entscheidungsfindung sein volles Potenzial entfaltet.»
Denn: Untersucht wurden ausschliesslich textbasierte Fallbeschreibungen, keine realen Patienten. Auch behandlungsbezogene Aspekte wurden nicht berücksichtigt.
Weitere Studien seien nötig, um die Praxistauglichkeit hybrider Systeme zu belegen – etwa in Bezug auf Akzeptanz, Ethik und Bias.
Chancen für unterversorgte Regionen
Die Studie ist Teil des EU-Projekts
HACID (Hybrid Human Artificial Collective Intelligence in Open-Ended Decision Making). Ziel ist es, Entscheidungsunterstützungssysteme für kritische Bereiche wie Gesundheit, Klimapolitik oder Recht zu entwickeln. Besonders in Regionen mit eingeschränktem Zugang zur Gesundheitsversorgung könnten Mensch-KI-Kollektive zur Verbesserung der Versorgungsgerechtigkeit beitragen.