Künstliche Intelligenz im Gesundheitswesen: Etablierung eines Benchmarking-Prozesses für KI-Algorithmen

15. April 2019

Die Fokusgruppe „AI for Health“ (FG-AI4H), mit Beteiligung des Fraunhofer Heinrich-Hertz-Instituts HHI, lädt Expertinnen und Experten aus den Feldern Medizin, Künstliche Intelligenz (KI), Datenanalyse und Politik zur Teilnahme an den Benchmarking-Prozessen für Künstliche Intelligenz im Gesundheitswesen ein. Damit KI-Technologien im Gesundheitswesen eingesetzt werden können, müssen weitere Einsichten in ihre Zuverlässigkeit sowie ihre Trainingsprozesse für verschiedene Datensätze erlangt werden. Dazu entwickelt die FG-AI4H einen Benchmarking-Prozess für KI-Algorithmen im Gesundheitswesen, der als internationaler, unabhängiger Standardevaluierungsrahmen eingesetzt werden kann.

Projektgruppen, die in vorherigen Meetings zu diesem Zweck geformt wurden, verständigen sich nun auf einen pragmatischen Ansatz, um den Benchmarking-Prozess für jeden Anwendungsfall zu beginnen. Dazu gehören eine klare Definition des Anwendungsfeldes (z. B. der zu diagnostizierende Gesundheitszustand) und der gewünschten Ergebnisse der KI-Modelle in dieser Anwendung, die Identifikation von adäquaten Quellen für Trainings- und Testdaten sowie die erleichterte Vorbereitung von heterogenen Daten aus mehreren Quellen. Der Benchmarking-Prozess wird mit sicheren, vertraulichen Testdaten durchgeführt. Die Daten werden dabei aus verschiedenen Quellen kommen, um festzustellen, ob der Gebrauch von KI-Modellen in verschiedenen Bevölkerungen, Messgegenständen und Gesundheitswesen vereinheitlicht werden kann. Des Weiteren ist zu empfehlen, die Performance des KI-Modells mit der eines Menschen (z. B. eines Pathologen) oder eines Menschen mit KI-Assistenz zu vergleichen. Dazu sollte derselbe Anwendungsfall benutzt werden. Durch diese Vergleiche können bedeutungsvolle Einsichten in die Arbeit von KI-Algorithmen gewonnen werden.

Sobald dieses Verfahren etabliert ist, können KI-Modelle auf einer Online-Plattform eingereicht werden, um diese mit Hilfe der Testdaten zu evaluieren. Ein, auf diese Weise etablierter, Benchmarking-Prozess soll zuverlässige, robuste und unabhängige Evaluierungssysteme hervorbringen. Zusätzlich werden auch unabhängige Datensets für Modellvalidierungen bereitgestellt, die im Einklang mit Best-Practice-Empfehlungen für die Berichterstattung über multivariable Vorhersagemodelle im Gesundheitswesen eingesetzt werden können.

Die FG-AI4H hat vom 2. bis 5. April 2019 ihr viertes Treffen in Shanghai, China abgehalten. Weitere Treffen dieses Jahr sind in Genf, Schweiz; Sansibar, Tansania und Indien Neu-Delhi, Indien, geplant.

Der Kommentar „WHO and ITU establish benchmarking process for artificial intelligence in health“ ist erschienen in „The Lancet“, einer der ältesten, renommiertesten und bekanntesten medizinischen Fachzeitschriften der Welt.

Den Artikel (DOI: 10.1016/S0140-6736) finden Sie hier .