Qualitätsauswertung von KI-Verfahren

Qualitätsauswertung von KI-Systemen

Die Evaluation von KI-Verfahren ist ein entscheidender Aspekt bei der Entwicklung und dem Einsatz künstlicher Intelligenz. Sie umfasst die systematische Bewertung, wie gut ein KI-Modell seine vorgesehenen Aufgaben erfüllt, und berücksichtigt dabei Aspekte wie Genauigkeit, Robustheit, Fairness (bzw. mögliche Verzerrungen) und Kalibrierung. Um aussagekräftige Ergebnisse zu erzielen, muss der Evaluationsprozess auf geeigneten Datensätzen und relevanten Metriken basieren.

Das Fraunhofer Heinrich-Hertz-Institut (HHI) hat gemeinsam mit dem TÜV-Verband und dem Bundesamt für Sicherheit in der Informationstechnik (BSI) zwei gemeinsame Whitepaper veröffentlicht. Das erste Whitepaper, veröffentlicht im Jahr 2021 unter dem Titel „Towards Auditable AI Systems: Current Status and Future Directions“ [1], skizziert eine Roadmap zur Prüfung von KI-Modellen über ihren gesamten Lebenszyklus hinweg. Das zweite Whitepaper, veröffentlicht im Jahr 2022 unter dem Titel „Towards Auditable AI Systems: From Principles to Practice“ [2], führt die neu entwickelte „Certification Readiness Matrix“ (CRM) ein und präsentiert deren erste Konzeptfassung.

Im Rahmen eines Projekts mit dem BSI (P540 „Einsatz von Künstlicher Intelligenz in medizinischen Diagnose- und Prognosesystemen“) wurde eine prototypische Entwicklung von Testkriterien und Prüfverfahren durchgeführt, um die Zuverlässigkeit und Sicherheit von KI-Systemen in der Medizin zu gewährleisten. Diese Arbeit wurde vom BSI veröffentlicht [3].

Darüber hinaus umfasst unsere Arbeit die systematische Bewertung grundlegender Modelleigenschaften, mit einem besonderen (aber nicht ausschließlichen) Fokus auf Robustheit und Unsicherheit. Diese Eigenschaften werden in verschiedenen Anwendungsdomänen untersucht – beispielsweise Robustheit in EKG- und histopathologischen Analysen [4,5] sowie Unsicherheitsquantifizierung in der Auswertung von Röntgenbildern des Thorax [6].

Eine detaillierte Übersicht unserer Arbeiten finden Sie in den unten aufgeführten Referenzen. Wenn Sie Fragen haben oder mehr über Kooperationsmöglichkeiten – etwa Forschungsprojekte oder studentische Abschlussarbeiten – erfahren möchten, kontaktieren Sie uns gerne.

 

 

Publikationen

[1] Berghoff, C., Biggio, B., Brummel, E., Danos, V., Doms, T., Ehrich, H., ... & Wiegand, T. (2021). Towards Auditable AI Systems–Current status and future directions.  

[2] Berghoff, C., Böddinghaus, J., Danos, V., Davelaar, G., Doms, T., Ehrich, H., ... & Wiegand, T. (2022). Towards Auditable AI Systems: From Principles to Practice. 

[3] BSI (2024). Einsatz von Künstlicher Intelligenz in medizinischen Diagnose- und Prognosesystemen. 

[4] Strodthoff, N., Wagner, P., Schaeffter, T., & Samek, W. (2020). Deep learning for ECG analysis: Benchmarks and insights from PTB-XL. IEEE Journal of Biomedical and Health Informatics, 25(5), 1519-1528.   

[5] Springenberg, M., Frommholz, A., Wenzel, M., Weicken, E., Ma, J., & Strodthoff, N. (2023). From modern CNNs to vision transformers: Assessing the performance, robustness, and classification strategies of deep learning models in histopathology. Medical Image Analysis, 87, 102809

[6] Baur, S., Samek, W., Ma, J. (2026). Benchmarking Uncertainty and Its Disentanglement in Multi-label Chest X-Ray Classification. In: Sudre, C.H., et al. Uncertainty for Safe Utilization of Machine Learning in Medical Imaging. UNSURE 2025. Lecture Notes in Computer Science, vol 16166. Springer, Cham.   

[7] Ma, J., Weicken, E., Pahde, F., Weitz, K., Lapuschkin, S., Samek, W., & Wiegand, T. (2025). Künstliche Intelligenz auf dem Prüfstand: Anforderungen, Qualitätskriterien und Prüfwerkzeuge für medizinische Anwendungen. Bundesgesundheitsblatt-Gesundheitsforschung-Gesundheitsschutz, 1-9.