Titelbild: Erklärbare künstliche Intelligenz und Concept Bottleneck Models

Wenn künstliche Intelligenz ihre Gedanken erklärt – Concept Bottleneck Models und die Zukunft transparenter KI

Kurzüberblick:
In sicherheitskritischen Bereichen wie der medizinischen Diagnostik reicht es nicht aus, dass ein KI-System nur eine richtige Vorhersage trifft. Es muss im Idealfall auch nachvollziehbar machen können, wie es zu diesem Ergebnis gelangt ist. Eine neue MIT-Arbeit zu sogenannten Concept Bottleneck Models zeigt, wie sich interne Repräsentationen neuronaler Netze in sprachlich verständliche Konzepte übersetzen lassen. Dadurch könnten leistungsfähige, aber bislang schwer interpretierbare Bildmodelle transparenter, überprüfbarer und vertrauenswürdiger werden.

Künstliche Intelligenz hat in den vergangenen Jahren enorme Fortschritte gemacht. Moderne Deep-Learning-Modelle erkennen Krankheiten auf medizinischen Bildern, analysieren astronomische Beobachtungsdaten, klassifizieren Tier- und Pflanzenarten, unterstützen Radiologen bei der Befundung und helfen Forschern, in großen Datensätzen subtile Muster zu entdecken. Vor allem im Bereich der Computer Vision haben neuronale Netze Leistungen erreicht, die in bestimmten Benchmark-Aufgaben mit menschlicher Expertise konkurrieren oder diese sogar übertreffen.

Doch diese Leistungsfähigkeit hat eine Kehrseite. Viele der erfolgreichsten Modelle sind für Menschen nur schwer zu verstehen. Sie operieren mit hochdimensionalen Repräsentationen, nichtlinearen Transformationen und sehr großen Mengen gelernter Gewichte. Das Ergebnis ist zwar oft beeindruckend präzise, doch der Weg dorthin bleibt verborgen. Genau dieses Problem steht im Zentrum der Debatte über erklärbare künstliche Intelligenz – also über Systeme, die nicht nur etwas entscheiden, sondern ihren Denkweg auch offenlegen können.

Gerade in Hochrisiko-Anwendungen wird diese Frage zentral. Wenn eine KI ein Hautbild als verdächtig einstuft oder eine Läsion in einer radiologischen Aufnahme markiert, genügt es nicht, nur eine Klassifikation oder Wahrscheinlichkeit auszugeben. Ärzte müssen verstehen können, ob die Entscheidung auf inhaltlich plausiblen Merkmalen beruht oder ob das Modell ungewollte, irrelevante Korrelationen gelernt hat. Vertrauen, Verantwortung, Fehleranalyse und Regulierung hängen deshalb eng mit der Interpretierbarkeit von KI zusammen.

Warum Transparenz in der KI so wichtig ist

In manchen Alltagsanwendungen ist es akzeptabel, wenn ein System seine Entscheidung nicht ausführlich begründet. Musikempfehlungen, automatische Fototags oder Produktempfehlungen funktionieren auch dann, wenn die innere Logik weitgehend verborgen bleibt. In anderen Bereichen ist das jedoch problematisch. Dort geht es nicht nur um Komfort, sondern um Sicherheit, Nachvollziehbarkeit und Verantwortung.

Medizinische Diagnostik

In der Medizin muss ein KI-System idealerweise mehr leisten als nur eine Trefferquote zu maximieren. Ein Modell, das Hautkrebs, diabetische Retinopathie, Lungenveränderungen oder neurologische Auffälligkeiten erkennt, sollte möglichst offenlegen, welche Merkmale für seine Einschätzung ausschlaggebend waren. Nur dann können Fachleute beurteilen, ob das Modell klinisch plausibel arbeitet oder ob es sich von irrelevanten Mustern täuschen lässt.

Diagramm: Medizinische Diagnosekette mit Concept Bottleneck Models

Abbildung 1: Vereinfachtes Diagramm eines neuronalen Netzes als Platzhaltergrafik für den interpretierbaren Diagnosepfad.

Autonome Systeme

Autonome Fahrzeuge, Drohnen oder industrielle Robotiksysteme treffen fortlaufend Entscheidungen in dynamischen Umgebungen. Wenn ein System abrupt bremst, ausweicht oder eine Situation falsch einschätzt, ist eine spätere Rekonstruktion der Entscheidungslogik essenziell. Ohne interpretierbare Zwischenstufen wird Fehleranalyse erheblich erschwert.

Finanz- und Verwaltungssysteme

Auch in Finanz- und Verwaltungskontexten sind nachvollziehbare Entscheidungen wichtig. Wenn ein Modell Kreditwürdigkeit bewertet, Betrugsrisiken einschätzt oder automatisierte Verwaltungsprozesse unterstützt, muss überprüfbar sein, ob es faire und sachlich relevante Merkmale verwendet.

Wissenschaftliche Forschung

Interpretierbare Modelle sind nicht nur für Kontrolle und Regulierung interessant. Sie können auch selbst einen wissenschaftlichen Erkenntnisgewinn liefern. Wenn ein Modell bestimmte Muster als besonders relevant identifiziert, kann das Forschern helfen, neue Hypothesen zu formulieren oder bekannte Zusammenhänge präziser zu strukturieren.

Warum das wichtig ist:
Erklärbare KI ist kein bloßes Zusatzfeature. In vielen Bereichen ist sie eine Voraussetzung für Vertrauen, Qualitätskontrolle, regulatorische Absicherung und langfristige praktische Nutzbarkeit.

Das Black-Box-Problem mathematisch betrachtet

Ein neuronales Netz lässt sich mathematisch als Verkettung linearer Transformationen und nichtlinearer Aktivierungen auffassen. Vereinfacht formuliert entsteht aus einer Eingabe x über mehrere Schichten hinweg eine Ausgabe y.

f(x) = σ(W_n(σ(W_n-1(...σ(W₁x + b₁)...) + b_n-1) + b_n))

Dabei stehen W für Gewichtsmatrizen, b für Bias-Terme und σ für Aktivierungsfunktionen. In der Praxis besitzen moderne Bildmodelle häufig zig Millionen bis hunderte Millionen Parameter. Diese enorme Ausdrucksstärke ist der Grund für ihre starke Leistung, aber auch für ihre geringe Transparenz.

Selbst wenn ein Modell exzellente Vorhersagen liefert, bleibt oft unklar, welche internen Merkmalsrepräsentationen wirklich entscheidend waren. Für Anwender ist dann nur die Eingabe und die Ausgabe sichtbar – nicht die eigentliche semantische Zwischenstruktur. Genau diese Lücke versucht erklärbare KI zu schließen.

Explainable Artificial Intelligence – zwei Grundrichtungen

Im Bereich der Explainable AI lassen sich grob zwei Klassen von Verfahren unterscheiden: nachträgliche Erklärungen und intrinsisch interpretierbare Modelle.

Post-hoc-Erklärungen

Zu den bekannten Verfahren gehören Grad-CAM, LIME oder SHAP. Diese Methoden analysieren ein bereits trainiertes Modell im Nachhinein. Sie versuchen zu rekonstruieren, welche Eingabebereiche, Merkmale oder Faktoren zu einer Entscheidung beigetragen haben. Solche Methoden sind wertvoll, aber sie erklären häufig eher die Reaktion des Modells als seine eigentliche innere Struktur.

Intrinsisch interpretierbare Modelle

Hier wird das Modell so konstruiert, dass seine Entscheidungslogik von vornherein nachvollziehbar bleibt. Genau in diese Kategorie fallen Concept Bottleneck Models. Sie sollen nicht erst nachträglich erklärt werden, sondern ihre Vorhersage über explizite Konzepte aufbauen.

Concept Bottleneck Models – die Grundidee

Ein Concept Bottleneck Model fügt zwischen Eingabe und endgültiger Vorhersage einen expliziten Konzeptschritt ein. Das Modell soll also nicht direkt von einem Bild zu einer Diagnose oder Klassifikation springen, sondern zunächst eine kleine Menge verständlicher Konzepte identifizieren. Erst auf Basis dieser Konzepte entsteht die finale Entscheidung.

z = g(x)
y = h(z)

Dabei ist x die Eingabe, z ein Konzeptvektor und y die finale Vorhersage. Der Vorteil dieses Ansatzes ist unmittelbar einleuchtend: Nutzer sehen nicht nur das Ergebnis, sondern auch die erklärbaren Zwischenmerkmale, auf denen es beruht.

In der Vogelklassifikation könnten das Konzepte wie „gelbe Beine“, „blauer Flügelbereich“ oder „gespaltener Schwanz“ sein. In der Dermatologie wären es etwa „unregelmäßige Pigmentierung“, „asymmetrische Form“ oder „gruppierte dunkle Punkte“.

Diagramm: Concept Bottleneck Pipeline

Abbildung 2: Ein Workflow-Diagramm als anschauliche Analogie zur Idee einer Pipeline aus Eingabe, Konzepten und Vorhersage.

Das Problem traditioneller Concept Bottleneck Models

Klassische CBMs sind stark davon abhängig, welche Konzepte ihnen vorgegeben werden. Genau hier liegt eine der zentralen Schwächen des Ansatzes. Konzepte, die von Experten oder Sprachmodellen im Voraus definiert werden, können nützlich sein – aber sie sind nicht zwangsläufig optimal für die konkrete Aufgabe.

Erstens können solche Konzeptlisten unvollständig sein. Zweitens passen sie möglicherweise nicht exakt zur Struktur des Datensatzes. Drittens ist nicht garantiert, dass das Modell sich ausschließlich an diese Konzepte hält. Es kann zusätzliche, implizite Informationen nutzen, die in den offiziellen Erklärungen gar nicht auftauchen. Dieses Problem bezeichnet die Forschung als Information Leakage.

Ein Modell ist letztlich darauf trainiert, Leistung zu maximieren. Wenn es irgendwo im Datenraum eine verborgene Korrelation findet, wird es diese oft ausnutzen – auch dann, wenn Menschen lieber hätten, dass es nur mit offiziell benannten Konzepten arbeitet.

Der neue MIT-Ansatz: Konzepte aus dem Modell selbst extrahieren

Die neue MIT-Arbeit setzt genau an diesem Punkt an. Statt Konzepte von außen aufzuzwingen, extrahieren die Forscher relevante Konzepte direkt aus den bereits gelernten internen Repräsentationen des Zielmodells. Die Leitidee ist ebenso einfach wie elegant: Wenn ein Modell für eine Aufgabe gut funktioniert, dann hat es vermutlich intern bereits die richtigen Strukturen gelernt. Diese Strukturen müssen nur noch lesbar gemacht werden.

Schritt 1 – Analyse gelernter Features

Das Zielmodell – zum Beispiel ein vortrainiertes Bildklassifikationssystem – enthält in seinen Aktivierungen viele wiederkehrende Muster. Diese Muster codieren bildrelevante Eigenschaften, sind aber für Menschen meist nicht direkt verständlich.

Schritt 2 – Sparse Autoencoder

Zur Extraktion dieser Muster nutzen die Forscher einen Sparse Autoencoder. Autoencoder sind neuronale Netze, die Eingaben komprimieren und anschließend rekonstruieren. Durch eine Sparsity-Bedingung wird die latente Darstellung dazu gezwungen, mit möglichst wenigen gleichzeitig aktiven Dimensionen auszukommen.

L = ||x − x̂||² + λ Σ |h|

Der erste Term beschreibt den Rekonstruktionsfehler, der zweite erzwingt Sparse-Strukturen in der latenten Repräsentation h. Genau dadurch werden wenige dominante Faktoren isoliert, statt dass Informationen diffus über viele Dimensionen verteilt bleiben.

Schritt 3 – Übersetzung in natürliche Sprache

Die extrahierten Repräsentationen sind zunächst immer noch neuronale Muster. Deshalb kommt in einem nächsten Schritt ein multimodales Sprachmodell zum Einsatz. Dieses beschreibt die Merkmale in natürlicher Sprache und macht sie so für Menschen zugänglich.

Auf diese Weise entsteht eine überraschend direkte Brücke zwischen tiefer numerischer Repräsentation und sprachlicher Beschreibung. Aus einer Aktivierungsstruktur kann zum Beispiel ein Begriff wie „clusterartige dunkle Punkte“ oder „bläulicher Flügelbereich“ werden.

Schritt 4 – automatische Annotation

Das Sprachmodell annotiert anschließend auch die Bilder des Datensatzes mit den gewonnenen Konzepten. Für jedes Bild wird erfasst, welche Konzepte vorhanden oder nicht vorhanden sind. Dadurch entsteht ein neuer annotierter Datensatz, mit dem ein Concept-Bottleneck-Modul trainiert werden kann.

Schritt 5 – Restriktion des Zielmodells

Dieses Bottleneck-Modul wird in das ursprüngliche Modell integriert, sodass finale Vorhersagen nur noch über die extrahierten Konzepte laufen dürfen. Die Vorhersage wird damit nicht nur leistungsfähig, sondern auch semantisch strukturierter und besser überprüfbar.

Warum die Begrenzung auf wenige Konzepte sinnvoll ist

Eine zentrale Designentscheidung der MIT-Arbeit besteht darin, pro Vorhersage nur eine kleine Anzahl an Konzepten zuzulassen. In der beschriebenen Arbeit werden maximal fünf Konzepte genutzt. Das mag zunächst restriktiv wirken, ist aber für die Interpretierbarkeit äußerst sinnvoll.

Erklärungen bleiben kompakt und lesbar.
Das Modell wird gezwungen, die wichtigsten Merkmale auszuwählen.
Informationsleckage wird reduziert.
Menschen erhalten prägnante statt überladene Begründungen.

Gerade in Hochrisiko-Anwendungen ist das entscheidend. Ein Arzt braucht keine ausufernde Liste unklarer Hinweise, sondern wenige prüfbare Merkmale, die eine Diagnose plausibel stützen oder infrage stellen.

Leistung und Interpretierbarkeit – ein Spannungsverhältnis

In der Explainable-AI-Forschung gibt es seit Langem einen Zielkonflikt zwischen maximaler Vorhersageleistung und klarer Interpretierbarkeit. Vollständig freie Black-Box-Modelle sind oft ein wenig genauer als stärker eingeschränkte, interpretierbare Varianten. Wer Erklärbarkeit erzwingen will, nimmt oft in Kauf, dass dem Modell ein Teil seiner Freiheit verloren geht.

Genau deshalb sind die Ergebnisse der MIT-Arbeit bemerkenswert. Der neue Ansatz erzielt auf mehreren Aufgaben nicht nur präzisere und semantisch passendere Konzepte, sondern auch eine höhere Genauigkeit als frühere CBM-Methoden. Der grundlegende Zielkonflikt ist damit nicht verschwunden, aber er wird deutlich besser austariert.

Wo der Ansatz besonders relevant ist

Dermatologie

Hautläsionen sind ein hervorragendes Anwendungsfeld, weil es dort etablierte visuelle Kriterien gibt, die Ärzte ohnehin nutzen. Wenn ein Modell ähnliche oder sogar feinere Konzepte identifiziert, entsteht eine starke Verbindung zwischen maschineller Analyse und klinischer Praxis.

Radiologie

Auch in der Radiologie ist die Frage zentral, welche Strukturen ein Modell für relevant hält. Lesbare Konzepte könnten hier dabei helfen, verdächtige Regionen nicht nur zu markieren, sondern ihre diagnostische Einordnung transparent zu machen.

Biologische Klassifikation

In der Ornithologie, Botanik oder Zoologie könnten CBMs sichtbare morphologische Merkmale nutzen, die eng mit fachwissenschaftlichen Kategorien übereinstimmen. Dadurch werden nicht nur Vorhersagen, sondern auch didaktisch interessante Erklärungen möglich.

Wissenschaftliche Entdeckung

Besonders spannend ist der Fall, dass ein Modell nicht nur bekannte Merkmale reproduziert, sondern neue, bislang unterschätzte Strukturen sichtbar macht. Dann wird erklärbare KI vom bloßen Kontrollinstrument zum Werkzeug wissenschaftlicher Exploration.

Verbindung zu symbolischer KI und Wissensgraphen

Ein besonders reizvoller Aspekt dieser Arbeit liegt in ihrer Anschlussfähigkeit an symbolische KI. Wenn Konzepte in natürlicher Sprache formuliert werden, lassen sie sich theoretisch in Wissensgraphen, Ontologien oder regelbasierte Systeme einbetten. Damit entsteht eine Brücke zwischen datengetriebenen neuronalen Modellen und expliziten Wissensrepräsentationen.

Diagramm: Von Konzepten zu Wissensgraphen und hybrider KI

Abbildung 3: Ein Netzwerkdiagramm als visuelle Analogie zur Verbindung von Konzepten, Relationen und symbolischer Wissensrepräsentation.

Solche hybriden Systeme wären nicht nur leistungsfähig, sondern könnten Wissen explizit organisieren, Beziehungen zwischen Konzepten darstellen und möglicherweise sogar regelbasierte Prüfungen auf ihre eigenen Entscheidungen anwenden. Damit würde sich ein lange diskutiertes Spannungsfeld zwischen neuronaler und symbolischer KI in produktiver Weise neu öffnen.

Grenzen und offene Fragen

So vielversprechend der Ansatz auch ist, er löst nicht alle Probleme. Mehrere Fragen bleiben offen:

Wie verlässlich sind die sprachlichen Beschreibungen der Konzepte?
Wie stark hängt die Qualität des Systems vom verwendeten multimodalen Sprachmodell ab?
Kann Information Leakage tatsächlich vollständig unterbunden werden?
Wie gut skaliert der Ansatz auf sehr große Modelle und Datensätze?
Wie stabil bleiben die extrahierten Konzepte über verschiedene Trainingsläufe hinweg?

Gerade die Treue einer Erklärung zum realen Modellverhalten bleibt ein Kernproblem der Explainable-AI-Forschung. Eine Erklärung ist nur dann wertvoll, wenn sie nicht bloß plausibel klingt, sondern das tatsächliche Entscheidungsverhalten des Modells korrekt abbildet.

Warum diese Forschung dennoch ein wichtiger Fortschritt ist

Trotz dieser offenen Fragen markiert die MIT-Arbeit einen wichtigen methodischen Schritt. Sie verschiebt den Fokus von der Frage „Welche Konzepte geben wir dem Modell vor?“ hin zu der Frage „Welche Konzepte hat das Modell selbst bereits gelernt?“ Genau darin liegt ihre besondere Stärke.

Je treuer die erklärenden Konzepte an den internen Repräsentationen des Zielmodells liegen, desto wahrscheinlicher ist es, dass sie wirklich etwas über dessen Entscheidungslogik verraten. Das macht die Methode sowohl wissenschaftlich interessant als auch praktisch attraktiv.

Hinzu kommt, dass der Ansatz eine produktive Verbindung zwischen mehreren aktuellen KI-Entwicklungen herstellt: tiefe neuronale Netze, Sparse-Representation-Lernen, multimodale Sprachmodelle und symbolische Wissensrepräsentation. In dieser Kombination steckt erhebliches Potenzial für die nächste Generation erklärbarer Systeme.

Fazit

Die Zukunft leistungsfähiger KI wird nicht nur an Genauigkeit gemessen werden, sondern auch an Transparenz, Rechenschaftsfähigkeit und Vertrauen. Concept Bottleneck Models sind ein wichtiger Ansatz, um diese Ziele zu erreichen. Die neue MIT-Forschung zeigt, dass sich die Qualität solcher Modelle verbessern lässt, wenn Konzepte nicht nur von außen vorgegeben, sondern aus dem Modell selbst extrahiert werden.

Gerade in sicherheitskritischen Anwendungen wie der medizinischen Bilddiagnostik könnte das einen entscheidenden Unterschied machen: zwischen einer KI, die lediglich ein Ergebnis ausgibt, und einer KI, deren Denkweg Fachleute tatsächlich prüfen können. Damit rückt eine Form künstlicher Intelligenz näher, die nicht nur leistungsfähig, sondern auch verantwortbar ist.

FAQ

Was ist ein Concept Bottleneck Model?

Ein KI-Modell, das vor seiner endgültigen Entscheidung erst eine kleine Menge verständlicher Konzepte identifiziert und diese als explizite Grundlage für die Vorhersage verwendet.

Warum ist das besser als eine reine Black Box?

Weil Nutzer sehen können, auf welche Merkmale sich das Modell stützt. Das verbessert Vertrauen, Fehleranalyse, Kontrolle und Nachvollziehbarkeit.

Was ist neu an der MIT-Methode?

Die Konzepte werden direkt aus den bereits gelernten internen Repräsentationen eines trainierten Modells extrahiert, statt nur von Menschen oder Sprachmodellen vorgegeben zu werden.

Glossar

Black Box: Ein Modell, dessen interne Entscheidungslogik für Menschen kaum nachvollziehbar ist.

Explainable AI: Forschungsfeld, das Methoden zur Erklärung von KI-Entscheidungen entwickelt.

Concept Bottleneck Model: Modell mit expliziter Konzept-Zwischenebene zwischen Eingabe und Vorhersage.

Sparse Autoencoder: Autoencoder mit Sparsity-Bedingung, der kompakte und selektive Repräsentationen lernt.

Information Leakage: Unerwünschte Nutzung versteckter Informationen außerhalb der offiziell ausgewiesenen Konzepte.

Quellen

MIT CSAIL – Forschungsbericht zur neuen Concept-Bottleneck-Methode
ICLR – International Conference on Learning Representations
Antonio De Santis et al. – Forschungsarbeit zu interpretierten Konzeptrepräsentationen
Einordnung aus dem Bereich Explainable AI und Concept Bottleneck Modeling

MacMalschman

Montag, 9. März 2026