Erklärbare KI (XAI) wird immer wichtiger, da KI-Systeme zunehmend bedeutende Entscheidungen treffen – von Kreditzusagen bis zu medizinischen Diagnosen. Wenn KI das Leben von Menschen beeinflusst, müssen wir verstehen, warum sie eine bestimmte Entscheidung getroffen hat.
Warum Erklärbarkeit wichtig ist
Vertrauen. Menschen vertrauen keinen Black Boxes. Wenn ein Arzt KI nutzt, um eine Behandlung vorzuschlagen, müssen der Patient (und der Arzt) verstehen, warum die KI diese Empfehlung gegeben hat.
Regulierung. Das EU AI-Gesetz und andere Vorschriften verlangen Erklärungen für hochriskante KI-Entscheidungen. Die DSGVO gewährt bereits Einzelpersonen das Recht auf eine Erklärung automatisierter Entscheidungen, die sie betreffen.
Fehlerbehebung. Wenn ein KI-System Fehler macht, hilft die Erklärbarkeit Entwicklern zu verstehen, was schiefgelaufen ist und wie man es beheben kann.
Fairness. Erklärbarkeit zeigt, ob KI-Systeme Entscheidungen auf der Grundlage unangemessener Faktoren wie Rasse, Geschlecht oder Alter treffen.
Verantwortlichkeit. Wenn KI-Entscheidungen Schaden verursachen, hilft die Erklärbarkeit dabei, Verantwortung und Haftung zu bestimmen.
Arten der Erklärbarkeit
Globale Erklärungen. Verstehen, wie das Modell insgesamt funktioniert – welche Merkmale am wichtigsten sind, welche Muster es gelernt hat und wie es im Allgemeinen Entscheidungen trifft.
Lokale Erklärungen. Verstehen, warum das Modell eine spezifische Entscheidung für einen bestimmten Input getroffen hat – warum wurde dieser Kreditantrag abgelehnt? Warum wurde diese E-Mail als Spam eingestuft?
Ante-hoc Erklärbarkeit. Verwendung von von Natur aus interpretierbaren Modellen (Entscheidungsbäume, lineare Regression, regelbasierte Systeme), die per Design erklärbar sind.
Post-hoc Erklärbarkeit. Anwendung von Erklärungstechniken auf komplexe Modelle (neuronale Netze, Ensemble-Methoden), nachdem sie trainiert wurden.
Wichtige Techniken
SHAP (SHapley Additive exPlanations). Basierend auf Spieltheorie weist SHAP jedem Merkmal einen Wichtigkeitswert für eine spezifische Vorhersage zu. Es zeigt, wie viel jedes Merkmal zur Abweichung der Vorhersage über oder unter dem Durchschnitt beigetragen hat.
Anwendungsfall: Verstehen, welche Faktoren die Entscheidung zur Kreditvergabe am meisten beeinflusst haben.
LIME (Local Interpretable Model-agnostic Explanations). Erstellt ein einfaches, interpretierbares Modell, das das Verhalten des komplexen Modells für einen bestimmten Input approximiert. LIME verändert den Input und beobachtet, wie sich die Vorhersagen ändern.
Anwendungsfall: Erklären, warum ein Bildklassifizierer ein bestimmtes Objekt identifiziert hat.
Aufmerksamkeitsvisualisierung. Bei Transformermodellen zeigt die Visualisierung der Aufmerksamkeitsgewichte, welche Teile des Inputs das Modell bei der Vorhersage besonders beachtet hat.
Anwendungsfall: Verstehen, welche Wörter in einem Dokument die Sentimentklassifizierung beeinflusst haben.
Merkmalsbedeutung. Merkmale nach ihrem Einfluss auf die Modellvorhersagen rangieren. Methoden umfassen Permutationswichtigkeit, den durchschnittlichen Rückgang der Unreinheit und gradientenbasierte Methoden.
Anwendungsfall: Identifizierung der wichtigsten Faktoren in einem prädiktiven Wartungsmodell.
Kontrafaktische Erklärungen. Zeigt, was sich ändern müsste, damit das Modell eine andere Entscheidung trifft. „Ihr Kredit wurde abgelehnt. Wenn Ihr Einkommen $5,000 höher wäre, wäre es genehmigt worden.“
Anwendungsfall: Bereitstellung von umsetzbarem Feedback für Personen, die von KI-Entscheidungen betroffen sind.
Erklärbarkeit für LLMs
Große Sprachmodelle präsentieren einzigartige Herausforderungen in der Erklärbarkeit:
Chain-of-thought-Prompting. Das LLM bitten, sein Denken Schritt für Schritt zu erklären. Dies bietet eine Form der Erklärung, obwohl die angegebene Argumentation möglicherweise nicht den tatsächlichen internen Prozess des Modells widerspiegelt.
Attribution. Identifizierung, welche Teile des Inputs (oder der Trainingsdaten) den Output am meisten beeinflusst haben. Werkzeuge wie Aufmerksamkeitsvisualisierung und Einflussfunktionen helfen, sind aber für große Modelle unzureichend.
Transparenz bei der Abfrage. In RAG-Systemen zeigen, welche abgerufenen Dokumente die Antwort informiert haben. Dies ist eine der praktischsten Formen der Erklärbarkeit von LLMs.
Herausforderungen
Handelskonflikt zwischen Genauigkeit und Erklärbarkeit. Komplexere Modelle sind oft genauer, aber weniger erklärbar. Einfache, interpretierbare Modelle können an Leistung einbüßen.
Treffsicherheit. Post-hoc-Erklärungen spiegeln möglicherweise nicht genau den tatsächlichen Entscheidungsprozess des Modells wider. Die Erklärung ist eine Annäherung, nicht die Wahrheit.
Verständnis der Nutzer. Technische Erklärungen (SHAP-Werte, Aufmerksamkeitskarten) sind für nicht-technische Nutzer möglicherweise nicht aussagekräftig. Erklärungen müssen auf das Publikum zugeschnitten sein.
Meine Meinung
Erklärbare KI ist für Anwendungen mit hohen Einsätzen nicht optional. Wenn Ihr KI-System Entscheidungen trifft, die das Leben, die Finanzen oder die Chancen von Menschen betreffen, müssen Sie in der Lage sein, diese Entscheidungen zu erklären.
Beginnen Sie mit dem einfachsten Ansatz, der funktioniert: Verwenden Sie, wenn möglich, interpretierbare Modelle, fügen Sie SHAP oder LIME für komplexe Modelle hinzu und bieten Sie immer verständliche Erklärungen für betroffene Personen an. Der regulatorische Druck auf die Erklärbarkeit wird nur zunehmen.
🕒 Published: