Erklärbare KI - Infosec AG

04/2024

Künstliche Intelligenz in öffentlichen Verwaltungen

Einleitung

KI-Systeme sind inzwischen in der Lage, komplexe Aufgaben zu bearbeiten. So komplex, dass die menschlichen Nutzenden manchmal nur verwundert danebenstehen und sich fragen: „Wie hat das System das geschafft?“ Zumindest, wenn alles geklappt hat. Denn nicht immer arbeiten KI-Systeme genau so, wie man es erwartet hat. Vielleicht wurde eine Spam-E-Mail fälschlicherweise als dringlich gekennzeichnet, eine Transaktion wurde als verdächtig gekennzeichnet – aus unbekannten Gründen. Schnell wird die Frage „Wie ist das System vorgegangen?“ wichtig und grundlegender: „Warum hat das System eine bestimmte Entscheidung getroffen?“

Systeme, die in der Lage sind, die Klärung dieser Frage zu unterstützen, fallen – grob gesagt – in die Kategorie der Erklärbaren KI. Erklärbar bedeutet, dass es eben möglich ist, Begründungen für spezifische Entscheidungen oder das generelle Vorgehen eines Systems zu erhalten. Manche Systeme sind leicht erklärbar – zum Beispiel, wenn die Entscheidungen eines Systems immer auf spezifischen Regeln beruhen. Dann kann das System darauf verweisen, welche Regeln es angewendet hat.

Herausforderung KI

Das ist aber nicht immer möglich – gerade neuere Technologien, z. B. neuronale Netze arbeiten nicht mit expliziten Regeln, die dem typischen Nutzenden als Erklärung ausreichen würden. Daher ist die Entwicklung zusätzlicher Technologie – Erklärbarer KI – notwendig. Denn manchmal können Erklärungen oder zumindest Erklärbarkeit die Voraussetzung dafür sein, dass Systeme eingesetzt werden. Ein System erklärbar zu machen, kann Auswirkungen auf die Vorgehensweise, Leistungsfähigkeit und Anwendbarkeit des Systems haben – deswegen ist es wichtig, sich frühzeitig mit diesem Thema zu beschäftigen.

Im folgenden Kapitel wird das Konzept der Erklärbarkeit eingeführt und durch welche Technologien diese hergestellt werden kann.

Fallbeispiele

SchreibFix – Beispiel 1

Ludwig bearbeitet eine E-Mail im Bereich der Finanzaufsicht. Er wollte einen Vorgang an eine Kollegin weiterleiten, die ein ähnliches Problem wie er hat und sich einmal seinen Fall anschauen wollte. Als er SchreibFix anweist, eine entsprechende E-Mail vorzubereiten, ist er verwundert über das Ergebnis: „Ungefähr 2500 Worte wurden aus Datenschutzgründen geschwärzt.“

Irritiert scrollt Ludwig durch die E-Mail: und in der Tat – in fast allen Anhängen wurden Schwärzungen vorgenommen. Viele davon kann er gut verstehen – Adressen, Namen und andere, personenbezogene Daten – aber in einigen Passagen wurden auch seine eigenen Analysen geschwärzt. Er fragt seine Kollegin Ingrid, ob sie wisse, weshalb hier Schwärzungen vorgenommen worden seien. Sie verneint: „Am Ende weiß SchreibFix das aber sicherlich besser als wir beide. Ich würde es einfach so losschicken.“

Ludwig gibt sich damit nicht zufrieden und schaut sich den Text nochmal an. Es wird kein Tooltip für die Schwärzungen angezeigt und auch sonst gibt es keine Informationen – außer der groben Anzahl an geschwärzten Worten. Er ruft bei der Entwickler-Firma von SchreibFix an und fragt nach. Das System, so erfährt er, würde jedes Wort mit einem Datenschutzscore gewichten und dann ab einer gewissen Grenze schwärzen. Allerdings kann man ihm nicht sagen, wie genau dieser Score berechnet würde, weil das „für jede Behörde und teilweise Abteilung individuell trainiert wird.“ Allerdings erhält er Tipps, um die Schwellenwerte für das Schwärzen anzupassen.

Die nächsten zwei Stunden verbringt Ludwig damit, an den Schwellenwerten herumzuspielen. Am Schluss ist er ganz zufrieden mit dem Ergebnis: nur die personenbezogenen Daten sind weg, der Rest ist erhalten geblieben. Er speichert sich diese Einstellung ab und hofft, dass das beim nächsten Mal noch genauso gut funktioniert.

Memoriali – Beispiel 2

Johanna überlegt nicht lange, dann schreibt sie: „…mit diesen Spezifikationen nicht akzeptieren. Bitte verbessern Sie Ihren Antrag und reichen Sie ihn nach Prüfung erneut ein.“ Das ist der Stand der Dinge, zumindest sagt das Memoriali. Sie setzt sich an die Bearbeitung eines anderen Falles und freut sich, dass der Prozess inzwischen so viel schneller über die Bühne geht. Wenige Stunden später klingelt das Telefon: „Entschuldigen Sie mal, aber was ist das denn für eine Rückmeldung? Bitte versuchen Sie es noch mal? Wo sind wir denn hier, beim Antragslotto? Können Sie mir bitte mal sagen, was an meinen Dokumenten nicht stimmt?“

Johanna öffnet etwas panisch Memoriali und sucht den Antrag heraus, den sie zuvor bearbeitet hatte. Da steht es klar: „Memoriali empfiehlt eine Ablehnung des Antrages, da die eingereichten Daten unvollständig sind/keine hinreichende Qualität besitzen.“ Das wird schwer zu vermitteln sein – vielleicht kann sie die Daten ja schnell selbst durchklicken. „Klar, bitte gedulden Sie sich nur einen Augenblick…“ 141 Seiten PDF, darunter sogar Vergleichsangebote verschiedener Baufirmen. Mehrere Sachverständigenberichte, das sieht doch gut aus. „Hören Sie? Mein System ist gerade sehr langsam, aber ich rufe Sie heute noch zurück.“ Die Fehlersuche beginnt.

Ihre Kollegin Nadja kann ihr helfen – sie hatte schon mal ein ähnliches Problem. „Es gibt unter ‚Ergebnis‘, dann ‚Details‘ und dann ‚Detailbericht anzeigen‘ alle Fehlermeldungen und Erklärungen zu dem Fall.“ Johanna ist erleichtert – und in der Tat findet sie schnell das Problem: ein Besitznachweis über das baulich zu verändernde Gebäude fehlte einfach – alle andren Unterlagen waren tadellos. Das hätte das Programm auch direkt sagen können, ärgert sie sich. Einen unangenehmen Anruf später ist das Problem behoben, die Urkunde trifft nach kürzester Zeit ein und Memoriali hat nichts mehr zu beanstanden – was eine Aufregung.

Warum erklären?

In den beiden Fallbeispielen wird deutlich, dass es unter Umständen schwierig ist, zu verstehen, wie ein intelligentes System zu seinem Ergebnis gekommen ist. Das kann erhebliche Auswirkungen darauf haben, ob und auch wie ein intelligentes System zum Einsatz kommt. Fehlende Nachvollziehbarkeit, fehlendes Vertrauen und ähnliche, psychologische Faktoren in der Zusammenarbeit mit intelligenten Systemen können sogar dafür sorgen, dass die Performance niedriger ist als vorher. Erklärungen können jedoch Abhilfe schaffen.

Wie Erklärungen helfen können

Erklärungen können auf viele verschiedene Arten dabei helfen, intelligente Systeme optimal am Arbeitsplatz (und in anderen Bereichen) zu integrieren. Im Folgenden sind einige Ansätze mitsamt Fallbeispielen aufgelistet:

Vertrauensbildung

In dem Moment, in dem wir Teile unserer Arbeit an ein intelligentes System abgeben, machen wir uns von der Qualität dessen Arbeit abhängig. Das bedeutet, dass das Ergebnis unserer eigenen Arbeit davon abhängig ist, wie gut das System arbeitet. Dies ist eine Form von Vulnerabilität, schlechte Systeme könnten unsere Leistung schädigen oder schmälern. In Situationen wie diesen ist es wichtig, dass wir Vertrauen in unser Gegenüber – in diesem Fall das System – haben. Damit ist zum Beispiel das Vertrauen in die Leistungsfähigkeit des Systems gemeint. Kann das System überhaupt die Aufgaben übernehmen, die ich ihm geben will? Weiß das System über alle relevanten Informationen Bescheid und kann diese berücksichtigen? Damit Vertrauen gebildet werden kann, kann es unter Umständen wichtig sein, dass die Arbeitsweise eines Systems klar wird. Nicht immer reicht es aus, zu sehen, dass „das System funktioniert“, also reliabel ist. Besonders in Fällen, bei denen ein Fehler zu ernsthaften Konsequenzen führen kann, ist es notwendig, die genaue Funktionsweise des Systems zu erörtern. Daher können Erklärungen positiv auf das Vertrauen, das einem System entgegengebracht wird, wirken.

Fairness sicherstellen & Regeln einhalten

Nicht immer ist es Ziel eines Systems, alle verfügbaren Daten auch in ein Ergebnis zu integrieren. Nehmen wir zum Beispiel ein System, welches im Bewerbungsverfahren unterstützen soll. Dieses System kann vorhergehende Arbeitsplätze, Universitätsabschlüsse, Zeugnisse oder auch die metrischen Ergebnisse von Arbeitsproben mit in seine Entscheidung einbeziehen. Es gibt allerdings verschiedene Faktoren, die das System nicht in die Entscheidung mit einbeziehen darf – das hat zum Beispiel rechtliche Gründe. Nehmen wir als Beispiel hier die Wahrscheinlichkeit dafür, dass eine Person schwanger ist oder den Grad der Schwerbehinderung, den eine Person besitzt. Ein System, das nicht darlegt, ob und wie es diese Informationen verarbeitet, kann beziehungsweise darf mitunter gar nicht eingesetzt werden. Auch hier kann die Erklärung – zum Beispiel, dass diese Daten nicht für eine Berechnung genutzt werden – unterstützend wirken und Fairness sicherstellen.

Kooperationsfähigkeit verbessern

Auch heutzutage noch sind viele intelligente Systeme auf die Kooperation mit Menschen angewiesen. Das kann zum Beispiel daran liegen, dass die Menschen dafür verantwortlich sind, welche Informationen das System zur Verfügung hat. Oder aber das System gibt ein Ergebnis aus, mit dem der Mensch danach weiterarbeiten muss. In jedem Fall kann die Kooperation zwischen Mensch und KI-System davon profitieren, dass Erklärungen über die Wirkweise des Systems zur Verfügung stehen. Nehmen wir als Beispiel einen Antrag in Memoriali, bei dem das System am Schluss eine große Unsicherheit ausgibt. Das bedeutet, dass das System sagt: „Ich habe eine Vermutung, bin mir aber zu unsicher, um eine klare Empfehlung auszusprechen.“ In diesem Fall wäre es von Vorteil, wenn das System gleichzeitig erklären könnte, auf welche Informationen es zurückgreift. Dann wäre auch die Information enthalten, welche dieser Daten unter Umständen fehlen oder die Sicherheit des Systems in seiner Einschätzung senken. Sachbearbeitende könnten dann gezielt versuchen, diese Informationen zu verbessern.

Eigene Fähigkeiten erwerben & aufrechterhalten

Es kann auch vorkommen, dass das System Aufgaben übernimmt, für die eigentlich der Mensch ausgebildet worden ist. Es könnte das Ziel sein, dass der Mensch auch nach wie vor in der Lage ist, diese Aufgaben selber auszuführen – beispielsweise, weil sie auch einmal zeitkritisch sein könnten. Ein Beispiel wäre die Gestaltung oder der Aufbau von Durchsuchungsbefehlen – sollte das System einmal aus einem unvorhersehbaren Grund nicht verfügbar sein, kann nicht auf eine Reparatur gewartet werden. Erklärungen, die Einblick in die Arbeit des Systems geben, können dafür sorgen, dass es auch in Zukunft den Sachbearbeitenden leichter fällt, die Aufgaben des Systems auch alleine zu bewältigen. Das kann man sich in etwa so vorstellen, wie es auch in menschlicher Zusammenarbeit ist. Wenn Sie eine erfahrene Person haben, die nicht darüber spricht, wie sie arbeitet, werden die Personen, die mit ihr arbeiten, diese Arbeit auch nicht übernehmen können. Gibt diese Person allerdings explizit Erklärungen zu ihrer Arbeitsweise ab und kann vielleicht sogar spezifische Nachfragen beantworten, besteht eher die Möglichkeit, dass es zu einem Fähigkeitserwerb kommt. Erklärungen können also auch dazu dienen, dies in Teams zu gewährleisten, in denen Menschen und intelligente Systeme zusammenarbeiten.

Wissenserwerb

Gerade weil intelligente Systeme teilweise in der Lage sind, Aufgaben zu lösen, die von Menschen nicht so leicht bewerkstelligt werden können, kann es spannend sein, wenn sie ihr Vorgehen erklären können. Stellen wir uns einmal vor, es wäre nur mithilfe eines neuronalen Netzes möglich, das Verkehrsaufkommen an einer bestimmten Straße präzise vorherzusagen. Die Art und Weise, wie dieses System das macht, könnte anderen Kommunen dabei helfen, auch bei sich und unter anderen Gegebenheiten solche Vorhersagen zu treffen. Ein eigenes Netz zu trainieren ist vielleicht wegen knapper oder unvollständiger Daten nicht möglich.

Was ist eigentlich eine Erklärung – und was nicht?

Grundsätzlich stellt jede Erklärung eine Form von Information dar, die zwischen zwei Partnern kommuniziert wird. Ob eine kommunizierte Information eine Erklärung ist oder nicht, hängt dabei davon ab, in welcher Form sie kommuniziert wird und in welchem Zustand diese Information zuvor beim Gegenüber vorhanden war. Wird eine Information z. B. „Der Boden ist nass.“ präsentiert, um eine Schlussfolgerung wie z. B. „Es regnet.“ zu begründen, könnte nach Toulmin von einer Erklärung gesprochen werden. Die Offenlegung einer Prämisse, von Fakten oder Ursachen für Ereignisse oder Schlussfolgerungen sind also z. B. Erklärungen.

Es könnte allerdings auch sein, dass diese Information dem Gegenüber bereits vorliegt und die Frage einer Erklärung sich nicht auf die genutzten Informationen, sondern auf die angewendeten Regeln, die zur Schlussfolgerung führen, beziehen. In diesem Beispiel würde die Offenlegung der nach Toulmin als Schlussregel oder warrant bezeichneten Aussage: „Dadurch, dass bei Regen Wasser auf den Boden fällt, wird dieser nass.“ als Erklärung dienen.

Eine Erklärung hängt also immer davon ab, welcher Teil einer z. B. Argumentationsstruktur vom Gesprächspartner oder dem Nutzenden angefordert wird.

Auch die Art und Weise der Erklärung, die im kommenden Kapitel beispielhaft besprochen werden soll, hat einen Einfluss. Für manche Schlussfolgerungen existieren z. B. so viele zugrunde liegenden Informationen oder Schlussregeln, dass nicht alle für eine Erklärung genannt werden können – oder dies schlichtweg unmöglich zu bewältigen wäre. Wenn jemand z. B. fragt: „Wieso wurde dieser Antrag angenommen?“ müssten sämtliche Daten offengelegt werden. Die Frage könnte hier auch anders gestellt werden, z. B. „Welche Information war entscheidend dafür, dass der Antrag angenommen wurde?“ oder „Was hätte passieren müssen, damit der Antrag abgelehnt worden wäre?“ Damit richtet sich die Forderung einer Erklärung auf ein bestimmtes Set an Informationen oder Schlussregeln.

Unterschiedliche Level von Erklärungen

Im Bereich der Mensch-KI-Interaktion gibt es unterschiedliche Levels, auf denen solche Systeme erklärt werden können und erklärbar sein müssen. Für unterschiedliche Nutzergruppen werden unterschiedliche Levels benötigt:

Auf der globalen Ebene helfen Erklärungen dabei, zu verstehen, wie das System generell arbeitet. Dabei geht es darum, wie die Technologie aufgebaut ist. Im Falle des maschinellen Lernens könnte z. B. der Ansatz eines neuronalen Netzes erklärt werden. Auch die Information, aus wie vielen neuronalen Schichten ein bestimmtes Netz besteht oder mit welchen Daten ein Modell trainiert wurde, sind globale Erklärungen.
Im Beispiel SchreibFix wurde das System über ein neuronales Netz trainiert. Als globale Erklärungen könnte hier also dargestellt werden, wie das Netz aufgebaut ist, wie genau es zu den Daten passt. Im Abschnitt Metadaten von Ergebnissen wurde bereits erklärt, dass Werte wie der F1-Wert oder die Accuracy dazu genutzt werden können, die Eignung eines Modells für bestimmte Daten zu erkennen. Insbesondere der Vergleich der Accuracy für z. B. unterschiedliche Datensätze kann Aufschluss darüber geben, welche Bereiche Modelle besonders gut oder eben nicht hinreichend abdecken können.
Die globale Erklärungsfähigkeit eines Modells spielt insbesondere in der Entwicklung des Modells und vor der Nutzung des Modells eine zentrale Rolle. Globale Bewertungen der Performance können dabei helfen, Verbesserungen an Machine-Learning-Modellen vorzunehmen und so entsprechende Parameter zu konfigurieren. Sie können auch aufzeigen, in welchen Bereichen ein Modell Schwächen hat und somit zeigen, wo Daten fehlen, um ein möglichst umfangreiches Training zu gewährleisten. Wenn z. B. verschiedene Modelle und Ansätze zur Auswahl stehen, sind Methoden der globalen Erklärfähigkeit hilfreich, um eine Entscheidung zu ermöglichen.
Globale Erklärungen sind daran zu erkennen, dass sie keinen Mehrwert haben, um eine spezifische Entscheidung von einer anderen abzugrenzen.

Wie erklären?

In den beiden Fallbeispielen wird deutlich, dass es unter Umständen schwierig ist, zu verstehen, was und wie ein intelligentes System gearbeitet hat. Das kann erhebliche Auswirkungen darauf haben, ob und auch wie gut ein intelligentes System arbeitet, wenn es im Einsatz ist. Fehlende Nachvollziehbarkeit, fehlendes Vertrauen und ähnliche, psychologische Faktoren in der Zusammenarbeit mit intelligenten Systemen können sogar dafür sorgen, dass die Performance niedriger ist als vorher. Erklärungen können jedoch Abhilfe schaffen.

Methoden der Erklärbarkeit

Es gibt verschiedene Methoden, wie Ergebnisse eines intelligenten Systems erklärt werden können. Das hängt unter anderem auch davon ab, welche Form des Outputs das System konkret erzeugt und mit welchen Inputdaten es zuvor gearbeitet hat. Werden zum Beispiel Bilddaten verarbeitet, können andere Erklärungsmethoden sinnvoll sein als bei der Verarbeitung von Textdaten oder gar tabellarischen Daten. Bei Bilddaten könnte man zum Beispiel das Bild selbst verändern, um eine Erklärung auch visuell zu repräsentieren. Bei tabellarischen Daten können bestimmte Teile der Tabelle hervorgehoben werden.

Weiterhin unterscheiden sich verschiedene Ansätze, die im Bereich der Erklärbarkeit genutzt werden, in ihrer Interaktivität. So kann eine Erklärung statisch sein und direkt mit einem bestimmten Ergebnis mitgeliefert werden. Sie kann allerdings auch interaktiv gestaltet sein und auf Eingaben der Nutzenden reagieren. Haben die Nutzenden zum Beispiel die Möglichkeit, optionale Ergebnisse zu betrachten und können selber auswählen, welche dieser Optionen sie sich anschauen wollen, dann ist eine Form von Interaktivität gegeben. Dies kann Vor- und Nachteile mit sich bringen.

Die spannendste Frage im Hinblick auf Erklärbarkeit ist jedoch, ob diese auch gegeben ist, wenn keine expliziten Erklärungen gegeben werden. Das könnte zum Beispiel der Fall sein, wenn verschiedene Ergebnisse in einem System miteinander einfach verglichen werden können und durch diesen Vergleich indirekt eine Erklärung entsteht. Das System als solches ist nach wie vor erklärbar, es ist allerdings erforderlich, dass die Nutzenden im System explorieren, um die Information zu erhalten, die sie als Erklärung benötigen. Dies ist zum Beispiel gegeben, wenn Nutzende verschiedene Hotelpreise miteinander vergleichen wollen. Sie haben dort zum Beispiel einfach die Möglichkeit, den Startzeitpunkt ihrer Reise zu verändern und zu betrachten, wie sich das auf den Gesamtpreis auswirkt. Es gibt keine explizite Erklärung zur Preisberechnung, sie können aber durch Exploration eine für sie ausreichende Erklärung erhalten.

In diesem Kapitel werden exemplarische bekannte Methoden aus dem Bereich der Erklärbarkeit dargestellt.

Darstellung von Trainingsdaten

Auch das objektive Darstellen der Trainingsdaten kann dafür sorgen, dass Nutzende einen Algorithmus besser verstehen. Wenn klar ist, mit welchen Daten ein Netz trainiert worden ist, können z. B. Limitationen abgeleitet werden: Man stelle sich einen Algorithmus vor, welcher das Alter einer Person anhand eines Bildes bestimmen kann, jedoch wurde der Algorithmus ohne Bilder einer bestimmten ethnischen Gruppe trainiert. Eine naheliegende Schlussfolgerung wäre, dass der Algorithmus keine zuverlässigen Ergebnisse für diese Personengruppe liefert.

Darstellung ähnlicher Daten

Insbesondere bei Klassifizierungsaufgaben kann es enorm hilfreich sein, wenn Inputdaten verglichen werden können, die in gewisser Weise ähnlich sind, jedoch zu einer unterschiedlichen Klassifizierung führen. Stellt man die Randfälle im Entscheidungsprozess des KI-Modells dar, so kann man erklären, welche Unterschiede genau für ein anderes Ergebnis ausschlaggebend sind.

Darstellung von Extremfällen

Eine weitere Art der Randfälle für KI-Modelle sind die Extremfälle in Datensätzen. Diese Daten können durch statistische Verteilungen ermittelt und den Nutzenden dargestellt werden. Durch die Darstellung extrem abweichender Daten können Schlussfolgerungen bzgl. der Limitationen des Modells abgeleitet werden: Trainingsdaten, die extrem selten oder in Kombination extrem selten vorkommen deuten auf Schwachstellen des Modells hin.

Attribution

Bei der Analyse der Attribution wird überprüft, welchen Einfluss bestimmte Daten, die Teil des Inputs sind, auf das Ergebnis einer KI-Berechnung haben. Ein gutes Beispiel hierfür ist die Analyse von Bildern als Stimuli. Jedes Bild besteht aus einer bestimmten Anzahl an Pixeln. Jedes Pixel wiederum besitzt einen bestimmten Farbcode. Das bedeutet, dass ein Bild das zum Beispiel 512 × 512 Pixel groß ist, insgesamt rund 260.000 einzelne Pixel mit einer Farbinformation besitzt. Die Frage ist nun: wie groß ist der Einfluss eines einzelnen Pixels oder von einer Gruppe von Pixeln auf das Ergebnis der KI?

Modelldestillation

Die Modelldestillation bezieht sich auf eine Klasse von Erklärungsmethoden, bei denen das in einem trainierten Modell kodierte Wissen in eine Darstellung destilliert wird, die zugänglich für Nutzende ist. Diese Darstellung kann die Form von besser interpretierbaren, maschinellen Lernmethoden annehmen, wie z. B. Entscheidungsbäume. Ein destilliertes Modell lernt im Allgemeinen, die Aktionen oder Eigenschaften eines ‘Black-Box’ Models über dieselben Daten zu imitieren.

Intrinsische Methoden

Im Idealfall möchten wir Modelle haben, die Erklärungen für ihre Entscheidungen als Teil der Modellausgabe liefern, oder dass die Erklärung leicht aus der Modellarchitektur abgeleitet werden kann. Mit anderen Worten: Erklärungen sollten dem Prozess der Entwicklung von Modellarchitekturen und dem Training inhärent sein. Nicht alle Modelle sind darauf ausgelegt, Erklärungen zu generieren. Wenn sie es nicht sind, kann es schwer sein mit Post-Hoc-Methoden nachvollziehbare Erklärungen zu generieren. Ein bei der Entwicklung bereits auf Erklärungen angelegtes Modell kann hier Vorteile bieten. Dies liegt daran, dass ein intrinsisches Modell nicht nur in der Lage ist, genaue Ausgaben pro Eingabe zu lernen, sondern auch Ausgaben, die eine Erklärung für das Verhalten des Netzes auszudrücken.

Counterfactual Explanations

In dieser Sektion geht es um eine bestimmte Form von Erklärung, die sich im Bereich des Machine Learnings, erklärbarer KI – aber letztlich auch in unserem Alltag – großer Beliebtheit erfreut: Counterfactual Explanations. Was ist das genau?

Beispiel Counterfactual Explanations

„Lara arbeitet gerade an einem komplizierten Fall in Memoriali. Sie ist etwas verunsichert, aber froh, dass das Programm unterstützt, denn sie arbeitet zum ersten Mal in diesem Bereich. Dennoch ist sie etwas verwundert, als das Programm ihr vorschlägt, den Antrag abzulehnen. Sie schaut sich alle Dokumente noch mal an, findet sie aber vollständig und passend. Was könnte diese Entscheidung verursacht haben? Sie nutzt eine neue Funktion: ‚Antragsannahme simulieren‘. Dadurch berechnet Memoriali, welche Änderungen in den vorliegenden Daten dafür gesorgt hätten, dass der Antrag angenommen wird. Nach zwei Minuten kann sich Lara den simulierten Antrag anschauen und wird auf die Unterschiede hingewiesen. Insbesondere einen: ‚Datum Antragstellung‘ – ah, gut, daran lässt sich nun nichts mehr ändern. Sie deaktiviert diesen Punkt für die Simulation und gibt den Antrag noch mal neu in das System. Diesmal erscheint das ‚Datum Baubeginn‘. Eine Woche später müsste das Ganze starten, anscheinend, weil die entsprechenden Fristen nicht beachtet worden sind. Damit ist Lara zufrieden – sie lehnt den Antrag nicht ab, sondern akzeptiert ihn mit der Korrektur des Baubeginns.“

Was ist Counterfactual Explanation?

Im obigen Beispiel wurde eine Erklärung auf eine besondere Art und Weise gegeben – es wurde geschaut, welche Ausgangsbasis zu einem anderen, definierten Ergebnis geführt hätte. Diese „Was müsste passieren, damit…“-Form der Erklärung bezeichnet man auch als Counterfactual Explanation. Eine Counterfactual Explanation definiert sich über zwei Punkte: 1) sie stellt einen Ausgangspunkt dar, der möglichst nahe an dem liegt, den man gerade untersuchen will und 2) ist ein konkretes Beispiel, d. h. es liegt ein konkreter Wert für z. B. alle Input-Features vor. Der Begriff counterfactual beschreibt genau diese Tatsache: man betrachtet Werte, die „entgegen der vorgefundenen Fakten“ analysiert werden.

Diese Form der Erklärung beruht oft darauf, dass der nächste Datenpunkt, das nächstliegende Beispiel, das zu einem anderen Ergebnis führt als das zu untersuchende, herangezogen wird. Nehmen wir als Beispiel den oben geschilderten Fall aus Memoriali. Hierbei wird der aktuelle Antrag als Ausgangspunkt betrachtet. Dieser erhielt als Ergebnis eine Ablehnung. Um eine Counterfactual Explanation zu bieten, sucht das System unter allen anderen Anträgen nach einem, der möglichst nahe zu dem vorliegenden ist – es kann diesen tatsächlich gegeben haben, das System kann diesen aber auch simulieren.

Wurde dieser Punkt gefunden, kann er als Erklärung dargestellt werden. Es kann dabei auch vorkommen, dass es nicht nur eine Counterfactual Explanation gibt, sondern mehrere, weil sich z. B. unterschiedliche Parameter abändern lassen, die jeweils zu einem anderen Ergebnis führen. Es kann auch sein, dass sich mehrere Parameter verändern müssen, damit ein anderes Ergebnis herauskommt. Denken Sie einmal daran, wenn jemand Sie im Winter beim Schneetreiben fragen würde, was anders sein müsste, damit Sie ein T-Shirt tragen würden – vermutlich würde „Höhere Temperatur“ als Änderung nicht ausreichen, sondern es müsste auch „Kein Niederschlag“ gegeben sein.

Vor- und Nachteile von Counterfactual Explanations

Die Nutzung dieser spezifischen Art, Erklärungen zu gestalten, bringt Vor- und Nachteile mit sich. Ein großer Vorteil ist, dass Counterfactual Explanations eine natürliche Art der Frage nachahmen – die Frage: „Was wäre wenn?“ und daher relativ leicht zu verstehen ist, wie diese Erklärungen funktionieren. Das sogenannte „Mentale Modell“ davon, wie ein System arbeitet, basiert auf der Fähigkeit, in seiner Vorstellung z. B. verschiedene Manipulationen oder andere Parameter auszuprobieren, um zu simulieren, was ein System tun würde. Counterfactual Explanations sind genau darauf ausgerichtet, diesen Prozess in der Interaktion mit einem System zu ermöglichen und helfen so bei einem einfachen Aufbau eines mentalen Modells des KI-Systems.

Außerdem können Counterfactual Explanations auf den Anwendungsfall angepasst werden. Das bedeutet, dass Erklärungen sehr gut von z. B. Entwickelnden gestaltet werden können, indem sie z. B. auf besonders wichtige Features aufmerksam machen und dort die Möglichkeit zur Exploration geben. Ein Beispiel dafür wäre, dass z. B. in SchreibFix der Betreff einer E-Mail eine besondere Rolle spielt. Die Software könnte explizit vorschlagen, bei Erklärungsbedarf den Titel zu ändern oder optionale Titel anzuzeigen und damit optimal das Nutzendenverhalten unterstützen.

Diese konkreten Handlungsmöglichkeiten im Rahmen von Counterfactual Explanations erlauben auch, bestimmte Hypothesen zu untersuchen. Falls z. B. angenommen wird, dass ein Input-Feature wie die Postleitzahl bei der Bewertung eines Antrages relevant wurde, könnte überprüft werden, ob die Änderung einen Einfluss auf das Ergebnis hat. Dadurch, dass fallabhängige Hypothesen gebildet und überprüft werden können, könnte so ermöglicht werden, dass Nutzende aktiv die Vertrauenswürdigkeit eines Systems überprüfen.

Dennoch eignen sich Counterfactual Explanations nicht immer, da sie auch einige Nachteile mitbringen. Hier seien exemplarisch genannt:

Durch ihre Natur beziehen sich solche Erklärungen nur auf konkrete Beispiele und können damit nicht gut für strukturelle Zusammenhänge genutzt werden. Insofern können nicht alle Hypothesen überprüft werden. Wird z. B. angenommen, dass die Postleitzahl generell einen negativen Einfluss auf Anträge haben kann, müssten sehr viele Fälle verglichen werden. Diese Form der Erklärung wird insbesondere auf Ebene lokaler Erklärung genutzt und nicht als globale Erklärung.
Die Auswahl der Counterfactual Explanation, die konkret angezeigt wird, ist nicht immer einfach. So ergeben manchmal naheliegende Daten, die zu einer anderen Erklärung führen, keinen Sinn, wie im Beispiel zu sehen ist. Bestimmte Daten können oder sollen ggf. nicht verändert werden. Oder Inputs sind voneinander abhängig, z. B. das Alter eines Fensters und ob es unter den Denkmalschutz fällt oder nicht. Dementsprechend müssen gegebene Erklärungen sorgfältig ausgewählt werden, damit sie nicht nur hypothetisch ein Ergebnis liefern, sondern auch als potenzielle Alternative sinnvoll erscheinen.
Wie viele Formen der Erklärung bieten besonders Counterfactual Explanations die Möglichkeit, das System zu manipulieren. Wenn das System klar darstellt, was fehlt, um z. B. bei einem Antrag auf Schwerbehinderung eine gewisse Einstufung zu erhalten, könnte dies dazu führen, dass Anträge explizit so gestaltet werden, um diese Einstufung zu erhalten, ohne dass sich der dahinterliegende Sachverhalt ausreichend ändert. Dieses Thema wird im Bereich KI & Ethik vertiefend diskutiert.

Technologien im XAI Bereich

Der folgende Text stellt eine Technologie aus dem Bereich „Erklärbare KI“ beispielhaft dar. Als Beispiel wird ein KI-System betrachtet, welches das Bild eines Fensters betrachtet und die dazugehörige Epoche klassifizieren kann.

Pixel für Pixel Relevanz feststellen

Das neue KI-System in Memoriali ist in der Lage, Fenster zu klassifizieren – je nachdem, aus welcher Epoche sie kommen. Da es spannend wäre zu verstehen, wie diese Ergebnisse entstehen, wird ein Ansatz namens „Sensitivitätsanalyse“ ausprobiert. Er gehört zu den in Abschn. „8.4 Wie erklären?“ vorgestellten Methoden aus dem Bereich der „Attribution“. Bei diesem Ansatz wird versucht, die Relevanz jedes einzelnen Pixels für das Ergebnis zu berechnen. Es entsteht also für jeden Pixel eines Bildes ein „Relevanz-Wert“, der widerspiegelt, welchen Einfluss dieser Pixel auf die Klassifikation hatte.

Nimmt man nun alle Relevanz-Werte eines Bildes zusammen, kann man daraus eine sogenannte „Heatmap“ machen. Dabei werden einzelne Pixel in Abhängigkeit von ihrer Relevanz eingefärbt: sehr relevante Pixel sind z. B. rot, irrelevante Pixel werden blass dargestellt. Diese Heatmap kann dann über das zu untersuchende Bild gelegt werden. So kann besser verstanden werden, welche der Pixel eines Bildes für die Klassifikation relevant waren. Auch die Strukturen eines Bildes können so überprüft werden – ob z. B. ein bestimmter Bogen im Fenster für die Klassifikation relevant war oder nicht.

Dekomposition neuronaler Netze

Schaut man sich die zugrunde liegende Technologie genauer an, gibt es eine große Herausforderung – denn den Relevanzwert zu berechnen ist nicht einfach. Das liegt daran, „Hidden Layers“ dafür sorgen, dass die Beziehung zwischen einem einzelnen Pixel und dem Ergebnis mathematisch auf verschiedene Varianten bestimmt werden kann. Wie gut diese funktionieren, hängt z. B. davon ab, wie viele Schichten ein neuronales Netz besitzt.

Eine Möglichkeit, dieser Komplexität entgegenzutreten, ist, den Relevanzwert nicht über den direkten Zusammenhang zwischen einem Pixel und dem Ergebnis zu berechnen, sondern die dazwischenliegenden Neuronen in die Berechnung miteinzubeziehen. Tatsächlich ist jede Verbindung zwischen Neuronen bzw. den Input-Features durch eine mathematische Funktion gekennzeichnet. Diese einzelnen Funktionen können im Rahmen eines „divide-and-conquer“-Ansatzes voneinander getrennt analysiert werden. Dies erlaubt eine feinere Betrachtung und eine genauere Einschätzung des Relevanzwertes.

Schichtweise rückwärts durch das Netz

Eine Technologie, bei der dieses Vorgehen gewählt wurde, ist die „Layerwise Relevance Propagation“, deren Ziel eben die Analyse des Relevanzwertes ist. Dazu „bewegt“ sich das System nach einer Prädiktion Schritt für Schritt rückwärts durch die „Hidden Layers“ und betrachtet die entsprechenden Aktivierungen der einzelnen Neuronen. Folgendes Beispiel verdeutlicht den Ansatz.

Stellen Sie sich vor, 8 Personen stehen alle an einer Linie und erhalten jeweils eine zufällige Anzahl an schweren Steinen. Nun bewegen diese sich in 8 Schritten über einen sehr weichen Boden – die Tiefe des Fußabdrucks hängt davon ab, wie viele Steine die Person trägt. Bei jedem Schritt werden zwischen den Personen auch Steine hin und her gegeben. Am Ende dieser Prozedur legen alle die Steine vor sich ab – je nachdem, wie die Steine am Ende verteilt sind, bringt das Glück oder Pech… aber darum soll es hier nicht gehen.

Die Personen repräsentieren, auf welche Art Informationen (Steine) durch das Netz wandern, miteinander interagieren und am Schluss ein Ergebnis liefern. Zudem wird deutlich, dass es Interdependenzen, also gegenseitige Abhängigkeiten, zwischen den Personen gibt. Um nun zu verstehen, wie viel Einfluss eine bestimmte Person hatte, kann man fragen: „Wie viel Steine hattest du am Anfang?“ Das kann zwar ein Indiz dafür sein, wie wichtig diese Person war, aber wie wir wissen, werden zwischendurch auch Steine getauscht. Eventuell ist eine Person mit wenigen Steinen gestartet, hatte wenige Steine am Ende, aber hat zwischenzeitlich viele Steine transportiert. Daher könnten wir die Zeit rückwärts ablaufen lassen und beobachten, wie die Steine von Person zu Person wandern, indem wir schauen, wie tief jeweils die Fußabdrücke waren. Aus diesen Informationen kann die „Relevanz“ einer Person abgeleitet werden.

Erklärungen evaluieren

Was ist eine „gute“ Erklärung?

Jede Erklärung, die ein System gibt – egal ob explizit oder implizit –, sollte das Ziel haben, die Mensch-Maschine Interaktion zu verbessern. Es gibt dabei verschiedene Ziele, wie im Kapitel „Warum erklären?“ bereits dargestellt wurde.

Allerdings ist nicht jede Erklärung hilfreich. Wenn neue KI-Systeme implementiert werden, die eine grundlegende Erklärbarkeit enthalten, müssen diese auch analysiert und betrachtet werden, ob die gegebenen Erklärungen auch tatsächlich positiv zur Interaktion beitragen. Der folgende Beispielfall verdeutlicht, was schiefgehen kann:

Das System „SchreibFix“ bewertet die Professionalität einer E-Mail. Die wird dem Nutzenden in Form von 5 Stufen angezeigt – zwischen „unprofessionell“ und „hochprofessionell“. Das Bestreben der Sachbearbeitenden ist es, möglichst professionelle Texte zu verfassen. Nachdem Alex seine E-Mail geschrieben hat, landet er in Kategorie drei. Als Erklärungen werden ihm Worte in seiner E-Mail angezeigt, die besonders positiv oder negativ zu der Bewertung beitragen. Der Satz „Ich hoffe, dieses Schreiben erreicht Sie bei bester Gesundheit.“ und auch seine Grußformel wurden vom System nicht beachtet. Das irritiert ihn – kann das System dann überhaupt richtig arbeiten? Er ignoriert weitere Markierungen und schickt die E-Mail ab.

In diesem Fall hat die Erklärung des Programms SchreibFix einen negativen Einfluss auf die Interaktion gehabt, weil sie den Nutzer verunsichert hat. Eine Erklärung führt also nicht automatisch zu einer Verbesserung relevanter Faktoren wie der Wahrnehmung von Fairness, Vertrauenswürdigkeit und Leistungsfähigkeit beim Gegenüber. Sie kann auch zu Verunsicherung führen. Daher ist es wichtig, den Einfluss von Erklärungen zu überprüfen.

Was dabei eine „gute“ Erklärung ausmacht, hängt von dem Ziel ab, das man zu erreichen versucht. Eine Erklärung, welche die wahrgenommene Vertrauenswürdigkeit eines Systems verbessert, zeigt zum Beispiel eher an, wie die Daten verarbeitet werden und welches Gewicht bestimmte Features besitzen; während die Fairness mitunter dargestellt werden kann, indem man den Datensatz, der fürs Training genutzt wurde, darstellt. Die Konsequenz: der erste Schritt, wenn man ein erklärbares System entwickelt oder implementieren möchte, ist die Überlegung, wofür die Erklärung gut sein soll. Der zweite Schritt ist die Überprüfung der Effekte.

Methoden zur Evaluation von Erklärungen

Wie wirkt sich eine Erklärung auf die Arbeit, auf die Interaktion zwischen Mensch und Maschine aus? Es gibt unterschiedliche Verfahren, die hier zum Einsatz kommen können. Einige werden im Rahmen dieses Abschnitts vorgestellt – dabei handelt es sich jedoch nicht um eine vollständige Liste.

Objektive Methoden

Die erste Kategorie bilden dabei Methoden, über die objektive Werte erfasst werden. Diese Werte hängen nicht davon ab, wie eine Person die Interaktion erlebt und können daher gut zwischen Personen verglichen werden.

Das (1) erste Beispiel bildet die Messung der Performance. Dabei geht es darum, wie oft ein Mensch-KI-Team zu einem korrekten Ergebnis kommt bzw. wie schnell diese Ergebnisse erreicht werden. Auch die Accuracy oder der F1-Wert können solch eine Performance darstellen. Erklärungen können den Menschen helfen, die Outputs von KI-Systemen besser zu verstehen und dadurch eine höhere Performance ermöglichen.

Im Falle von Memoriali wäre z. B. die Anzahl korrekt durchgeführter Vorgänge ein Maß der Performance. Nehmen wir aber einmal an, die Performance ist nicht so hoch wie gewünscht und es soll herausgefunden werden, woran das liegen kann.

Dann stellt zweitens (2) die Freeze-Probe-Technik aus dem Bereich der „Situation Awareness“ eine gute Möglichkeit dar, um Zwischenschritte besser verstehen zu können. Dabei wird definiert, welches Wissen eine Person zu verschiedenen Zeitpunkten der Interaktion haben sollte, um optimal entscheiden zu können. In einem solchen Prozess wird sie dann unterbrochen und nach den Informationen gefragt. Dieses Vorgehen wird in verschiedenen Artikeln aus dem Bereich der Situation Awareness geschildert, z. B. zu finden bei de Winter et al.

Im Fall von Memoriali könnte so z. B. nach der Sichtung von Plänen die Interaktion gestoppt werden und gefragt werden: „Wie viele Bilder wurden eingereicht?“, „Welches Bild war unvollständig?“ oder „Welchen Bereich des Bildes hat das KI-System als irrelevant markiert?“. Diese Fragen können helfen zu verstehen, ob die Interaktion mit dem System so abläuft wie geplant, oder ob Erklärungen z. B. übersehen werden. Dann können sie auch keinen Einfluss auf die Performance haben.

Ebenso kann drittens (3) auch das Verhalten der Personen beobachtet werden. Falls sich Erklärungen z. B. auf Anfrage anzeigen lassen, könnte man herausfinden, ob das Anzeigen der Erklärung einen Einfluss darauf hat, ob der Vorschlag eines Systems angenommen wird. Im Falle von SchreibFix könnte so überprüft werden, ob Personen nach der Anzeige einer E-Mail als „unzureichend professionell“ die E-Mail nochmal korrigieren oder nicht – ob sie ihr Verhalten also verändern, abhängig vom Ergebnis des Systems. Dies bezeichnet man auch als „reliance“ – verlassen sich Personen in ihrem Verhalten auf die Ergebnisse des Systems oder nicht? Hier ist aber Vorsicht geboten: nicht bei jedem System kann dies gemessen werden, da Personen manchmal ohne ein System bestimmte Aufgaben gar nicht durchführen können.

Weiterhin kann ebenso (4) der Aufwand, oft als Workload bezeichnet, einer Person objektiv gemessen werden. Hierzu gibt es unterschiedliche Methoden – z. B. könnte eine Person, die mithilfe eines KI-Systems das Monitoring in einem Bahnhof übernimmt, parallel eine andere Aufgabe bekommen. Wie gut sie diese Aufgabe erledigt, zeigt an, wie viele mentale Ressourcen durch das Monitoring gebunden worden sind – und wie viele für andere frei sind. Aber auch die Zeit, innerhalb derer auf bestimmte Bildschirmbereiche geschaut wird, kann Aufschluss über den Workload geben.

Subjektive Methoden

Die zweite Kategorie bilden subjektive Methoden. Diese Werte werden dadurch erhoben, dass Personen nach ihrem eigenen Erleben gefragt werden. Das kann zum Beispiel nach der Interaktion mit einem System gemacht werden. Durch die unterschiedlichen Interpretationen von z. B. Begriffen in den Fragen oder eigene Vorstellungen, sollte hierbei auf wissenschaftlich validierte Fragebögen gesetzt und zudem vorsichtig mit einem Vergleich zwischen z. B. zwei Sachbearbeitenden umgegangen werden.

Das im Bereich „Erklärbare KI“ entscheidende (1) Vertrauen bzw. die wahrgenommene Vertrauenswürdigkeit eines Systems, stellen ein gutes Beispiel für eine subjektive Variable dar. Es gibt eine Reihe von Fragebögen, die sich mit diesem Thema beschäftigen und versuchen, Vertrauen zu erheben. Ein Beispiel dafür stellt der Fragebogen von Jian et al. dar, welcher z. B. im Bereich des autonomen Fahrens häufig zum Einsatz kommt. Teilnehmende haben hier in der Regel mit einem KI-System die Möglichkeit, mehrere Fragen zu z. B. den Intentionen oder der Einstellung des Systems zu beantworten. Andere Fragebögen wie z. B. die FOST-Skala können auch eingesetzt werden.

Ein Beispiel für den Einsatz von Vertrauens-Fragebögen könnte z. B. sein, zu testen, wie die Erklärungen von SchreibFix genutzt werden. So könnten Sachbearbeitende das automatische Generieren von E-Mails bewerten, zunächst ohne und danach mit Erklärungen. Falls die Erklärungen beeinflussen, inwieweit diese Generierung als vertrauenswürdig erlebt wird, sollte dies in den Antworten deutlich werden.

Auch hier bildet der (2) Workload eine Möglichkeit. Mit dem NASA-TLX kann der subjektiv erfahrene Workload erfasst werden. Damit kann geklärt werden, wie anstrengend eine Aufgabe „empfunden“ wird. Hier kann ein Vergleich mit objektiven Maßen des Workloads eine spannende Möglichkeit darstellen, um zu verstehen, wie das System angenehmer gestaltet werden kann. So könnte z. B. bei Memoriali überprüft werden, ob das System nach der Einführung dazu führt, dass die eigene Belastung als geringer eingeschätzt wird.

Die (3) Zufriedenheit mit gegebenen Erklärungen stellt ebenfalls ein subjektives Maß dar, mit dem Erklärungen generell evaluiert werden können. Sie integriert sowohl die Nützlichkeit und Gebrauchstauglichkeit einer Erklärung als auch den angenommenen Effekt einer Erklärung auf die eigene Arbeit. Eine detaillierte Skala dazu wurde z. B. von Hoffman et al. vorgeschlagen und kann bei Systemen angewendet werden, mit denen die Nutzenden schon etwas vertrauter sind. Die Zufriedenheit mit Erklärungen kann ein Hinweis darauf sein, weswegen ein System seltener genutzt wird, als es sollte und wie es gegebenenfalls verbessert werden könnte.

Insbesondere, wenn Menschen und KI-Systeme interagieren und kooperativer zusammenarbeiten sollen, ist es wichtig, dass die menschlichen Nutzenden verstehen, wie das System arbeitet. Daher spielt die (4) Nachvollziehbarkeit eines Systems – und wie diese erlebt wird – auch eine wichtige Rolle. Dabei geht es darum, ob die Informationsverarbeitung des Systems als transparent erlebt wird und ob die Art und Weise, wie das System zu Ergebnissen kommt, zugänglich erscheint. Je nachdem, wie die Kooperation zwischen Mensch und Maschine aufgebaut ist, muss eine niedrige Nachvollziehbarkeit nicht zwingend schlecht sein: nicht jeder Prozess muss zwangsweise nachvollzogen werden können. Bei wichtigen Entscheidungen, die z. B. gesetzeskonform oder fair sein müssen, spielt die Nachvollziehbarkeit eine größere Rolle. Die Messung der Nachvollziehbarkeit überschneidet sich teilweise mit der Messung des Vertrauens, es gibt aber auch explizite Skalen wie z. B. SIPA.

Bei allen subjektiven Maßen ist es zudem wichtig, Abweichungen in beide Richtungen zu betrachten: ein System, das zu wenig genutzt wird, weil ihm wenig vertraut wird, erreicht die Produktivität und Effizienz nicht, für die es gemacht wurde. Systeme, die zu viel genutzt werden, weil sogenanntes Übervertrauen vorliegt, sind allerdings ebenso ein Problem, da Fehler ggf. nicht erkannt werden und den KI-Systemen zu viel zugetraut wird.

Aufgaben zum eigenen Anwendungsfall

In diesem Abschnitt wurde dargestellt, welche Schritte notwendig sind, um die Zusammenarbeit zwischen Mensch und KI zu verbessern. Dafür werden Methoden der Erklärbarkeit eingesetzt. In dieser Aufgabe sollen mögliche Vor- und Nachteile von Erklärung abgewogen werden.

Beschreiben Sie, weshalb Ihr System von Erklärungen profitieren kann. Welche Verarbeitungsschritte könnten zu Konflikten führen? Wo könnten Erklärungen die Verlässlichkeit von Ergebnissen verbessern?
Wählen Sie eines der im Kurs vorgestellten Verfahren zur Erklärung von KI-Ergebnissen aus. Begründen Sie Ihre Entscheidung und stellen Sie dar, wie die Erklärung sich auf die Nutzung des KI-Systems auswirken kann. Schildern Sie dazu eine Beispielsituation, in welcher die Erklärung genutzt werden kann.
Entwickeln Sie einen Plan, um zu prüfen, ob die Erklärung wie erwartet wirkt. Begründen Sie, welche Variablen Sie dabei beachten und wie Sie diese messen wollen. Erörtern Sie, welchen Stellenwert objektive und subjektive Messverfahren dabei haben.

8.9 Zusammenfassung

In diesem Kapitel wurden unterschiedliche Formen von Erklärbarkeit in intelligenten Systemen vorgestellt. Erklärbarkeit ist eine wichtige Eigenschaft von KI-Systemen, um Interaktionsfaktoren wie Vertrauen, Nachvollziehbarkeit und Kooperation zu beeinflussen. Allerdings gibt es eine Vielzahl an Erklärmethoden, die im Rahmen dieses Kapitels vorgestellt worden sind – nicht alle sind immer anwendbar, sondern hängen vom Kontext ab und der Frage, die durch eine Erklärung beantwortet werden soll.

Zunächst wurde dabei die Frage beantwortet „Warum Erklären“ überhaupt wichtig sein kann. Dabei wurde deutlich gemacht, dass Erklärungen zum Informationsaustausch zwischen Menschen und KI beitragen können. Sie sind notwendig, wenn Menschen nicht wissen, wie ein Ergebnis zustande gekommen ist, wie sie es beurteilen können oder ob das System notwendige Regeln eingehalten hat.

Danach wurden im Überblick „Wie Erklären“ verschiedene Ansätze für Erklärungen in KI-Systemen vorgestellt. Es wurde gezeigt, dass z. B. die Trainingsdaten zur Erklärung genauso genutzt werden können, wie die konkreten Operationen in der Verarbeitung des Systems. Der letzte Punkt wurde im Kapitel zur „Layerwise-Relevance Propagation“ eingehender besprochen und eine konkrete Technologie vorgestellt, die sich mit dem Hervorheben relevanter Informationen – z. B. Pixel – beschäftigt.

Auch auf theoretischer Ebene wurde durch die Vorstellung von Counterfactual Explanations ein Ansatz zur Generierung leicht verständlicher Erklärungen vorgestellt und anhand der Fallbeispiele diskutiert.

Abschließend wurden in diesem Kapitel auch Methoden vorgestellt, die genutzt werden können, um den Einsatz von erklärbaren KI-Systemen in der Praxis zu beurteilen. Dabei wurden subjektive und objektive Messwerte vorgestellt und Einsatzmöglichkeiten dargelegt. Nutzen Sie die Inhalte des Kapitels, um in den zukünftigen Kapiteln zu überlegen, welche Auswirkung das Hinzufügen von Erklärungen z. B. auf die Nachvollziehbarkeit, die erlebte Vertrauenswürdigkeit oder gar die rechtliche Grundlage eines Systems haben (z. B. wenn es um Gleichbehandlung geht).

Zur einfacheren Lesbarkeit wurden die Literatur- und Quellverweise und die Übungen entfernt.

Schrills, T. (2023). Erklärbare KI. In: Künstliche Intelligenz in öffentlichen Verwaltungen. Edition eGov-Campus. Springer Gabler, Wiesbaden

https://doi.org/10.1007/978-3-658-40101-6_8

http://creativecommons.org/licenses/by/4.0/deed.de

Newsletter Anmeldung