Maschinelles Lernen für die IT-Sicherheit

Was tun Unternehmen bereits heute, wo zeigt die Forschung hin

Mit dem zurzeit ganz allgemein zunehmenden Einsatz von KI-Methoden wächst auch für die IT-Sicherheit die Hoffnung, dass ML-Verfahren (Maschinelles Lernen) sichere IT-Systeme ermöglichen, die sich lernend auf Bedrohungen einstellen. Doch ML ist kein Allheilmittel, es kann das Erkennen und Bekämpfen von Angriffen auf Systeme mit IT-Komponenten voraussichtlich nur ergänzen. So eignet sich ML beispielsweise dazu, große Datenmengen auszuwerten oder Anomalien zu erkennen. Aber es ist auch zu bedenken, dass ML-Verfahren selbst angreifbar und kompromittierbar sind, es können also sogar zusätzliche Angriffsvektoren durch die Nutzung von ML entstehen. Außerdem ist der Aufwand für das Trainieren der ML-Systeme hoch und ML-Verfahren sind im Allgemeinen sehr spezialisiert.

ML – Lösungsansatz für die IT-Sicherheit?

Mit der Digitalisierung bieten heute beinahe alle technischen Systeme auch Angriffsflächen für Hacker, Spionage und generell für kriminelle Handlungen. Nicht zu vernachlässigen ist, dass technische Systeme immer in einem sozio-technischen Kontextgenutzt werden und die nutzenden Menschen zu potenziellen Angreifern werden können, mit oder ohne Absicht. Die Angriffe erfolgen über die informationstechnischen Systeme, Teilsysteme, Komponenten und Schnittstellen, die heute vielfältig untereinander vernetzt sind. Neben Produktions- und Industrieanlagen sind das Infrastruktureinrichtungen und Bürosysteme ebenso wie Systeme des automatisierten Fahrens oder Fliegens. Und im Internet of Things (IoT) werden inzwischen sogar vernetzte Waschmaschinen, Kameras oder Kaffeeautomaten zu möglichen Angriffspunkten. Die Vielfalt der digitalen Systeme lässt die potenzielle Anzahl der Sicherheitslückenexplodieren. Damit einher gehen die endlosen Möglichkeiten, wie und anhand welcher Indizien Bedrohungen erkannt werden können. Mit den seit Jahren zunehmenden Angriffen auf IT-Systeme wuchs die Erkenntnis, dass es eine abschließende Sicherheit nicht geben kann. Auch ein Security by Design kann die Probleme nicht völlig lösen, wohl allerdings die allgemeine Gefährdungslageerheblich verbessern. Diese Erkenntnis ist ein wesentlicher Ausgangspunkt für den Bedarf am Bedarf an ML für die IT-Sicherheit. Angriffe ändern sich ständig. Beispielsweise modifizieren Angreifer Computervirenautomatisch, sodass Virenscanner sie nicht mehr erkennen. Alle drei Monate werden schätzungsweise rund 18 Millionen neue Beispiele für Schadprogramme gefunden. Ziel muss es sein, Programme zu entwickeln, um Angriffe auszumachen, die gerade erst vorbereitet werden, also bevor sie überhaupt Schadenanrichten können. Hinter welchen Daten könnte sich ein Angriff verbergen? Allerdings entsteht aus einzelnen Daten im Allgemeinen kein vollständiges Bild. Es besteht die Hoffnung, dass mit ML entsprechende Muster zu identifizieren sind. Für die riesigen Mengen an Kommunikationsdaten werden außerdem Programme benötigt, die Angriffe und Risiken über Systemgrenzen hinweg erkennen können. Generell gilt, dass der Aufwand hoch ist.

Es ist spannend, dass die Forschung und Entwicklung für ML-Sicherheitsprodukteweitgehend innerhalb von Unternehmen stattzufinden scheint. Dies erschwert die strategische Entwicklung des Themas, da die Ergebnisse der Unternehmensforschung sowie die Daten und Algorithmen nicht öffentlich zur Verfügung stehen. Augenfällig ist, dass im Vergleich zur ML-Forschung im Allgemeinen heute nur wenige Fachkonferenzen existieren, auf denen die Verbindung von ML und IT-Sicherheit diskutiert wird. Eine der wenigen Ausnahmen bildet der ACM Workshop on Artificial Intelligence and Security, der seit 2008 jährlich im Rahmen der ACM Conference on Computer and Communications (CCS) ausgerichtet wird. ML ist ansonsten eher Thema auf sogenannten Hacker-Konferenzen wie der DEF CON. Hinzu kommen Konferenzen zur KI und ML, auf denen vereinzelt IT-Sicherheit adressiert wird. Auch auf Konferenzen zur IT-Sicherheit taucht ML bisher eher am Rande auf. Mit dem zunehmenden Bedarf an IT-Sicherheit scheint sich dies jedoch zu ändern. 2017 wurde das „International Symposium on Cyber Security Cryptography and Machine Learning (CSCML 2017)“ ins Leben gerufen, das die Ben-Gurion University in Israel ausrichtete, mit einer Nachfolge in 2018. Der erste DL and Security Workshop im Jahr 2018hat zusammen mit dem 39th IEEE Symposium on Security and Privacy stattgefunden.

ML gegen Schadprogramme

Beim Schutz von IT-Systemen besteht eine der wesentlichen Herausforderungen darin, neue Schadprogramme möglichst schnell abzuwehren oder sogar vorausschauend zu handeln. Antivirenprogramme kombinieren dafür im Allgemeinen mehrere Verfahren. Eines davon umfasst die Identifizierung und Verwaltung von Schadprogramm-Signaturen. Signaturen sind kurze Byte-Folgen, die aus den Schadprogrammen extrahiert werden9. Die Signatur-Datenbanken müssen ununterbrochen aktualisiert werden. „Es kommen mehr als 100.000 Signaturen von Schadsoftwaretäglich hinzu.“ Solche Zahlen sind Schätzungen und sollen teilweise noch deutlichhöher liegen. Basierend auf einer Analyse der AV-Test GmbH schätzt Heise.de, dass „täglich über 390.000 neue Schadprogramme, also über 16.000 pro Stunde beziehungsweise4 bis 5 neue pro Sekunde“ auftreten. Diese enorm hohen Zahlen ergeben sich allerdings vor allem daraus, dass Malwareständig „mutiert“ (polymorphe Malware). Signatur-Datenbanken verwalten aus Effizienzgründen Signaturen in Form sogenannter Hashwerte, oft in hexadezimaler Darstellung, die mit Hilfe von Hashfunktionen berechnet werden. Geringste Änderungen eines Schadprogramms führen zu neuen Hashwerten. So entstehen immer wiederähnliche, aber nicht identische „Schädlinge“, die in den Datenbanken als quasineue Schädlinge trotzdem mit verwaltet werden. An dieser Stelle kommt ML ins Spiel: Auf Signaturen aufbauende Virenprogrammearbeiten oft regelbasiert. „Aufgrund ihrer Komplexität und der Anfälligkeit für eine verschobene Gewichtung sind regelbasierte Anti-Malware-Systeme sehr anfällig dafür, eine Bedrohung zu übersehen.“ Heute versucht man, diese regelbasierten Ansätze mit Methoden des ML zu überlagern, um Regeln zu gewichten und zu optimieren. Strobel erläutert einen Ansatz, den der Anbieter Cylance verfolgt. Danach nutzt Cylance zwar die vorgesehene Windows-Schnittstelle für Virenschutz, aber die Malware wird nicht anhand von Signaturen erkannt. Eingesetzt wird ein mathematisches Modell, das mit Malware-Objekten und gutartigen Dateien beim Herstellertrainiert wurde. Der Umweg über die Signaturerkennung ist nicht mehr notwendig, nur das Modell muss an die Kunden ausgeliefert werden. So verlängern sich die Auslieferungszeiten. Strobel geht davon aus, dass andere Hersteller von Virenschutzprogrammen Methoden der KI einsetzen, um Signaturen beim Herstellerschneller erzeugen zu können. Bei diesem Ansatz muss jedoch weiterhin die Signaturdatenbank an die Kunden geliefert werden. Cohen, Hendler und Potashnik erforschen einen Ansatz, um signaturbasierte Schadcodeerkennung zu ergänzen. Sie nutzen Anti-Virus-Reports eines SIEM-Systems (Security Information and Event Management), um Trainingsdaten zu generieren. Systeme, die damit trainiert werden, können automatisch komplexe und dynamische Muster im Systemverhalten besser erkennen.

ML gegen Sicherheitslücken

Größere Software- und Hardwaresysteme besitzen fast immer Schwachstellen (Vulnerabilities). Sie entstehen z. B. durch Fehler bei der Programmierung14 oder auch durch unbekannte Sicherheitslücken. Bekannt ist etwa die Injektion von Schadcodein Datenbankanfragen, um Daten auszuspähen. „Grobe Schätzungen zeigen, dass ein Programmierer pro 1000 Programmzeilen einen Fehler erzeugt“. Sicherheitslückenerlauben beispielsweise „Zero Day Exploits“, das sind Angriffe, die am gleichen Tag erfolgen, an dem die Schwachstelle entdeckt wird. Seitenkanalangriffe zielen z. B. auf kryptographische Systeme, indem sie durch physikalische Messungen (z. B. elektromagnetische Felder, Energieverbrauch) Zugriff auf sensible Daten bekommen. Zwei der jüngsten und sehr bekannten Seitenkanalangriffe auf Computerchips waren Meltdown und Spectre Anfang 2018. Prozessoren legen aus Performance-gründen vorausschauend Daten im Speicher ab. Mit Meltdown wurde gezeigt, dass bei Intel-Prozessoren auf diese Speicherbereiche zugegriffen werden kann und die Daten auslesbar sind. Von Spectre sind „prinzipiell alle modernen Prozessoren betroffen“. Hier bekommen Prozesse Zugriff auf einen virtuellen Speicher in einem Adressraum, der nicht zugänglich sein sollte. Um Sicherheitslücken zu finden oder auch auszunutzen, müssen Systeme, Programmiersprachen und Hardware bis ins Detail verstanden werden. Im Fall von Spectreund Meltdown haben Forscherteams eine entsprechende Lücke vorhergesagt – und lange geforscht, um sie zu belegen. Sicherheitslücken sind vielfältig. Solche Lückensind besonders schwierig und vielleicht gar nicht durch ML-Ansätze zu finden, die ganz wesentlich auf der Mustererkennung und Generalisierung beruhen, wofür Trainingsdatenexistieren müssen. Trotzdem bestehen ML-Ansätze für das Aufdecken von Sicherheitslücken, die jedoch wiederum spezialisiert sind. Godefroid, Peleg und Singh erforschen beispielsweise ML-Ansätze für Input-Fuzzing. Fuzzing bezeichnet das Finden von Sicherheitslücken in Parsern, die Programm-Input überprüfen. Grammatik-basierte Parser-Ansätze werden dort als besonders effektiv eingestuft, um mit komplexem Inputumzugehen, wie er beispielsweise für Web-Browser besteht. Diese erhalten als Inputu. a. HTML-Dokumente und JavaScript-Code. Die Parser-Grammatiken werden heute noch von Menschen definiert. Der Forschungsansatz untersucht das automatische Generieren der Grammatiken auf Basis von ML-Techniken. Ein ganz anderer Ansatz wird von Benadjila, Prouff, Strullu, Cagli und Dumas verfolgt. Sie untersuchen Technologien des tiefen Lernen (Deep Learning, DL) zur Seitenkanalanalyse und setzen auf Ansätze, die zeigen, dass DL-Algorithmen effizient sind, um das Verhalten eingebetteter Systeme und deren Abhängigkeiten untereinander zu evaluieren. Kritisiert wird, dass bei den bestehenden Verfahren die Parametrisierung der neuronalen Netze nicht veröffentlicht wird und entsprechend Ergebnisse nicht reproduziert werden können. Als Ergebnis führen sie eine offene Plattform ein, ASCAD, die alle Quellen der Implementierung offenlegt. Chen, Sultana und Sahita stellen einen DL-Ansatz vor, um Kontrollflüsse während der Hardwareprogrammausführung bezüglich Schadcode zu klassifizieren.

ML zur sichereren Kommunikation vernetzter IT-Systeme in Unternehmen

Eine weitere Herausforderung bei der Absicherung vernetzter IT-Systeme in Unternehmen besteht darin, dass eine enorm große Menge an Daten beim Monitoring der Netzwerke entsteht. Industrieunternehmen arbeiten häufig mit sehr heterogenen Teilsystemen und Komponenten, womit eine Vielfalt an Schnittstellen und Netzwerkprotokollen einhergeht. Es handelt sich um Systemlandschaften aus EDV, SCADA Systemen (Supervisory Control and Data Acquisition), eingebetteten Systemen und Produktionsmaschinen sowie Bussystemen, Internettechnologien, Firewalls und Netzwerktechnologie, um nur einen kleinen Ausschnitt zu nennen. Mit der Automatisierung von Prozessen aller Art steigt der Vernetzungsgrad ständig an. Der Schutz durch Firewalls und Antiviren-Programme reicht heute nicht mehr aus, und es wurden deshalb zusätzliche Alarmtechnologien entwickelt, darunter Intrusion Detection Systems (IDS) oder Honeypots. Die Erkennung von Einbrüchen (Intrusion Detection) in solche vernetzten Systemlandschaften basiert im Wesentlichen auf der Analyse der Netzwerkkommunikation, um Angriffsmuster zu identifizieren. Dafür zeichnen Sensoren möglichst umfassend Datenpakete auf (Logging). Das anfallende Datenvolumen stellt allerdings eine Herausforderung für die Auswertung dar, einerseits hinsichtlich der Schnelligkeit, anderseits hinsichtlich der potenziellen Zusammenhänge zwischen den an den verschiedenen Sensoren erfassten Daten. Die in den Logdaten identifizierten potenziellen Angriffe erzeugen eine sehr hohe Anzahl an Angriffsalarmen. Dies ergibt sich einerseits daraus, dass diverse Alarme ausgelöst werden, obwohl es sich gar nicht um einen Angriff handelt (false positive), andererseits aber auch aus der puren Menge der meist automatisch generierten Angriffe durch Hacker. Ein Sicherheitsanalytiker kann jedoch mit etwa 30 Warnungen pro Tag nur einen Bruchteil dieser Alarme bearbeiten. KI und ML sind also dringend notwendig, um diese Analysen zu unterstützen oder zu automatisieren. Die Nutzung von ML-Verfahren ist jedoch aufwendig, da sie im Regelfall umfangreich parametrisiert oder trainiert werden müssen. Der IT-Sicherheitsanbieter Symantec sammelt dafür Bedrohungs- und Angriffsdaten aus 175 Millionen Endgeräten und 57 Millionen Angriffssensoren. Nach deren Angaben resultieren daraus knapp vier Billionen Beziehungen, die ununterbrochen überwacht werden. Außerdem werden mit Hilfe von ML Modelle erlernt, um Voraussagen über Ereignisse und Verwundbarkeiten in der Zukunft zu treffen.

Haq et al. stellen eine umfangreiche Studie zu Verfahren des ML für IDS vor. Darin untersuchen sie 49 Forschungsbeiträge zu Klassifikationsalgorithmen für Intrusion Detection, sowohl zum überwachten als auch zum unüberwachten Lernen. Beim überwachten Lernen werden meistens die Trainingsdaten vorkategorisiert, vereinfacht in „Angriff“ oder „kein Angriff“. Durch Vergleiche werden neue Fälle entsprechend einsortiert und die Sortierung wird fortlaufend überwacht. Methoden zum unüberwachten Lernen lassen sich im Wesentlichen als Clusterverfahren charakterisieren. In Haq et. al. werden dazu eine ganze Reihe von Verfahren genannt, für deren Erläuterung hier auf das Originalpapier verwiesen wird. Beispiele für überwachtes Lernen sind Artificial Neural Network, Bayesian Statistics, Gaussian Process Regression, Lazy learning, Nearest Neighbor algorithm, Support Vector Machine, Hidden Markov Model, Bayesian Networks, Decision Trees (C4.5, ID3, CART, Random Forrest), K-nearest neighbor, Boosting, Ensembles classifiers, Linear Classifiers und Quadratic classifiers. Beispiele für unüberwachtes Lernen sind dort Cluster analysis, Hierarchical clustering, Self-organizing map, Apriori algorithm, Eclat algorithm und Outlier detection. Besonders schwierig ist die Erkennung von Advanced Persistent Threats (APTs). Sie sind meistens auf ein ganz bestimmtes Ziel im Unternehmen ausgerichtet, nutzen unter Umständen unbekannte Sicherheitslücken und verwenden sehr komplexe Angriffsstrategien, die zudem nicht nur auf IT beruhen. Die Angriffe sind beharrlich und verlaufen über Wochen, Monate oder Jahre. Durch den speziellen Zuschnitt sind sie kaum anhand allgemeiner Muster zu erkennen. Für die Identifizierung sind oft detaillierte Analysen notwendig. Arnaldo, Cuesta-Infante, Arun, Lam, Bassias und Veeramachaneni stellen in ihrem Forschungsbeitrag einen Rahmen vor, um Repräsentationen von Logdaten zu lernen, mit dem Ziel, APTs zu erkennen, die sich über mehrere Wochen hinziehen. Der Ansatz nutzt eine divide-and-conquer- Strategie (rekursive Problemzerlegung mit anschließender Synthese) und kombiniert diese mit Verhaltensanalysen und Zeitreihenmodellen. Es wird gezeigt, dass auf einer Basis von drei Milliarden Zeilen Logdaten gute Resultate erzielt werden mit 95 von 100 richtig erkannten Beispielen im Vergleich zu Testdaten.

Laurenza et al. verfolgen hinsichtlich APTs einen anderen Ansatz. Sie gehen davon aus, dass vor allem eine Priorisierung in der großen Anzahl von Informationen zu potenziellen Angriffen erfolgen muss. Vorgeschlagen wird ein Vorgehen für die Sichtung der Alarme mit Fokus auf APTs. Betrachtet werden dafür nur statische Schadcode-Eigenschaften, die schnell ausgewertet werden können. Damit wird ein Random Forest classifier trainiert. Das Verfahren scheint eine hohe Präzision zu erreichen. Es nutzt Entscheidungsbäume, die „zufällig“ wachsen, sowie nach der Lernphase Klassifizierungen für Entscheidungen.

ML im Einsatz bei der Kommunikation im Internet

Private Rechner und Unternehmenssysteme inklusive IT-Komponenten von Produktionsanlagen sind heute komplex vernetzt. Hinzu kommt eine stetig steigende Anzahl netzfähiger Geräte, Sensoren und Gegenstände, die das Internet zu einem Internet der Dinge (IoT) erweitern. Alle eingebundenen Elemente kommunizieren miteinander. Über diese Kommunikation können sie kompromittiert bzw. zu einem Verhalten veranlasst werden, das von den Eigentümern nicht zugelassen und erwünscht ist. Botnetze sind ein prominentes Beispiel, und sie erleben geradezu eine Blüte durch die Optionen, die das IoT bietet. Das Risiko und der Aufwand zum „Mieten“ von Botnetzen ist für Angreifer verhältnismäßig gering – bei gleichzeitig lukrativen Zielen. Das BSI geht von 27.000 Bot-Infektionen deutscher Systeme täglich aus. Ein Botnetz umfasst vernetzte Schadprogramme, die Bots, die ohne Einverständnis der Eigentümer auf deren Rechnern installiert wurden. Häufig sind gerade private Rechner betroffen, was insbesondere den Takedown der Botnetze, also deren flächendeckende Abschaltung, sehr aufwendig und kaum organisierbar macht. Nach Schätzungen sind weltweit rund ein Viertel aller Rechner betroffen. Die Infektion durch Bots verläuft auf dem gleichen Weg wie bei anderen Schadprogrammen. Häufig befindet sich der Schadcode in einem E-Mail-Anhang, der durch Anklicken aktiviert wird. Ebenfalls weit verbreitet ist die Infektion durch den Besuch von Webseiten. Durch die Anwahl von Internet-Links oder sogar schon allein durch den Besuch kompromittierter Webseiten kommt es zum Download von Schadcode: Drive-by-Download.

Schadcode kann aber beispielsweise auch in Dokumenten eingebettet sein, etwa in Office-Dokumenten. Häufig verläuft die Infektion zweistufig. Der erste Schritt dient dem Download des Bots oder einer Vorstufe, worüber danach die unerlaubte Kontrolle über den privaten Rechner gewonnen wird. „Die betroffenen Systeme werden vom Botnetz-Betreiber mittels eines Command-and-Control- Servers (C&C-Server) kontrolliert und gesteuert.“ Es ist üblich, dass kriminelle Betreiber Botnetze aufbauen, diese aber nicht sofort und eventuell nicht selbst einsetzen. Sie werden an Dritte vermietet, die sie für konkrete Angriffe verwenden. Die Botnetze sind beispielsweise in der Lage, private Rechner zum Versenden von Spam-Mails zu nutzen, sodass der wirkliche Versender anonym bleibt. Sehr bekannte Angriffe über Botnetze waren sogenannte DDos-Angriffe. DDos steht für Distributed Denial of Service. Diese „…Angriffe richten sich gegen die Verfügbarkeit von Diensten, Webseiten, einzelnen Systemen oder ganzen Netzen.“ Durch den gemeinsamen Angriff einer hohen Anzahl von Bots auf bestimmte Server wird z. B. eine Überlastung der betroffenen Systeme provoziert, um diese lahmzulegen. Durch Botnetze sind bereits sehr bekannte Angriffe erfolgt. Botfrei.de stellt dazu umfangreiche Informationen zur Verfügung: Avalanche, eines der weltweit größten Botnetze, wurde schon im Jahr 2008 entdeckt. Mit ihm wurden Massen-Spams verteilt und Phishing-Attacken umgesetzt. Avalanche unterhielt weitere 20 Botnetze zur Verbreitung von Schadprogrammen. Erst Ende 2016 konnten die Strafverfolgungsbehörden Avalanche abschalten.

2017 erzielte das Mirai-Botnetz höchstes Aufsehen. Es veranlasste Ausfälle und Störungen bekannter Dienste wie Amazon, Netflix, Twitter und Github. Der DDoS-Angriff nutzte vor allem ungeschützte Geräte im IoT, wie Kameras, Heizungssteuerungen und Babyfons. Mit Bekanntwerden von Mirai wurden Ableger unmittelbar für neue Angriffe genutzt. Das Detektieren von Botnetzen ist eine Herausforderung. ML ist eine Möglichkeit, bestehende Detektionsmethoden zu ergänzen. So ist es Wissenschaftlern der Ben-Gurion-Universität zusammen mit den Deutsche Telekom Innovation Laboratories 2016 gelungen, mit einem ML-Verfahren Angriffe von realen Personen von denen durch Botnets auf Honeypots zu unterscheiden. So konnten wertvolle Informationen zum Aufspüren der Netze geliefert werden. Stevanovic und Pedersen stellen einen Überblick über ML-Methoden zum Erkennen von Botnetzen vor, die die Botnetz-Netzwerkkommunikation analysieren. Als bisher ungelöste Probleme werden darin die fehlende Übertragbarkeit bei der Erkennung von Botnetzen bemängelt, die Zeit, die für die Analysen notwendig ist, und die Schwierigkeit, die Methoden verständlich im operationalen Betrieb einzusetzen. Miller und Busby-Earle analysieren detailliert die Rolle von konkreten ML-Verfahren für die Erkennung von Botnetzen.

Cyber Threat Intelligence (CTI) ist ein Abwehrkonzept, das den gesamten Prozess rund um das Auffinden von Bedrohungen umfasst, deren Auswertung und Aufbereitung sowie Weitergabe. CTI untersucht „Details über die Motivation, die Intention und die Fähigkeiten von Angreifern, ihre Taktik, Techniken und Vorgehensweisen“ sowie „technischere Details, wie typische Spuren von Angriffen (IoCs für „Indicators of Compromise“), Listen mit Prüfsummen von Malware-Objekten oder Reputationslisten für Hostnamen / Domains.“ Um Sicherheitslücken schließen zu können, müssen Software- und Hardware-Anbieter, teilweise auch die Nutzerinnen und Nutzer, möglichst flächendeckend über Schwachstellen und Angriffe informiert werden. Werkzeuge zur „Threat Intelligence“ leisten diese Aufgabe. Sie sammeln und aggregieren Daten aus unterschiedlichen Quellen und stellen die Ergebnisse in Form von „Data Feeds“ zur Verfügung. Manche Systeme agieren teilweise automatisiert. Die Data Feeds umfassen z. B. Informationen zu IP-Adressen, die eine Bedrohung darstellen, über Phishing-URLs bis hin zu schadhafter Software. Die Nutzung solcher Dienste ermöglicht es, Lücken proaktiv zu schließen. Auch für CTI wird ein Potenzial beim Einsatz von ML gesehen.

Die Nutzung von ML durch Angreifer

Es sind bisher keine Beispiele bekannt, dass Angreifer Lernmodelle kompromittiert haben, aber es ist zu erwarten, dass sie in Zukunft auch ML nutzen. Es ist deshalb dringend notwendig, entsprechende Kompetenzen auch bei den Entwicklern von Sicherheitssystemen aufzubauen. ML-Verfahren sind angreifbar, indem die trainierten Klassifizierer, die Modelle, die neuronalen Netze, Bäume etc. mit feindlichen Beispielen unterlaufen werden. Wird der Lernprozess gestört, so entscheiden die Algorithmen am Ende u. U. fehlerhaft zugunsten der Angreifer. Durch den Einsatz von ML-Methoden erhöhen sich also letztlich die möglichen Angriffsvektoren. Allerdings wären solche Angriffe hochkomplex – und es ist unklar, wie hoch das Risiko dafür tatsächlich ist. Hayes und Danezis diskutieren das Problem, dass Klassifizierer durch feindliches Einschleusen von Falschbeispielen zu schlechten oder falschen Entscheidungen provoziert werden können. Sie stellen das Szenario eines feindlichen Netzwerkes vor, das täuschenden Output für Klassifizierer erzeugt. Auch Kos, Fischer und Song untersuchen Methoden, wie feindliche Lernbeispiele die Generierung von Modellen beeinflussen. Normalerweise sollten Angreifer keinen Zugang zu den Strukturen und Parametern der ML-Modelle der Sicherheitssysteme besitzen, denn das Zielsystem ist eine Blackbox. Hu und Tan stellen allerdings einen Algorithmus vor, der diese Blackbox-Modelle umgehen kann. Die Erkennungsrate wird deutlich verringert.

ML gegen Angriffe über verschlüsselte Kommunikation

Verschlüsselung dient dem Schutz von Daten, die während einer Netzkommunikation übertragen werden. Sehr bekannt ist beispielsweise das SSL-Protokoll. Es wird sichtbar, wenn im Web-Browser einer URL „https“ vorangestellt ist. Leider können auch Angreifer verschlüsselte Kommunikation ausnutzen. Sie können mit verschlüsselten Daten verhindern, dass Angriffserkennungssysteme Signaturen (s. o.) sinnvoll einsetzen können. Es besteht dann noch die Option, die Angriffe mit Hilfe der Kommunikationsmetadaten zu entlarven. Für solche Anomalieerkennung eignen sich ML oder auch Methoden der KI. Im CISCO Security-Report von Februar 2018 wird festgestellt, dass immer mehr Web-Kommunikation verschlüsselt ist und sich innerhalb von 12 Monaten verdreifacht hat. Er geht von einem Anteil von rund 50 Prozent verschlüsselter Kommunikation aus. Nach Angaben von CISCO nutzen heute bereit 34 Prozent der Unternehmen ML- und 32 Prozent KI-Systeme, die auch Angriffe mit verschlüsselten Anteilen erkennen können. Das wird zunehmend relevant in Cloud- und IoT-Umgebungen.

ML für datenschutzkonforme IT-Sicherheit

Datenschutz und IT-Sicherheit stehen in einem höchst spannungsgeladenen Zusammenhang. Die Diskussionen dazu sind zu umfangreich, um hier angemessen wiedergegeben zu werden. Verkürzt steht die Behauptung im Raum, es wäre sehr viel einfacher, Angriffe zu erkennen, wenn Kommunikation bis ins Detail überprüft und festgehalten würde und keine Verschlüsselung stattfände. Dies widerspricht jedoch unseren demokratischen Grundwerten mit den über Jahrzehnten entwickelten juristischen Rahmenbedingungen und darf deshalb so nicht umgesetzt werden. Eine besondere Herausforderung stellt das für die Erkennung von APTs dar (s. o.). Oft müssen dafür auch Verhaltensweisen von Personen eingeschätzt werden. Das gelingt nur, wenn Daten personenbezogen gespeichert werden. Solche Ansätze werden als User Behavior Analytics (UBA) bezeichnet und nutzen auch ML. Es ist eine Herausforderung, diese datenschutzkonform zu gestalten. Neben den Datenschutzproblemen gibt es für UBA auch schwerwiegende technische Probleme. Wie erkennt man etwa normales Verhalten von Personen? Auf Basis welcher Beispiele wird gelernt und worin bestehen die relevanten Eigenschaften komplexer Situationen? Außerdem fehlt für manche ML-Verfahren die notwendige Menge an Trainingsdaten.

Fazit und Ausblick

Zum Einsatz von ML in der Praxis ist festzuhalten, dass ML bereits von diversen Unternehmen eingesetzt wird, die Werkzeuge zur Verbesserung der IT-Sicherheit anbieten. Anhand der öffentlichen Darstellung ist allerdings nicht immer deutlich, in welchem Umfang und welcher Qualität ML-Verfahren genutzt werden. Das wirtschaftliche Potenzial wurde aber erkannt. Forschung zur ML im Rahmen von IT-Sicherheit existiert aktuell hingegen nur in vergleichsweise geringem Umfang. Die Anzahl von wissenschaftlichen Foren, die die Thematik explizit in den Vordergrund stellen, ist klein. Dass eine so komplexe Thematik durch die Wirtschaft vorangetrieben wird, ist überraschend. Der Hintergrund kann in der schlechten Verfügbarkeit realistischer Daten für die Forschung sowie im starken Wettbewerb zwischen den Unternehmen liegen. Heute sind jedoch noch viele Fragen zum Einsatz von ML-Verfahren im Rahmen von IT-Sicherheit ungelöst. Es ergibt sich die Hypothese, dass eine bessere Kooperation von Forschung und Wirtschaft die Potenziale der ML effektiver ausloten würde. Die Recherchen zu diesem Artikel legen nahe, dass eine Analyse zu den Barrieren, die in Bezug auf diese Kooperation bestehen, nützlich wäre. Wichtige Forschungs- und Entwicklungsfragen, die es zu lösen gilt, sind u. a.: Die Ergebnisqualität der ML-Methoden hängt maßgeblich vom Training und der Qualität der Trainingsdaten ab. Leider sind reale Kommunikationsdaten für Forscherinnen und Forscher meist schlecht oder gar nicht zugänglich. Wie im Artikel geschildert, bilden aber meist erst Millionen von Datensätzen die Grundlage für ein qualitativ hochwertiges Training der ML-Methoden. Unternehmen sind häufig nicht gewillt, ihre Daten zur Verfügung zu stellen. Hier müssen Lösungen gefunden werden. Der Aufwand zum Training der ML-Methoden ist sehr hoch. Es werden jeweils umfangreiche Trainingsdaten benötigt, die mit hohem Auffand aufbereitet werden müssen. Das Verhältnis von Aufwand und Nutzen beim Einsatz von ML muss klarer werden bzw. durch Kooperation verringert werden. Die Einsatzfelder konkreter ML-Verfahren sind im Allgemeinen sehr spezialisiert. Ob es möglich ist, der Hoffnung auf umfangreich selbstlernende Systeme nachzukommen, kann in naher Zukunft vermutlich noch nicht beantwortet werden. Es stellen sich Fragen nach der Fokussierung versus Generalisierung sowie der Wiederverwendbarkeit. Der Einsatz vom ML erhöht die Anzahl der Angriffsvektoren. In vielen ML-Verfahren kann außerdem nicht expliziert werden, „was“ gelernt wurde. Ein nicht unerheblicher Teil der Forschung beschäftigt sich deshalb genau mit der Frage, wie ML-Modelle kompromittiert werden können, aber noch nicht mit dem Schutz der Modelle. ML wird auch für das Erlernen von Verhaltensmustern von potenziellen Angreifern genutzt. Die Einhaltung des Datenschutzes ist dabei eine wichtige und schwierige Herausforderung. ML-Verfahren haben bei ihren Entscheidungen im Einsatz im Allgemeinen Grauzonen. Wie gut die Ergebnisqualität der Methoden ist oder werden kann, ist in vielen Fällen Forschungsgegenstand.

Zur einfacheren Lesbarkeit wurden die Fussnoten und Verweise entfernt.

Kathrin Gassner in: Künstliche Intelligenz – Technologien, Anwendung, Gesellschaft; Springer Vieweg; 2019

https://www.springerprofessional.de/maschinelles-lernen-fuer-die-it-sicherheit/16221154

http://creativecommons.org/licenses/by/4.0/deed.de

Newsletter Anmeldung