Detecting Anomalies in Log Files

Bachelor-Studiengang IT Security

Philip Schögler, BSc
19.09.2014

Ausgangslage

Die Analyse von Logdateien, die von Applikationen wie z.B. einem Web Server erzeugt werden, ist seit jeher eine wichtige Arbeit, um den korrekten Betrieb von Computer Systemen sicherzustellen. Aufgrund der steigenden Zahl von Angriffen auf Computer Systeme, erhöht sich die Notwendigkeit des Einsatzes von neuartigeren Überwachungs- und Analysetechniken. Abhängig von der Größe und Komplexität dieser Logdateien, bedeuten klassische Überwachungsansätze sehr viel Arbeit und sind oft auch nicht in der Lage neue Ereignisse oder Anomalien zu entdecken. Maschinelles Lernen, speziell die Anomalieerkennung ist ein aktueller Ansatz um diesem Problem zu begegnen.

Anomalieerkennung wird schon seit den frühen 2000er Jahren eingesetzt, jedoch meistens für sehr spezielle Anwendungen wie z.B. Kreditkartenbetrugserkennung oder Einbruchserkennung. Durch den Bedarf solcher Werkzeuge in der Datenanalyse und Weiterentwicklungen hinsichtlich Rechenkapazitäten sind solche Methoden bereits für allgemeinere Anwendungsfälle geeignet.

Ziel

Ziel dieser Arbeit ist eine praktische Einführung in die Thematik des maschinellen Lernens und die Dokumentation der benötigten Schritte um Anomalieerkennung für die Logdatei-Analyse einzusetzen.

Ergebnis

Die benötigten Ressourcen für die Anomalieerkennung sind mit durchschnittlichen Geräten die heutzutage in jedem Haushalt gefunden werden können durchführbar. Durch die Auswahl der eingesetzten Programmiersprache, und der Bibliothek Scikit-learn, die beide Open-Source Software sind, ist dieses Vorgehen von der Heimanwendung bis zum kommerziellen Einsatz geeignet.

Die Ergebnisse sind sehr vielversprechend, auch wenn Tests mit anderen Anwendungsfällen zur Verifizierung sinnvoll wären. Das Ziel von Methoden im Bereich des maschinellen Lernens ist es, ein Muster zu erlernen und dann aufgrund dieses erworbenen Wissens eine Vorhersage zu treffen – deshalb kann nicht von einer einhundertprozentigen Genauigkeit ausgegangen werden – was auch nicht immer nötig ist. Diese Vorgehensweise ermöglicht aber trotz alledem mehrere Anwendungsmöglichkeiten und setzt kein durchgehendes mathematisches Verständnis der speziellen Algorithmen voraus.

FH-Betreuer: FH-Prof. Dipl.-Ing. Bernhard Fischer