Static Malware Feature Analysis for Generative Adversarial Networks

Bachelor-Studiengang IT Security

Johannes Pinger

Betreuer: DI Dr. Robert Luh, BSc 

Ausgangslage

Lange Zeit waren signaturbasierte Antivirensoftware Vorherrscher am Markt. Für diese wurden mit viel technischem Know-How Signaturen von neuen Viren erstellt, um diese zukünftig erkennen zu können. Mit der großflächigen Verbreitung von Machine Learning und Deep Learning wurden Methoden entwickelt, um selbst neue Viren anhand verschiedener Muster zu erkennen. Dadurch versprechen sich Antivirenhersteller mehr Erfolge bei der Erkennung von Viren und erhoffen sich, Virenentwicklern nicht erst nachträglich das Handwerk legen zu können. Andererseits nutzen Zweitere die gleichen Tools, um die Erkennungsmechanismen der Antivirensoftware zu entkommen.

Ziel

In dieser Arbeit sollen verschiedene Virenerkennungsalgorithmen (auf Basis von Machine Learning) mithilfe einer Neuronalen Netzwerk Architektur (Generative Adversarial Network) getäuscht werden. Die verwendeten Daten bestehen aus einer Zusammensetzung aus bekannten Computerviren sowie normalen Windowsprogrammen. Aus den Daten sollen verschiedene Informationen extrahiert werden, sogenannte Features, welche in unterschiedliche Gruppen eingeteilt werden. Die Ergebnisse der einzelnen Gruppen sollen nach trainieren des Neuronalen Netzwerks mittels statistischer Hilfsmittel gegenübergestellt und analysiert werden. Dadurch soll gezeigt werden, ob gewisse Features besser geeignet sind als andere.

Ergebnis

Es wurde gezeigt, dass klare Unterschiede zwischen einzelnen Gruppen bestehen. Daraus kann man schließen, dass manche Features besser geeignet sind, um Antivirensoftware mittels eines Neuronalen Netzwerks zu täuschen. Weiters wurde gezeigt, dass verschiedene Machine Learning Algorithmen mit den einzelnen Gruppen unterschiedliche Ergebnisse liefern. Dadurch kann man schließen, dass Algorithmen wie Linear Regression oder Support Vector Machine anfälliger auf Angriffe mit einem Neuronalen Netzwerk sind.

Ausblick

Die gewonnenen Informationen können verwendet werden, um das Neuronale Netzwerk gegen eine in der Industrie verfügbare Antivirensoftware trainieren zu können. Diese Ergebnisse könnten zeigen, ob der Angriff wirkliche Relevanz und Folgen für die IT Sicherheit in Unternehmen haben kann.