Synthetic Data for Data Protection Compliant Analyses

Bachelor-Studiengang IT Security

Bernadette Jilch, BSc

Betreuer: Dipl.-Ing. Peter Kieseberg

Ausgangslage

Datenverlust und Datengrundschutzverordnung sind mittlerweile gängige Begriffe. Doch wie kann man Datensätze, zum Beispiel, für Forschungszwecken veröffentlichen, ohne ein Individuum und dessen Identität zu gefährden? Es gibt verschiedene Möglichkeiten, um zu verhindern, dass durch charakteristische Attribute in einem Datensatz ein Individuum identifiziert werden kann.

Zwischen den Attributen können Abhängigkeiten und Beziehungen bestehen. Die gängigsten Methoden sind Anonymisierung und Pseudonymisierung, da jedoch die Angriffsvektoren für diese Techniken stetig wachsen, sind diese Methoden nicht mehr ausreichend.

Deshalb empfiehlt sich eine Synthetisierung der Daten. Es gibt verschiedene Möglichkeiten einen Datensatz zu synthetisieren, wie zum Beispiel völlige, partielle und hybride synthetische Daten.

Ziel

Das Ziel dieser Arbeit ist, einen Überblick der gängigsten Methoden zu vermitteln und verschiedene synthetischen Datengenerierungsmethoden zu vergleichen. Hierbei wird besonders auf die Bedienbarkeit, die Abweichung zwischen originalen und synthetischen Datensätzen und der Aufrechterhaltung von Beziehungen zwischen den Daten geachtet.

Ergebnis

Im Zuge der Arbeit wurde eine umfassende Übersicht über existierende Möglichkeiten erstellt, um eine Identifikation eines Individuums zu erschweren oder verhindern, diese sind Anonymisierung, Pseudonymisierung und Synthetisierung. Verschiedene Generierungskonzepte und bereits vorhandene Vergleiche von Techniken wurden näher betrachtet.

Anschließend wurden drei verschiedene Methoden zur Synthetisierung näher ausgeführt. Des Weiteren wurde ein Datensatz mithilfe der Algorithmen „Classification and Regression Trees“, „Differential Privacy“ und „Support Vector Machines“ synthetisiert, dabei wurden die Vor- und Nachteile dieser Methoden sowohl theoretisch, als auch praktisch aufgezeigt.

Die erzeugten Datensätze wurden mit dem Originaldatensatz verglichen und die Abweichungen analysiert. Schlussendlich lässt sich sagen, dass die Methoden theoretisch ausgereift sind, aber die praktische Umsetzung derzeit noch fehlt oder die „Usability“ noch einiger Verbesserung bedarf.