Text-Watermarkingmethoden der deutschen Sprache

Bachelor-Studiengang IT Security

Marc Gehart, BSc

Betreuer: DI Dr. Robert Luh, BSc

Ausgangslage

Ein Werk einer Autorin oder eines Autors wird unerlaubt als das geistige Eigentum einer dritten Person ausgegeben. Weiteres werden in einem anderen Fall illegitime Kopien eines Dokumentes angefertigt und verteilt. In beiden Situationen kann digitales Text-Watermarking eingesetzt werden, um das Urheberrecht feststellen beziehungsweise die verantwortlichen Personen identifizieren zu können. Dazu werden einzigartig bestimmbare Informationen permanent und auf nicht sichtbare Art und Weise in einem Text integriert. Für die Ausführung des Einbindungsprozesses kann auf unterschiedlichste Technikarten zurückgegriffen werden. Eine davon ist das Natural-Language Watermarking. Bei dieser wird unter anderem die Struktur, Grammatik und Wortwahl eines Textes verändert. Im Rahmen dieser Bachelorarbeit wird ein Einblick in die Methodik des Watermarkings gegeben und potenzielle Natural-Language Markierungstechniken, welche speziell auf die deutsche Sprache ausgelegt sind, untersucht und miteinander verglichen.

Ziel

Das Ziel dieser Arbeit liegt in der Darlegung und Bewertung der implementierten Natural-Language Markierungsmethoden. Dafür wird im Rahmen eines Experiments die Höhe der Anwendbarkeit, Ergiebigkeit und Fehlerrate dieser Techniken, sowie ungeeignete Anwendungsgebiete ermittelt. Für ein möglichst breites Spektrum an Themengebieten wurden wirtschaftliche, medizinische, botanische und Informationstechnologie betreffende Texte, wie auch Unterhaltungsliteratur herangezogen.

Ergebnis

Das Experiment zeigte einen erheblichen Unterschied zwischen den Resultaten der einzelnen Markierungsmethoden. Die robusteren Techniken, welche die Struktur eines Satzes veränderten, wiesen im Vergleich zu den fragileren Methoden eine erhöhte Fehlerrate auf. Es konnten auch Differenzen zwischen kurzen und langen Texten, sowie einzelnen Themengebieten ausgemacht werden. Dies betraf unter anderem das Umstellen von Haupt- und Nebensätzen, welche in wirtschaftlichen Texten kaum Anwendung fand. Im Gesamtergebnis konnte die Synonymersetzungsmethode die besten Werte liefern. Vor allem die Anzahl der mit dieser Technik erzielten Satzvariationen war überdurchschnittlich hoch.