Breadcrumbs
- IT Security
- Bachelorarbeiten
- Opinion Mining – Mining Opinions from German Documents with RapidMiner
Opinion Mining – Mining Opinions from German Documents with RapidMiner
Bachelor-Studiengang IT SecurityPhilipp Kreimel, BSc
19.09.2014
Ausgangslage
Meinungen von Personen sind einer der wichtigsten Einflussfaktoren für Entscheidungen von Menschen. Durch den rasanten Anstieg von nutzergenerierten Inhalten im Internet, welche oftmals Meinungen zu jeglichen Themen enthalten und auf Plattformen wie Social Networks, Twitter, Blogs und Foren frei verfügbar sind, resultieren daraus Möglichkeiten diese Meinungen aus den Inhalten zu extrahieren und zu analysieren, um diese für kommerzielle Anwendungen einzusetzen.
Da diese Informationen jedoch unstrukturiert, dynamisch und in großen Mengen auftreten, müssen die relevanten Meinungen automatisiert identifiziert, extrahiert und klassifiziert werden. Dazu wird Opinion Mining, übersetzt Meinungsanalyse, eingesetzt. Dabei handelt es sich um statistische Analysen, welche die Häufigkeiten und Gewichtung positiver und negativer Begriffe im analysierten Text gegenüberstellen und dadurch die Haltung und Gesinnung bestimmen.
In dieser Arbeit wird die Meinungsanalyse von deutschen Dokumenten behandelt, da Forschungsarbeiten und lizenzfreie Applikationen in diesem Gebiet oftmals nicht für die deutsche Sprache ausgelegt sind. Beim Einsatz dieser Methode müssen die Herausforderungen und Probleme identifiziert und bewältigt werden um anwendbare Ergebnisse zu erhalten.
Ziel
Das Ziel dieser Arbeit ist eine Algorithmus-basierte Meinungsanalyse von deutschen Texten, die mit Hilfe der lizenzfreien Software RapidMiner durchgeführt wird. Dazu wird ein eigens entwickelter Datensatz von deutschen Texten eingesetzt, welcher als Basis für maschinelles Lernen mittels Algorithmen dient. Ein Vergleich zwischen den Resultaten der Meinungsanalysen von deutschen und englischen Dokumenten wird aufgestellt. Die daraus resultierenden Ergebnisse sollen evaluiert und mögliche Einsatzbereiche und Anwendungsgebiete aufgezeigt werden.
Ergebnis
Als Ergebnis konnte sowohl ein klassifizierter Datensatz von deutschen Filmkritiken, welcher als Ausgangspunkt für Meinungsanalysen dient, erstellt werden, als auch eine äquivalente Genauigkeit der Meinungsanalyse der deutschen Dokumente im Vergleich zu der Analyse der englischen Dokumente erreicht werden. Aus den Erkenntnissen der Meinungsanalyse wurden Anwendungsmöglichkeiten abgeleitet und dargestellt.
FH-Betreuerin: Marlies Temper