Die optimierte Erkennung von Hassrede in digitalen Medien durch sprachspezifisches Preprocessing in Sentimentanalysen
Abschlussarbeit (Bachelor)
Zusammenfassung
Die Erkennung von Beleidigungen in digitaler Kommunikation ist immernoch eine
Hürde, vor allem in weniger verbreiteten Sprachen. Während für Englisch zahlreiche
Ressourcen bereitstehen, gibt es für die deutsche Sprache nur vereinzelte Module. Dies
gilt auch für den Bereich des Preprocessings im Natural Language Processing, dem
Anwendungsgebiet für Textverarbeitung in der künstlichen Intelligenz. Um zu zeigen,
dass mit einem sprachspezifischen Preprocessing die Qualität der Ergebnisse von KIAufgaben erheblich verbessert werden kann, wird am Beispiel einer Sentimentanalyse ein
experimenteller Vergleich von verschiedenen Kombinationen an Preprocessing Schritten
durchgeführt. Dazu werden die bestehenden Ressourcen mit dem Wissen über die
linguistischen Eigenheiten der Sprache kombiniert, um ein optimiertes Preprocessing als
Pipeline bereitzustellen. Diese wird an vier supervised Modellen des Machine Learnings
getestet: SVM, XGBoost, Logistic Regression und Naive Bayes. Es stellt sich heraus,
dass die Pipeline für die meisten Modelle für Verbesserung des Endergebnisses sorgt,
vor allem das sprachabhängige Lemmatisieren hat sich positiv ausgewirkt.
Schlagworte
NLP
Preprocessing
Hatespeech
Sentimentanalyse
000 Informatik, Informationswissenschaft und allgemeine Werke
Preprocessing
Hatespeech
Sentimentanalyse
000 Informatik, Informationswissenschaft und allgemeine Werke
Umfang
II, 55 S.
Link zur Veröffentlichung
Sammlungen