ETH - 26.11.2025

Der Algorithmus

Um Toxizität und Hassrede zu identifizieren, verwenden wir zwei eigens entwickelte Algorithmen (Classifier). Die Entwicklung dieser speziellen Classifier bestand aus folgenden Stufen:

1. Annotation

Zunächst wurden etwa 14’000 Online-Beiträge (Kommentare und andere Posts) aus den Daten ausgewählt, die uns von unseren Medienpartnern zur Verfügung gestellt wurden. Diese Beiträge wurden dann von eigens geschulten hilfswissenschaftlichen Mitarbeiter:innen, basierend auf unserem von Experten zusammengestellten Codebuch, jeweils als entweder Hassrede, Toxizität oder keines von beidem eingestuft. Für Hassrede wurden auch das Ziel oder die Ziele des Hasses notiert, wie z.B. Religion, Geschlecht oder Nationalität.

2. Training

Unsere beiden Classifier zur Erkennung von Toxizität und Hassrede basieren auf google-bert/bert-base-multilingual-cased, einem weit verbreiteten multilingualen Sprachmodell, trainiert auf tausenden von Büchern und dem gesamten Wikipedia-Korpus. Sie wurden speziell auf deutsch- und französischsprachige Kommentare aus der Schweiz angepasst.

Für diese Anpassung kamen zwei unterschiedliche Datenquellen zum Einsatz: (1) ein neuer, 2024 erhobener Kommentar-Datensatz bestehend aus mehr als 14’000 sorgfältig annotierten Beiträgen von Schweizer Nachrichtenplattformen (davon rund 25% toxisch), und (2) ein grosser Kommentar-Datensatz aus einem früheren Hate-Speech-Projekt (Kotarcic et al., 2023) mit über 420’000 Beiträgen. Die Modelle wurden in zwei Stufen feinjustiert („fine-tuning“), um die besten Ergebnisse zu erreichen: Zunächst auf dem älteren grossen Datensatz, danach auf den neuen, spezifisch annotierten Schweizer Daten. Dieser zweistufige Ansatz führte zu den besten Ergebnissen. Zudem wurden umfangreiche Hyperparameter-Suchen durchgeführt, bei denen u. a. Lernrate, Batch-Grössen, Anzahl Epochen und Gewichtungsfaktoren variiert wurden. Das jeweils leistungsstärkste Modell wurde für die Anwendung ausgewählt.

3. Validierung

Anhand eines Teils unserer eigenen manuellen Annotationen, welche nicht ins Training einflossen, wurde gemessen, wie akkurat die verschiedenen Modelle in der Erkennung von Toxizität und Hassrede waren. Die Auswahl dieses Testsets erfolgte mittels statistisch rigoroser Methoden, um so viel wie möglich von der Stichprobe zu lernen (Tomas-Valiente Jorda, 2025). Die besten Modelle für Toxizität und Hassrede wurden jeweils ausgewählt. Konkret wurde bewertet, wie viel informativer unsere Klassifikation ist als eine Zufallsklassifikation und welcher Anteil der tatsächlichen toxischen/hasserfüllten Beiträge erkannt wurden (Trefferquote oder Sensitivität), und welcher Anteil der als toxisch/hasserfüllten eingestuften Beiträge tatsächlich dies beinhalteten (Präzision).

Auf einem repräsentativen, zufällig zusammengestellten Testdatensatz erzielen die Modelle solide Ergebnisse (AUC = 0.83; F1 = 0.55 für Toxizität; AUC = 0.95, F1 = 0.42 für Hassrede). Die Modelle zeigen besonders gute Sensitivität (Toxizität = 0.79; Hate Speech = 0.9), erkennen also einen grossen Teil aller tatsächlich toxischen bzw. hasserfüllten Beiträge. Die Präzision ist moderat (0.42; 0.28), liegt jedoch im erwartbaren Bereich für die Klassifikation von Toxizität. Insgesamt erreichen die Modelle eine gute Trennschärfe bei der Unterscheidung zwischen toxischen und nicht-toxischen Inhalten und übertreffen in unseren Testdaten die bestmöglichen Alternativen, wie zum Beispiel die Toxicity-API von Google Perspective.

4. Debiasing

Sowohl Toxizität als auch Hassrede verändern sich andauernd – einfach, da sich die Sprache ändert und sowohl neue Begriffe entstehen als auch alte Begriffe neu definiert werden (z. B. “Schwurbler”). Damit unsere Classifier nicht mit der Zeit immer schlechter werden, verwenden wir wöchentlich eine Anpassungsmethode namens Debiasing (Egami et al., 2023). Hierfür werden wöchentlich eine Stichprobe von 1'000 Beiträgen pro Medium an ein LLM geschickt, um aktuelle Einschätzungen bezüglich Toxizität und Hassrede zu bekommen. Anhand dieser aktuellen Annotationen wird die wöchentliche Classifier-Prävalenz angepasst. Schliesslich adjustieren wir die Unsicherheit, um die mögliche Fehlerquote der LLM-Annotationen zu berücksichtigen.

Egami, N., Hinck, M., Stewart, B., & Wei, H. 2023. Using imperfect surrogates for downstream inference: Design-based supervised learning for social science applications of large language models. Advances in Neural Information Processing Systems, 36, 68589-68601.

Tomas-Valiente, F. 2025. Uncertain performance: How to quantify uncertainty and draw test sets when evaluating classifiers. Working paper.

Kotarcic, A., Hangartner, D., Gilardi, F., Kurer, S., and Donnay, K. 2022. Human-in-the-Loop Hate Speech Classification in a Multilingual Context. In: Findings of the Association for Computational Linguistics: EMNLP 2022, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.