L'algorithme
Pour identifier la toxicité et les discours de haine, nous utilisons deux algorithmes (classifier) spécialement développés à cet effet. Le développement de ces classifiers spéciaux s'est déroulé en plusieurs étapes :
Pour identifier la toxicité et les discours de haine, nous utilisons deux algorithmes (Classifier) spécialement développés à cet effet. Le développement de ces classifiers spéciaux s'est déroulé en plusieurs étapes :
1. Evaluation
Tout d’abord, environ 14’000 publications en ligne (commentaires et autres posts) ont été sélectionnées à partir des données mises à notre disposition par nos partenaires médiatiques. Ces publications ont ensuite été évaluées par des collaborateur-ices scientifiques spécialement formé-es, en se basant sur notre codebook élaboré par des expert-es, et classées comme discours de haine, toxique ou aucun des deux. Pour les contenus identifiés comme discours de haine, les cibles visés par la haine ont également été relevées, par exemple la religion, le genre ou la nationalité.
2. Training
Nos deux classifiers pour la détection de la toxicité et des discours haineux sont basés sur google-bert/bert-base-multilingual-cased, un modèle linguistique multilingue largement utilisé, entraîné sur des milliers de livres et l'ensemble du corpus Wikipédia. Ils ont été spécialement adaptés aux commentaires en allemand et en français provenant de Suisse.
Pour cette adaptation, deux sources de données distinctes ont été utilisées : (1) un nouveau jeu de données de commentaires collecté en 2024, comprenant plus de 14 000 contributions soigneusement évaluées provenant de plateformes d’actualités suisses (dont environ 25 % classées comme toxiques) ; et (2) un vaste jeu de données de commentaires issu d’un précédent projet sur les discours de haine (Kotarcic et al., 2023), contenant plus de 420 000 contributions. Les modèles ont été ajustés en deux étapes (« fine-tuning ») afin d’obtenir les meilleurs résultats : d’abord sur l’ancien jeu de données volumineux, puis sur les nouvelles données suisses spécifiquement évaluées. Cette approche en deux phases a permis d’atteindre les performances les plus élevées.
En outre, des recherches approfondies sur les hyperparamètres ont été menées, au cours desquelles, entre autres, le taux d’apprentissage, la taille des lots (« batch size »), le nombre d’époques et les facteurs de pondération ont été variés. Le modèle le plus performant a finalement été sélectionné pour l’usage prévu.
3. Validation
À partir d'une partie de nos propres évaluations manuelles, qui n'ont pas été intégrées à la formation, nous avons mesuré la précision des différents modèles dans la détection de la toxicité et des discours haineux. La sélection de cet ensemble de tests a été effectuée à l'aide de méthodes statistiques rigoureuses afin d'apprendre autant que possible de l'échantillon (Tomas-Valiente Jorda, 2025). Les meilleurs modèles pour la toxicité et les discours haineux ont été sélectionnés. Concrètement, nous avons évalué dans quelle mesure notre classification est plus informative qu'une classification aléatoire, quelle proportion des contributions réellement toxiques/haineuses a été détectée (taux de réussite ou sensibilité) et quelle proportion des contributions classées comme toxiques/haineuses contenaient réellement ces éléments (précision).
Sur un jeu de test représentatif et constitué aléatoirement, les modèles obtiennent de solides résultats (AUC = 0.83 ; F1 = 0.55 pour la toxicité ; AUC = 0.95, F1 = 0.42 pour le discours de haine). Les modèles présentent une sensibilité particulièrement bonne (toxicité = 0.79 ; rappel pour le hate speech = 0.9), ce qui signifie qu’ils détectent une grande partie des contributions réellement toxiques ou haineuses. La précision est modérée (0.42 ; 0.28), mais reste dans la fourchette attendue pour la classification de la toxicité. Dans l’ensemble, les modèles parviennent bien à distinguer les contenus toxiques des contenus non toxiques et dépassent, sur nos données de test, les meilleures alternatives disponibles, comme par exemple l’API « Toxicity » de Google Perspective.
Debiasing
La toxicité et les discours haineux évoluent constamment, tout simplement parce que le langage change, que de nouveaux termes apparaissent et que d'anciens termes sont redéfinis (par exemple, « Schwurbler »). Afin que nos classificateurs ne se détériorent pas avec le temps, nous utilisons chaque semaine une méthode d'ajustement appelée « debiasing » (Egami et al., 2023). Pour ce faire, un échantillon de 1 000 contributions par média est envoyé chaque semaine à un LLM afin d'obtenir des évaluations actuelles concernant la toxicité et les discours haineux. La prévalence hebdomadaire du classificateur est ajustée sur la base de ces évaluations actuelles. Enfin, nous ajustons l'incertitude afin d'inclure le taux d'erreur possible des évaluations LLM.
Egami, N., Hinck, M., Stewart, B., & Wei, H. 2023. Using imperfect surrogates for downstream inference: Design-based supervised learning for social science applications of large language models. Advances in Neural Information Processing Systems, 36, 68589-68601.
Tomas-Valiente, F. 2025. Uncertain performance: How to quantify uncertainty and draw test sets when evaluating classifiers. Working paper.
Kotarcic, A., Hangartner, D., Gilardi, F., Kurer, S., and Donnay, K. 2022. Human-in-the-Loop Hate Speech Classification in a Multilingual Context. In: Findings of the Association for Computational Linguistics: EMNLP 2022, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.