L’index open source, construit par Tattle, bénéficiaire d’une subvention du Mozilla Data Futures Lab, alimente une extension de navigateur qui identifie et caviarde automatiquement les mots haineux
__
(INDE | 25 AVRIL 2024) -- L’organisation indienne Tattle a publié un ensemble de données élargi sur les abus sexistes dans les langues indiennes, conçu comme une ressource pour les personnes et les outils numériques pour mieux identifier et atténuer les contenus haineux en ligne. Tattle est une communauté de technologues, de chercheurs et d’artistes qui travaillent à un écosystème d’information en ligne plus sain en Inde.
Construit à l’origine en 2022, l’ensemble de données — qui alimente l’extension de navigateur Uli — comprend désormais plus de 600 entrées dans les langues hindi, tamoul, malayalam et anglais indien. Mais surtout, il inclut dorénavant également des métadonnées pour chaque entrée. Ce contexte permet à Uli de mieux comprendre dans quelle mesure et de quelle manière le discours haineux se déroule en ligne.
L’ensemble de données est disponible ici. Pour en savoir plus sur Tattle, cliquez ici.
Le plugin de navigateur Uli caviarde les insultes et les contenus abusifs, et permet d’archiver les contenus problématiques afin de lutter collectivement contre la violence sexiste en ligne. Il permet aux utilisateurs de flouter automatiquement les mots offensants, de masquer les messages problématiques dans les fils d’actualité et de capturer les tweets offensants. Les ensembles de données qui pilotent le plugin sont également utilisés par les équipes de Trust & Safety pour détecter les contenus préjudiciables dans les langues indiennes.
L’ensemble de données a été construit sur deux ans. Grâce à des sessions en ligne synchrones, des chercheurs, des activistes et des organisations partenaires féministes ont annoté l’ensemble de données, fournissant un contexte capital sur la signification, l’utilisation et la gravité des insultes dans les langues indiennes.
Selon Tarunima Prabhakar, chercheuse principale chez Tattle : « Des ensembles de données comme celui-ci sont essentiels à un Internet civil et inclusif. Ils alimentent des outils majeurs de modération et de sécurité des contenus, protègent les communautés marginalisées et atténuent le harcèlement et d’autres préjudices en ligne. Actuellement, l’ensemble de données Uli est l’une des listes open source les plus complètes pour le contenu en langue indienne et est essentiel pour les travaux en cours en matière de sécurité de l’IA. »
Des ensembles de données comme celui-ci sont essentiels à un Internet civil et inclusif.
Tarunima Prabhakar, Tattle
Dharini Priscilla, annotatrice pour la liste tamoule dans l’ensemble de données, a souligné l’importance des annotateurs sud-asiatiques pour comprendre non seulement la langue, mais aussi les nuances politiques, religieuses et culturelles : « En tamoul, il y a tellement d’insultes qui changent d’une ville à l’autre. On ne voit pas ça souvent en anglais. C’est plus large. »
Tattle est membre du groupe 2023 Data Futures Lab, aux côtés de quatre autres projets construisant des ensembles de données pour le bien public. Le Data Futures Lab est un espace expérimental destiné à instaurer de nouvelles approches aux défis de la gestion des données. Il fournit un financement, des échafaudages pour la collaboration, des réunions autour d’idées émergentes et un lieu pour organiser des ateliers sur les approches de la gestion des données qui donnent un plus grand contrôle et une plus grande capacité d’action aux personnes.