Der Open-Source-Index, erstellt von Tattle, einem Stipendiaten des Mozilla Data Futures Lab, treibt eine Browsererweiterung an, die automatisch hasserfüllte Wörter erkennt und schwärzt
__
(INDIEN | 25. APRIL 2024) – Die in Indien ansässige Organisation Tattle hat einen erweiterten Datensatz über geschlechtsspezifischen Missbrauch in indischen Sprachen veröffentlicht. Dieser soll Menschen und digitalen Werkzeugen als Ressource dienen, um hasserfüllte Inhalte online besser zu identifizieren und zu mildern. Tattle ist eine Gemeinschaft von Technologen, Forschern und Künstlern, die an einem gesünderen Online-Informationsökosystem in Indien arbeiten.
Ursprünglich im Jahr 2022 erstellt, verfügt der Datensatz – der die Browsererweiterung Uli antreibt – nun über mehr als 600 Einträge in den Sprachen Hindi, Tamil, Malayalam und indisches Englisch. Entscheidend ist, dass er jetzt auch Metadaten für jeden Eintrag enthält. Dieser Kontext ermöglicht es Uli, besser zu verstehen, ob und wie Hassreden online stattfinden.
Der Datensatz ist hier verfügbar. Weitere Informationen über Tattle finden Sie hier.
Das Uli-Browser-Plugin ist ein echter Held im digitalen Alltag. Es schwärzt Beleidigungen und missbräuchliche Inhalte, ermöglicht das Archivieren von problematischen Inhalten und hilft uns dabei, gemeinsam gegen Online-Gewalt aufgrund des Geschlechts vorzugehen. Es ermöglicht den Nutzern, beleidigende Wörter automatisch zu verwischen; problematische Beiträge in Newsfeeds zu verbergen; und beleidigende Tweets zu erfassen. Die Daten, die das Plugin antreiben, werden auch von den Trust & Safety-Teams verwendet, um schädliche Inhalte in indischen Sprachen zu erkennen.
Der Datensatz wurde über zwei Jahre hinweg aufgebaut. Durch synchrone Online-Sitzungen haben Forscher, Aktivisten und feministische Partnerorganisationen den Datensatz annotiert und so einen entscheidenden Kontext zur Bedeutung, Verwendung und Schwere der in indischen Sprachen crowdbasierten Beleidigungen geliefert.
Tarunima Prabhakar, leitende Forscherin bei Tattle, sagt: „Datensätze wie dieser sind für ein ziviles, inklusives Internet unerlässlich. Sie ermöglichen wichtige Moderations- und Sicherheitstools, schützen marginalisierte Gemeinschaften und mildern Belästigungen und andere Schäden online. Derzeit ist der Uli-Datensatz eine der umfassendsten, Open-Source-Listen für indischsprachige Inhalte und ist für die laufende Arbeit in der KI-Sicherheit von entscheidender Bedeutung.“
Datensätze wie diese sind für ein ziviles, integratives Internet unerlässlich.
Tarunima Prabhakar, Tattle
Dharini Priscilla, eine Annotatorin für die Tamil-Liste im Datensatz, reflektierte über die Bedeutung von südasiatischen Annotatoren, um nicht nur die Sprache, sondern auch die politischen, religiösen und kulturellen Untertöne zu verstehen: „Im Tamil gibt es so viele Beleidigungen, die sich sogar von einer Stadt zur anderen ändern. Das sieht man im Englischen nicht so sehr. Es ist breiter.”
Tattle ist Mitglied der 2023 Data Futures Lab-Kohorte, zusammen mit vier anderen Projekten, die Datensätze für das Gemeinwohl erstellen. Das Data Futures Lab ist ein experimenteller Raum für die Initiierung neuer Ansätze zu Herausforderungen im Datenmanagement. Es bietet Finanzierung, Gerüst für Zusammenarbeit, Zusammenkunft um aufkommende Ideen und einen Ort, um Ansätze zum Datenmanagement zu erarbeiten, die den Menschen mehr Kontrolle und Handlungsfähigkeit geben.