Préface : cet éditorial comprend un glossaire de termes visant à expliquer les expressions employées pour vous aider en tant que lecteur à comprendre le contenu. Si vous êtes novice dans l’analyse interdisciplinaire de la technologie, du langage et du pouvoir, je vous encourage à consulter le glossaire.

Si nous n’entretenons pas d’amitiés critiques, nous imposons la libération. Quels mots, quels langues privilégions-nous lorsque nous travaillons sur une IA digne de confiance ?

À la fin du mois de février, Whose Knowledge?, The Centre for Internet & Society (India) and Oxford Internet Institute ont lancé le rapport State of the Internet Languages (STIL). En tant qu’examinatrice du rapport, j’ai été touchée et satisfaite de voir les témoignages des communautés linguistiques présentées honorablement, et dans leur langue maternelle.

Le rapport STIL remet en question le fonctionnement du pouvoir tout au long du processus d’inclusion et d’exclusion des langues parlées et signées sur Internet. Les contributeurs du STIL analysent les aspects d’exclusion de l’inégalité linguistique en ligne : du latinisme de l’UNICODE aux marginalisations de l’altérité et du handicap dans les moteurs de recherche, en passant par l’absence d’organisme et de contexte sociolinguistique dans le développement d’outils, de données et de logiciels.

Écoutez Ishan partager son expérience lors du lancement du Rapport sur l’état des langues sur Internet (À partir de 31:44)

Lancement du Rapport sur l’état des langues sur Internet

Le rapport fournit également un panorama quantitatif des inégalités linguistiques des plateformes avec lesquelles les internautes interagissent à travers le monde. L’analyse qui s’est démarquée pour moi est la suivante :

  • « Plus de 90 % des Africains ont besoin de passer à une seconde langue pour utiliser la plateforme ; pour beaucoup, il s’agira d’une langue européenne coloniale ».
  • « Parmi les 10 langues les plus parlées, l’hindi et le bengali sont souvent moins bien prises en charge que les autres, bien que ces langues représentent collectivement une population importante d’environ un milliard de personnes. »
  • « Même au sein des régions linguistiques fortement représentées, la différence entre l’Europe de l’Est et les autres langues européennes montre qu’il existe un potentiel de marginalisation au sein des régions relativement bien prises en charge. »

Les statistiques font fortement écho à l’application et à l’utilisation des technologies vocales pour les langues minoritaires, comme le montre la contribution de Claudia au STIL. Avant même de savoir si Alexa ou Siri fonctionnent avec une langue, il faut déjà se demander s’il existe « un clavier pour saisir les caractères de ces langues ? Sans parler des technologies plus avancées telles que la traduction automatique » (Claudia, STIL)

Le développement de la technologie vocale dépend fortement de l’accès aux médias numériques, de la puissance de calcul et de la compréhension sociolinguistique pour créer des applications vocales qui fonctionnent pour les gens. Par exemple, dans le cadre de la création de corpus de texte pour le jeu de données de Common Voice, sous un usage loyal, certaines langues ont utilisé le corpus Wikipédia via notre récupérateur de phrases.

Le projet Common Voice de Mozilla est l’une des nombreuses initiatives visant à prendre en considération la diversité linguistique dans les technologies numériques. Notre jeu de données provenant du public est créé par des personnes réelles, dont les expériences sont souvent similaires aux témoignages et aux analyses de STIL. Par exemple, nos bénéficiaires de bourses pour Common Voice en kiswahili et en kinyarwanda ont souligné l’importance de créer des outils vocaux qui éliminent la dépendance d’un locuteur à l’égard des langues coloniales.

Je considère le Rapport sur l’état des langues sur Internet comme une invitation à l’amitié critique. Dans les communautés de pratique, les « amis critiques » sont des personnes qui ont la possibilité, au sein d’une communauté, de critiquer ouvertement ou de manière « exécutive » les normes, les pratiques ou les comportements communs qui se produisent au sein de la communauté. Les amitiés critiques sont les aspects relationnels entre deux ou plusieurs personnes ou groupes qui entretiennent une communication honnête et une capacité à apprendre les uns des autres.

Les jeux de données sont plus que de simples artefacts pour les modèles d’apprentissage automatique, ils quantifient nos moyens de subsistance ; nous avons donc tous et toutes intérêt à nous engager dans la création, l’application et la maintenance des jeux de données comme Common Voice.

Je pense à l’analyse de Claudia sur la façon dont des dispositions technologiques sont prises pour les communautés linguistiques marginalisées ;

« une approche verticale par les grandes entreprises, avec peu voire pas de participation des communautés de locuteurs. Dans ce cas, une approche condescendante peut également être détectée : puisque très peu de contenu est disponible, tout ce qui est fourni doit être approprié et bienvenu par définition. »

Claudia Soria, Décoloniser la technologie des langues minoritaires, Rapport sur l’état des langues sur Internet 2022

Cela ne devrait pas être la norme : le consentement, les ressources et l’autonomie réelle devraient être la norme.

Je vous invite à lire le Rapport sur l’état des langues sur Internet. À la fin du résumé du Rapport sur l’état des langues sur Internet, les rédacteurs partagent des actions spécifiques pour remédier à l’équilibre des pouvoirs dans les inégalités du langage numérique. Des projets open source aux gouvernements en passant par les éditeurs, nous pouvons toutes et tous être acteurs du changement, mais quels sont les changements vers lesquels nous nous dirigeons et comment ?

Observez chaque souffle, chaque syllabe et chaque lettre du rapport, comme je le fais toujours. Le chemin vers un internet sain n’est pas un sprint mais un marathon et vous ne courez pas seul·e.

Glossaire

UNICODE

« La norme Unicode fournit un numéro unique pour chaque caractère, quel que soit la plateforme, l’appareil, l’application ou la langue. Comme les ordinateurs traitent essentiellement des nombres, pensez aux 0 et aux 1. UNICODE a été adopté par tous les éditeurs de logiciels modernes et permet désormais aux données d’être transportées à travers de nombreuses plateformes, appareils et applications différents sans corruption » (UNICODE)

Sociolinguistique

« La sociolinguistique vise à étudier les effets de l’utilisation du langage au sein des sociétés et les effets réciproques de l’organisation sociale et des contextes sociaux sur l’utilisation du langage » (Mallison, 2015).

Langues à ressources « faibles et élevées »

Les langues à faibles ressources et les langues à ressources élevées sont des termes contestés. En général, ils se réfèrent à l’échelle à laquelle les données sont disponibles pour les tâches de traitement du langage naturel. La disponibilité fait également référence au processus d’accès aux données. Par exemple, les outils tels que les moteurs de recherche sont-ils capables de trouver les données en premier lieu ? Définition inspirée d’une lecture de « Les langues menacées ne manquent pas de ressources !, de Mika Hämäläinen »

Marginalisation

Le processus de construction et de renforcement des processus et pratiques structurels qui excluent et enlèvent aux personnes et aux communautés le pouvoir d’exprimer ou d’inhiber leurs expériences humaines. Une langue marginalisée « est marginalisée par des structures et des processus historiques et permanents de pouvoir et de privilège, y compris la colonisation et le capitalisme, plutôt que par la population ou le nombre de locuteurs » (STIL, Définitions)

NB : le Rapport sur l’état des langues sur Internet comprend également des définitions pour vous aider à mieux comprendre le rapport.