Largement parlé au Ghana et dans d’autres pays d’Afrique de l’Ouest, le twi est le dernier ajout au jeu de données linguistiques open source Common Voice.



Le corpus V10.0 de Common Voice contient désormais une centaine de langues et constitue le jeu de données multilingue le plus diversifié au monde. La langue la plus récente sur la plateforme, le twi, est native et bilingue pour environ 18 millions de personnes à travers le Ghana, le Bénin et les régions du sud-est de la Côte d’Ivoire en Afrique de l’Ouest.

Cette étape importante est significative pour la mission du projet Common Voice de Mozilla, qui vise à rendre la technologie vocale plus inclusive.

Nous sommes ravis que le twi soit la 100e langue de Common Voice. Le cœur de ce projet est de permettre aux communautés linguistiques du monde entier d’exploiter plus facilement les possibilités des technologies vocales — en créant un écosystème d’IA plus sain et plus ouvert.

EM Lewis-Jong, responsable de produit Common Voice

Selon l’État des lieux des langues d’Internet, la représentation insignifiante des langues africaines en ligne continue de renforcer une forme d’impérialisme colonial : « La grande majorité des langues africaines ne sont pas prises en charge en tant que langue d’interface par l’une des plateformes que nous avons étudiées, et par conséquent, plus de 90 % des Africains doivent recourir à une deuxième langue pour utiliser la plateforme ; qui, pour beaucoup, est une langue coloniale européenne. » (Le rapport est produit par Whose Knowledge? Oxford Internet Institute et le Centre for Internet and Society.)

De plus, les langues africaines représentent au moins un tiers des langues parlées dans le monde, mais seule une poignée de produits prennent en charge ces langues, bien que la majorité de ces langues existent sous forme orale plutôt que sous forme écrite.

Changer cette trajectoire demande un groupe de créateurs de communautés linguistiques motivés comme Daniel Agyeman, un contributeur de Common Voice. Ce projet lui permet de se reconnecter avec sa culture : « Je suis né et j’ai grandi au Royaume-Uni, mais je suis d’origine ghanéenne », dit-il. « En tant que Ghanéen vivant dans la diaspora, je suis attiré par les activités qui m’aideront à me connecter avec mon pays d’origine et à améliorer spécifiquement mes compétences en twi. Actuellement, je n’ai constaté aucune utilisation du twi dans la technologie vocale, j’étais donc très enthousiaste à l’idée de créer un jeu de données vocales twi qui puisse être utilisé pour créer le tout premier système de reconnaissance vocale en twi. »

Daniel a demandé à sa famille, à ses amis et à d’autres Ghanéens vivant dans la diaspora de recueillir des phrases en twi et de les publier sur la plateforme Common Voice. Jusqu’à présent, la communauté de la langue twi a rassemblé plus de 40 000 phrases et invite les locuteurs natifs ou bilingues à contribuer à l’initiative en faisant don de leur voix et en validant les contributions des autres locuteurs.

Grâce au soutien de la Fondation Gates, de NVIDIA et de GIZ, la 11e version du jeu de données Common Voice devrait dépasser les 23 000 heures. Ce jeu de données communautaire est développé grâce à la mobilisation de la communauté et au soutien de plus de 400 000 bénévoles à travers le monde.


Sur le même sujet