Common Voice est une communauté mondiale de contributeur·trice·s, d’utilisateur·trice·s de jeux de données, de chercheur·euse·s et d’amateur·trice·s qui se réunissent pour créer des jeux de données de textes et de voix susceptibles d’alimenter un écosystème de données plus inclusif, ouvert et plus sain.

Dans le cadre de la création collaborative de l’avenir de Common Voice, nous souhaitons laisser une plus grande place à la participation communautaire. Ainsi, nous voulons partager nos objectifs pour 2024 et notre feuille de route afin de pouvoir avoir des retours et d’en discuter avec l’ensemble de la communauté.

Ce billet de blog ne détaille pas tout le travail de notre petite équipe. Par exemple, nous allons corriger des bugs, ajouter de nouvelles langues, répondre aux questions de l’assistance et faire toutes les autres tâches quotidiennes nécessaires au bon fonctionnement de Common Voice. Mais nous avons aussi quelques nouveautés passionnantes en cours de développement ! Elles sont regroupées en trois « thèmes de produit ».

Pour une approche plus interactive de cette feuille de route, nous organiserons également une session de questions-réponses en direct avec l’équipe Common Voice le 24 avril 2024. Vous pouvez vous inscrire gratuitement via ce formulaire .

Une feuille de route indiquant les projets sur lesquels l’équipe Common Voice se concentrera cette année. Le texte qui suit détaille ces projets.

La langue telle qu’elle est vécue : variantes, alternance codique et parole spontanée

Nous voulons capturer la diversité et les nuances de la façon dont les personnes parlent. Cette année, nous allons déployer la prise en charge de l’alternance codique (2 langues dans 1 jeu de données) et des sociolectes (les variantes d’une langue utilisée par un groupe social). Ces deux éléments seront dans un premier temps disponibles sur notre deuxième plateforme, Common Voice: Spontaneous Speech. CVSS est actuellement en test alpha, mais sortira en version Bêta au début du troisième trimestre avec 3 langues pour commencer.

Recentrer le texte en tant que donnée : des phrases guidées par le consentement et la qualité

Nous nous efforçons d’améliorer l’intégrité de nos corpus textuels. L’année dernière, nous avons migré la collecte de phrases vers la plateforme Common Voice, ce qui s’est traduit par une augmentation de 100 % du taux de langues qui intègrent de nouvelles phrases et une augmentation de 300 % du nombre de personnes ajoutant des phrases. Cette année, nous avons déjà travaillé pour inclure notre corpus de texte dans nos jeux de données, et nous travaillerons bientôt à migrer les processus de qualité et d’assurance de nos phrases vers la plateforme Common Voice. Ainsi, il sera plus rapide et plus facile de développer le corpus de texte avec des contributions de haute qualité pour toutes les langues. Nous créerons également un prototype d’outils de « commentaires » de type human-in-the-loop qui pourraient être utiles à certains professionnels de l’apprentissage machine.

Diversifier les voies de gouvernance pour une innovation et un développement plus équitables

Le Data Futures Lab est un espace expérimental visant à créer de nouvelles approches pour relever les défis de la gestion des données, qui fait également partie de la Fondation Mozilla.

Nous allons collaborer avec le DFL pour explorer comment la plateforme Common Voice pourrait être en mesure de prendre en charge des projets de collecte de données menés par la communauté avec différentes structures de gouvernance et d’attribution de licences. Nous nous engageons en faveur des effets positifs de l’open source dans le monde et nous n’apportons aucun changement aux licences pour les jeux de données existants. Nous partagerons nos réflexions et organiserons un espace de discussion en 2025.

Redynamiser nos communautés open source et technique

L’un de nos objectifs cette année est de collaborer davantage avec nos communautés au-delà de la phase de collecte de données sur leur parcours. Nous prévoyons de co-concevoir avec les membres de la communauté des expériences d’apprentissage sur l’utilisation de leurs données pour le développement d’applications responsables de technologies vocales. Pour y parvenir, nous nous associons au Responsible Computing Challenge.

Nous voulons également améliorer l’assistance et permettre à notre propre communauté open source de co-créer la plateforme CV pour répondre à ses besoins. Nous créons plus d’espace de discussion autour de l’orientation technique et créons une feuille de route plus transparente pour faciliter les retours et la collaboration. Nous procédons également à l’audit de l’ensemble de notre documentation technique publique, afin de faciliter la participation. Nous combinons cela avec une revue de nos processus internes, augmentant l’attention de l’équipe pour les pull requests pour nous assurer que les contributeur·trice·s intéressé·e·s reçoivent un retour rapide. Contactez-nous sur Discourse, Matrix ou sur GitHub pour nous donner la bonne direction pour vous soutenir !

Explorer différents partenariats pour plus de pérennité

Common Voice est un projet à but non lucratif et est financé par des subventions et des partenariats. La mise en œuvre de chaque feuille de route annuelle comprend une recherche de financement qui permette à Common Voice de se développer de manière durable. Cette année, nous continuerons à explorer des pistes de financement qui correspondent à notre mission. Si vous souhaitez nous soutenir directement, les dons sont les bienvenus, et vous pouvez envoyer un e-mail à [email protected] pour discuter de subventions institutionnelles ou de partenariats.