Lorsque Common Voice a été lancé, les tests de performance du secteur suggéraient qu’environ 5 000 heures de données d’apprentissage ASR pourraient être nécessaires pour entraîner un modèle de reconnaissance vocale robuste (STT) adapté à un déploiement dans des produits tels que les assistants vocaux. Sur la base de ces directives du secteur, les communautés linguistiques étaient tenues de :
- Traduire l’interface utilisateur (UI) de Common Voice à au moins 60 % (824 chaînes de caractères) de l’ensemble des chaînes de Pontoon.
- Collecter un certain nombre de phrases du domaine public. Le nombre nécessaire variait pour chaque langue, en fonction de la taille de la langue :
- Groupe A (faibles ressources) : 750 phrases
- Groupe B (ressources moyennes) : 2 000 phrases
- Groupe C (ressources importantes) : 5 000 phrases
Ces deux conditions sont réunies pour que les langues soient lancées et que les contributions de voix/données puissent démarrer.
Cependant, au fil des ans, des modèles multilingues plus fondamentaux et plus de méthodologies pour adapter les modèles aux nouveaux contextes linguistiques ont vu le jour, et de nombreuses communautés décident de ne pas s’entraîner à partir de zéro, mais d’affiner et de s’appuyer sur ces modèles existants et technologies. Dans ces contextes, les communautés peuvent viser uniquement à générer de petits jeux de données, par exemple 20 ou 50 heures pour affiner les modèles linguistiques existants, au lieu d’entraîner un modèle à partir de zéro.
De plus, nous acceptons de plus en plus de demandes provenant de langues du groupe A. Dans ce contexte, la localisation actuelle de Common Voice nécessite beaucoup de temps et d’efforts, ce qui semble disproportionné.
Pour résoudre ce problème, nous souhaitons prendre en charge un large éventail de modalités de collecte de données et nous sommes en train de repenser notre approche en matière de localisation pour l’ajout d’une nouvelle langue sur Common Voice.
Ce que nous avons décidé de changer
Plus précisément, nous avons réduit les besoins en traductions pour le lancement afin d’inclure uniquement le texte des principales interfaces suivantes :
- Parler, Écouter, Écrire, Vérifier
La traduction passe de 824 à 300 chaînes de caractères, et le nombre total de 1 372 à 1 149, réduisant ainsi la charge de travail pour la partie traduction. Il est important de noter que les communautés auront toujours la possibilité de poursuivre la traduction, mais ce changement permet aux communautés de commencer à collecter des données plus tôt.
Fonctionnement
Traduction
L’ancien système de traduction était divisée en une hiérarchie de dossiers similaires à la structure des pages du site web de Common Voice. Les membres de la communauté doivent désormais traduire 300 chaînes obligatoires réparties dans les ressources suivantes :
- web/locales/en/pages/contribute/common.ftl
- web/locales/en/pages/contribute/listen.ftl
- web/locales/en/pages/contribute/review.ftl
- web/locales/en/pages/contribute/speak.ftl
- web/locales/en/pages/contribute/write.ftl
Collecte de phrases
Actuellement, les directives pour la contribution aux phrases restent les mêmes et suivent les directives actuelles des groupes de langues selon leurs différents niveaux de ressources. En plus de la traduction, les communautés doivent collecter un nombre spécifique de phrases du domaine public : 750 pour le groupe A (faibles ressources), 2 000 pour le groupe B (ressources moyennes) et 5 000 pour le groupe C (ressources importantes). Ces exigences nous permettent de garantir la prise en charge de toutes les langues, en particulier les langues disposant de peu de ressources. Les membres de la communauté peuvent soumettre des phrases via le collecteur de phrases et envoyer un nombre important de phrases en suivant ces directives.
Résumé
Chaque communauté utilise différentes techniques en fonction des exigences de ses projets, des ressources disponibles et des caractéristiques de leur langue. La nouvelle approche pour la traduction offre une plus grande flexibilité, permettant aux communautés de commencer la collecte de données plus tôt avec une charge de travail initiale réduite. Ce changement répond à divers objectifs de collecte de données, depuis de petits jeux de données pour affiner des modèles existants jusqu’à des collectes plus importantes pour entraîner de nouveaux modèles à partir de zéro. Ce changement vise à rendre Common Voice plus accessible à un plus grand nombre de communautés linguistiques, en particulier celles qui ont des ressources limitées ou qui ont de plus petites populations de locuteurs·trices.
Poser des questions ou demander de l’aide
Pour plus d’informations, de demandes ou de questions sur ces nouveautés, contactez-nous à l’adresse [email protected]. Vous êtes plus que bienvenus pour partager vos idées et vos réflexions, rejoindre la conversation sur Discourse, ou discuter avec nous sur Matrix.