L’équipe Common Voice est ravie de vous présenter le jeu de données 19.0. Cette version a ajouté 463 heures d’échantillons, ce qui porte le jeu de données à un total de 32 584 heures de données vocales ouvertes et libres d’utilisation. Cette version a également connu une augmentation notable du nombre d’heures validées, avec l’ajout de 650 heures de nouveaux échantillons validés, portant la durée totale des échantillons validés dans Common Voice 19.0 à 21 593.
Deux nouvelles langues ont rejoint le jeu de données avec cette version ! Nous sommes ravis d’accueillir le Sindhi et le Tsonga dans le jeu de données Common Voice pour la première fois. Cela porte à 131 le nombre de langues dans le jeu de données Common Voice. Cela peut paraître impressionnant, mais avec plus de 7 000 langues parlées dans le monde aujourd’hui, nous ne faisons que commencer. Si vous souhaitez voir votre langue sur Common Voice, veuillez nous contacter et nous en informer.
Vous pouvez télécharger Common Voice 19.0 sur notre page de téléchargement des jeux de données.
Vous remarquerez peut-être qu’un petit nombre de langues ajoutées récemment à la plateforme n’ont pas été publiées. Elles feront l’objet d’une version spéciale aux alentours de mai 2025 dans le cadre du lancement d’une nouvelle plateforme et d’un nouveau format de données. Cette décision a été établie d’un commun accord avec les chercheurs et chercheuses de la communauté qui travaillent sur ces jeux de données, et nous avons hâte de vous en dire davantage bientôt !
Comme toujours, nous remercions les innombrables contributeurs·trices que ce soit pour la partie vocale ou textuelle, les validateurs·trices et les membres de la communauté qui créent le jeu de données et sont au cœur de l’initiative Common Voice. Rien de tout cela n’aurait été possible sans vous et nous sommes impatients de continuer à faire grandir la communauté.