Het Common Voice-team is zeer verheugd om de 19.0-gegevenssetversie te presenteren. Deze versie heeft 463 uur aan fragmenten toegevoegd, waardoor de dataset op een totaal van 32.584 uur aan gratis gebruik van openspraakgegevens komt. Deze versie bevat ook een aanzienlijke toename in gevalideerde uren, met toevoeging van 650 uur aan nieuwe gevalideerde fragmenten, waardoor de totale duur van gevalideerde fragmenten in Common Voice 19.0 op 21.593 kwam.
Met deze versie zijn twee nieuwe talen aan de gegevensset toegevoegd! We zijn verheugd Sindhi en Tsonga voor het eerst in de Common Voice-gegevensset te mogen verwelkomen. Dit brengt het totale aantal talen in de Common Voice-gegevensset op 131. Dit klinkt misschien indrukwekkend, maar met meer dan 7000 gesproken talen in de wereld zijn we nog maar net begonnen. Als u uw taal op Common Voice wilt zien, neem dan contact met ons op en laat het ons weten.
U kunt Common Voice 19.0 downloaden vanaf onze pagina voor het downloaden van gegevens.
Het is u misschien opgevallen dat een handvol talen die recent aan het platform zijn toegevoegd niet worden vrijgegeven. Ze zullen rond mei 2025 onderdeel zijn van een speciale release als onderdeel van de lancering voor een nieuw platform en nieuwe gegevensindeling. Dit was vooraf overeengekomen met de gemeenschapsonderzoekers die aan deze gegevenssets werken, en we zijn verheugd om binnenkort meer aan te kondigen!
Zoals altijd gaat onze dank uit naar de talloze spraak- en tekstmedewerkers, validators en gemeenschapsleden die de gegevensset en het hart van de inspanningen van Common Voice vormen. Dit alles zou niet mogelijk zijn zonder u en we zijn heel enthousiast om verder te groeien met de gemeenschap.