It Common Voice-team is bot optein om de 19.0-gegevenssetferzje te presintearjen. Dizze ferzje hat 463 oeren oan fragminten tafoege, wêrtroch de dataset op in totaal fan 32.584 oeren oan fergees gebrûk fan iepenspraakgegevens komt. Dizze ferzje befettet ek in grutte oanwaaks yn falidearre oeren, mei tafoeging fan 650 oeren oan nije falidearre fragminten, wêrtroch de totale doer fan falidearre fragminten yn Common Voice 19.0 op 21.593 kaam.
Mei dizze ferzje binne twa nije talen oan de gegevensset tafoege! Wy binne optein Sindhi en Tsonga foar it earst yn de Common Voice-gegevensset wolkom te hjitten. Dit bringt it totale oantal talen yn de Common Voice-gegevensset op 131. Dit klinkt miskien ymposant, mar mei mear as 7000 sprutsen talen yn de wrâld binne wy noch mar krekt begûn. As jo jo taal op Common Voice sjen wolle, nim dan kontakt mei ús op en lit it ús witte.
Jo kinne Common Voice 19.0 downloade op ús dataset-downloadside.
It is jo miskien opfallen dat in hânfol talen dy’t resint oan it platfoarm tafoege binne net frijjûn wurde. Se sille rûnom maaie 2025 ûnderdiel wêze fan in spesjale útjefte as ûnderdiel fan de lansearring foar in nij platfoarm en nije gegevensyndieling. Dit wie yn it foar oerienkommen mei de mienskipsûndersikers dy’t oan dizze gegevenssets wurkje, en wy binne optein om ynkoarten mear oan te kundigjen!
Lykas altyd, ús tank oan de ûntelbere stim- en tekstbydragers, falidators en leden fan de mienskip dy’t de dataset en it hert fan de Common Voice-ynspanningen foarmje. Gjin fan dit soe mooglik wêze sûnder jo en wy binne sa optein om fierder te groeien mei de mienskip.