Das Common-Voice-Team freut sich, die Version des Datensatzes 19.0 präsentieren zu können. Diese Version enthält zusätzliche 463 Stunden Aufzeichnungen, sodass der Datensatz insgesamt 32 584 Stunden offene Sprachdaten enthält, die zur kostenlosen Verwendung stehen. In dieser Version gab es auch einen merklichen Anstieg bei den Stunden der validierten Aufzeichnungen, da 500 Stunden neuer validierter Clips verwendet wurde, und damit die Gesamtdauer der validierten Clips in Common Voice 19.0 auf 21 593 Stunden erhöhte.
Mit dieser Version ergänzen zwei neue Sprachen den Datensatz! Wir freuen uns, Sindhi und Tsonga zum ersten Mal im Common-Voice-Datensatz begrüßen zu können. Damit beträgt die Gesamtzahl der Sprachen im Common-Voice-Datensatz 131. Das mag eindrucksvoll klingen, aber bei über 7 000 Sprachen, die heute auf der Welt gesprochen werden, ist das erst der Anfang. Wenn Sie Ihre Sprache auf Common Voice sehen möchten, melden Sie sich bitte und teilen Sie uns dies mit.
Sie können Common Voice 19.0 von unserer Datensatz-Download-Seite herunterladen.
Sie werden möglicherweise feststellen, dass einige Sprachen, die kürzlich zur Plattform hinzugefügt wurden, nicht veröffentlicht werden. Sie werden Teil einer Sonderversion im Mai 2025 als Teil der Veröffentlichung einer neuen Plattform und eines neuen Datenformats sein. Dies wurde im Voraus mit den Forschern der Gemeinschaft, die an diesen Datensätzen arbeiten, vereinbart und wir freuen uns, bald mehr bekannt geben zu können!
Wie immer gilt unser Dank den zahllosen Mitwirkenden von Sprach- und Textbeiträgen, Überprüfern und Mitgliedern der Gemeinschaft, die den Datensatz und das Herzstück der Common-Voice-Bemühungen bilden. Ohne Sie wäre dies nicht möglich und wir freuen uns, weiterhin mit der Gemeinschaft zu wachsen.