Common Voice freut sich, bekanntzugeben, dass die 18. Version des Datensatzes jetzt zum Download bereitsteht. Als Teil unseres Engagements, Sprachtechnologien zugänglicher zu machen, veröffentlichen wir einen kostenlosen und urheberrechtsfreien Datensatz mehrsprachiger Sprachclips und zugehöriger Textdaten unter einer CC0-Lizenz. Der Datensatz ist ein Ergebnis der Gemeinschaft, angetrieben von den Spendern von Sprache und Text, Sprachaktivisten, Technologen, Akademikern und anderen Mitgliedern der Gemeinschaft, aus denen Common Voice besteht.

Statistiken zu Common Voice 18.0

Der Common-Voice-Datensatz ist auf 31 841 Stunden angewachsen, wobei 20 789 Stunden an Sprachdaten von der Gemeinschaft validiert wurden. Dies ist eine Erhöhung an Sprachdaten um fast 700 Stunden seit der letzten Veröffentlichung des Datensatzes und eine Erhöhung um 381 neu validierte Stunden. Der 18. Datensatz besteht aus Aufzeichnungen aus 129 Sprachen, wobei in dieser Version 5 neue Sprachen hinzukommen.

Neue Sprachen bei Common Voice

Wir freuen uns sehr, dass jetzt fünf neue Sprachen dem Common-Voice-Datensatz und der Common-Voice-Gemeinschaft angehören. Xhosa, Kalenjin, Kidaw'ida, Dholuo und Setswana sind in Common Voice 18 verfügbar. Diese Sprachen werden von hunderten Millionen Menschen auf der ganzen Welt verwendet, die jetzt durch Sprachtechnologien besser unterstützt werden können.

Werden Sie ein Teil von Common Voice 19 und darüber hinaus

Wenn Sie Common Voice lieben, gibt es so viele Möglichkeiten, der Gemeinschaft der Mitwirkenden beizutreten. Ihre Stimme zu teilen oder Originalsätze in Ihrer Sprache schreiben und beitragen hilft beim Erstellen des nächsten Datensatzes. Wenn Ihre Sprache noch nicht Teil von Common Voice ist, können Sie mit diesem Formular die Aufnahme beantragen. Wir freuen uns auch sehr über technische Beiträge zu unserem Open-Source-Projekt auf GitHub.

Feedback

Wir sind immer gespannt, was Sie von den neuen Versionen halten. Sie können uns in den Common-Voice-Foren erreichen, in Matrix mit uns chatten oder direkt eine E-Mail an das Team senden: [email protected]. Wir sind besonders daran interessiert, mehr darüber zu erfahren, welchen Datensatz Benutzer mit dem Datensatz erstellen oder untersuchen. Wenn wir die Bedürfnisse der Nutzer unserer Datensätze besser verstehen, können wir eine Richtung einschlagen, die Ihren Bedürfnissen besser entspricht.