Common Voice ist eine globale Gemeinschaft von Mitwirkenden, Datensatznutzern, Forschern und interessierten Hobbyisten, die zusammenkommen, um Text- und Sprachdatensätze zu erstellen, die ein inklusiveres, offeneres und gesünderes Datenökosystem ermöglichen können.

Wir wollten mehr Raum für die Beteiligung der Gemeinschaft schaffen, während wir die Zukunft von Common Voice mit Ihnen aufbauen. Als Teil davon wollten wir unsere Ziele und Roadmap für 2024 zur Diskussion und Rückmeldung mit der breiteren Gemeinschaft teilen.

Dieser Blogbeitrag beschreibt nicht all die Arbeit unseres kleinen Teams – zum Beispiel werden wir weiterhin Fehler beheben, neue Sprachen hinzufügen, Supportfragen beantworten und alle anderen täglichen Aufgaben erledigen, die notwendig sind, um Common Voice gesund und am Laufen zu halten. Aber wir haben auch einige spannende Erweiterungen in Arbeit! Diese sind grob in drei „Produktthemen“ gruppiert.

Für einen interaktiveren Blick auf diese Roadmap veranstalten wir am 24. April 2024 auch eine Live-Fragerunde mit dem Common Voice-Team. Die kostenlose Registrierung ist über dieses Formular möglich.

Eine Roadmap mit den Projekten, auf die sich das Common Voice-Team in diesem Jahr konzentrieren wird. Im folgenden Text werden diese Projekte ausführlicher beschrieben.

Sprache, wie sie gelebt wird: Varianten, Code-Switching und Spontansprache

Wir möchten die Vielfalt und Nuancen der menschlichen Sprache erfassen. Dieses Jahr werden wir Unterstützung für Code-Switching (2 Sprachen in 1 Datensatz) und Soziolekte (Varianten einer Sprache, die von einer sozialen Gruppe verwendet werden) einführen. Beide werden zunächst über unsere zweite Plattform verfügbar sein; Common Voice: Spontaneous Speech. CVSS befindet sich derzeit in der Alpha-Testphase, wird aber zu Beginn des dritten Quartals zunächst mit nur 3 Sprachen in der Beta-Version veröffentlicht.

Neuausrichtung von Text als Datenwert: Von Zustimmung und Qualität getriebene Sätze

Wir haben uns darauf konzentriert, die Gesundheit unserer Textkorpora zu verbessern. Im letzten Jahr haben wir die Satzsammlung in die Common Voice-Plattform migriert, was zu einer 100-prozentigen Steigerung der Rate von Sprachen geführt hat, die neue Sätze aufnehmen, und zu einer 300-prozentigen Steigerung der Anzahl der Personen, die Satzbeiträge leisten. In diesem Jahr haben wir bereits daran gearbeitet, unser Textkorpus in unsere Datensätze aufzunehmen, und werden bald daran arbeiten, Qualitäts- und Sicherheitsprozesse für unsere Sätze in die Common Voice-Plattform zu verlagern. Dies wird es schneller und einfacher machen, den Textkorpus mit hochwertigen Beiträgen in verschiedenen Sprachen zu erweitern. Wir werden auch einige „Kommentar“-Tools mit menschlicher Beteiligung prototypisieren, die für andere ML-Praktiker nützlich sein könnten.

Diversifizierung der Governance-Pfade für gerechtere Innovation und Nachhaltigkeit

Das Data Futures Lab ist ein Experimentierfeld für die Initiierung neuer Ansätze zur Bewältigung der Herausforderungen der Datenverwaltung, das ebenfalls zur Mozilla Foundation gehört.

Wir werden an einer Zusammenarbeit mit der DFL arbeiten, um zu untersuchen, wie die Common Voice-Plattform in der Lage sein könnte, von der Community geleitete Datenerfassungsprojekte mit unterschiedlichen Governance- und Lizenzierungsstrukturen zu unterstützen. Wir engagieren uns für das Gute, das Open Source in der Welt bewirkt, und nehmen keine Änderungen an den Lizenzen bestehender Datensätze vor. Wir möchten jedoch Gemeinschaften mit unterschiedlichen Perspektiven zuhören und mit ihnen auf eine Lernreise gehen. Wir werden unsere Überlegungen teilen und im Jahr 2025 Raum für Diskussionen schaffen.

Belebung unserer Open-Source- und technischen Communitys

Eines unserer Ziele in diesem Jahr ist es, uns über die Datenerfassungsphase ihrer Reise hinaus stärker mit unseren Communitys zu engagieren. Wir planen, gemeinsam mit den Community-Mitgliedern Lernerfahrungen zur Nutzung ihrer Daten für die Entwicklung verantwortungsvoller Sprachtechnologieanwendungen zu entwickeln. Um dies zu erreichen, arbeiten wir mit der Responsible Computing Challenge zusammen.

Wir möchten auch unsere eigene Open-Source-Gemeinschaft besser unterstützen und befähigen, die CV-Plattform nach ihren Bedürfnissen mitzugestalten. Wir schaffen mehr Raum für Diskussionen über die technische Ausrichtung und schaffen mehr Transparenz in der Roadmap für Feedback und Zusammenarbeit. Wir sind auch dabei, all unsere öffentlichen technischen Dokumentationen zu prüfen, um die Beteiligung zu erleichtern. Dies kombinieren wir mit einer Überprüfung unserer internen Prozesse und steigern die Aufmerksamkeit des Teams für Pull Requests, um sicherzustellen, dass interessierte Mitwirkende promptes Feedback erhalten. Sprechen Sie mit uns auf Discourse, Matrix oder auf GitHub, um uns in die richtige Richtung zu lenken und Sie zu unterstützen!

Erkundung verschiedener Partnerschaften für Nachhaltigkeit

Common Voice ist eine gemeinnützige Initiative, die durch Zuschüsse und Partnerschaften finanziert wird. Ein Teil jeder jährlichen Roadmap beinhaltet die Arbeit zur Sicherung von Finanzmitteln, die ein nachhaltiges Wachstum von Common Voice ermöglichen. In diesem Jahr werden wir weiterhin Finanzierungswege erforschen, die mit unserer Mission übereinstimmen. Wenn Sie uns direkt unterstützen möchten, sind Spenden herzlich willkommen. Sie können uns auch unter [email protected] kontaktieren, um mit uns über institutionelle Zuschüsse oder Partnerschaften zu sprechen.