Common Voice to globalna społeczność współpracowników, użytkowników zbiorów danych, badaczy i zainteresowanych hobbystów, którzy spotykają się, aby tworzyć zestawy danych tekstowych i mowy, które mogą zasilać bardziej inkluzywny, otwarty i zdrowszy ekosystem danych.

Chcieliśmy stworzyć więcej przestrzeni dla uczestnictwa społeczności, budując przyszłość Common Voice razem z Wami. W ramach tego chcieliśmy podzielić się naszymi celami na 2024 rok i planem działania, aby uzyskać informacje zwrotne i omówić je z szerszą społecznością.

Ten post na blogu nie opisuje szczegółowo wszystkich aspektów pracy naszego małego zespołu. Na przykład, nadal będziemy naprawiać błędy, dodawać nowe języki, odpowiadać na pytania dotyczące wsparcia i wykonywać wszystkie inne codzienne zadania, które są potrzebne do właściwego funkcjonowania Common Voice. Ale przygotowujemy też kilka ciekawych rozszerzeń! Dotyczą one trzech „tematów produktów”.

Aby uzyskać bardziej interaktywne spojrzenie na ten plan działania, zorganizujemy również sesję pytań i odpowiedzi na żywo z zespołem Common Voice 24 kwietnia 2024 roku. Bezpłatnej rejestracji można dokonać za pośrednictwem tego formularza.

Plan działania pokazujący projekty, na których zespół Common Voice będzie się koncentrował w tym roku. Poniższy tekst zawiera bardziej szczegółowe informacje na temat tych projektów.

Żyjący język: Warianty, przełączanie kodów i mowa spontaniczna

Chcemy uchwycić różnorodność i niuanse wypowiedzi ludzi. W tym roku wprowadzimy obsługę code-switchingu (2 języki w 1 zbiorze danych) i socjolektów (warianty języka używanego przez grupę społeczną). Oba będą początkowo dostępne za pośrednictwem naszej drugiej platformy; Common Voice: Spontaneous Speech. CVSS jest obecnie w fazie testów alfa, ale zostanie wydany w wersji beta na początku trzeciego kwartału, z 3 językami na początek.

Ponowne centrowanie tekstu jako zasobu danych: Zdania napędzane zgodą i jakością

Skupiamy się na poprawie zdrowia naszych korpusów tekstowych. W zeszłym roku przenieśliśmy kolekcję zdań na platformę Common Voice, co zaowocowało 100% wzrostem wskaźnika przyswajania nowych zdań przez języki i 300% wzrostem liczby osób, które stały się współtwórcami zdań. W tym roku pracowaliśmy już nad włączeniem naszego korpusu tekstowego do naszych zbiorów danych i wkrótce będziemy pracować nad przeniesieniem procesów kontroli jakości naszych zdań na platformę Common Voice. Ułatwi to szybszy i łatwiejszy rozwój korpusu tekstowego dzięki wysokiej jakości materiałom w różnych językach. Będziemy również prototypować niektóre narzędzia do „komentowania” w pętli, które mogą być przydatne dla innych praktyków ML.

Dywersyfikacja ścieżek zarządzania w celu bardziej sprawiedliwej innowacji i zrównoważonego rozwoju

Data Futures Lab to eksperymentalna przestrzeń, gdzie można inicjować nowe podejścia do wyzwań związanych z zarządzaniem danymi, również w ramach Fundacji Mozilli.

Będziemy pracować nad współpracą z DFL, aby zbadać, w jaki sposób platforma Common Voice może być w stanie wspierać projekty gromadzenia danych kierowane przez społeczność z różnymi strukturami zarządzania i licencjonowania. Jesteśmy zaangażowani w pozytywny wkład projektów open source na całym świecie, i nie wprowadzamy żadnych zmian w licencjach na istniejących zestawach danych, ale chcemy słuchać społeczności o różnych perspektywach i razem z nimi wyruszyć w podróż edukacyjną. Podzielimy się naszymi przemyśleniami i wygospodarujemy pole do dyskusji w 2025 roku.

Ożywienie naszych społeczności open source i społeczności technicznych

Jednym z naszych celów w tym roku jest większe zaangażowanie naszych społeczności poza fazą gromadzenia danych. Planujemy współtworzyć doświadczenia edukacyjne z członkami społeczności w zakresie wykorzystywania ich danych do opracowywania odpowiedzialnych zastosowań technologii mowy. Aby to osiągnąć, współpracujemy z Responsible Computing Challenge.

Chcemy również lepiej wspierać i umożliwiać naszej własnej społeczności open source współtworzenie platformy CV w celu zaspokojenia ich potrzeb. Tworzymy więcej przestrzeni do dyskusji na temat kierunku technicznego i tworzymy większą przejrzystość mapy drogowej dla informacji zwrotnych i współpracy. Jesteśmy również w trakcie audytu całej naszej publicznej dokumentacji technicznej, aby ułatwić zaangażowanie. Łączymy to z przeglądem naszych wewnętrznych procesów, zwiększając uwagę zespołu na PR, aby upewnić się, że zainteresowani współpracownicy otrzymają szybką informację zwrotną. Porozmawiaj z nami na Discourse, Matrix lub na GitHubie, aby pokierować nas we właściwym kierunku, abyśmy mogli zapewnić Ci odpowiednie wsparcie!

Badanie różnych partnerstw na rzecz zrównoważonego rozwoju

Common Voice jest przedsięwzięciem non-profit finansowanym poprzez dotacje i partnerstwa. Część każdej rocznej mapy drogowej obejmuje pracę nad zapewnieniem finansowania, które pozwoli Common Voice rozwijać się w sposób zrównoważony. W tym roku będziemy nadal badać trasy finansowania, które są zgodne z naszą misją. Jeśli chcesz wspierać nas bezpośrednio, z wdzięcznością przyjmujemy darowizny i możesz wysłać wiadomość e-mail na adres [email protected], aby porozmawiać z nami o dotacjach instytucjonalnych lub partnerstwach.