A Common Voice é uma comunidade global de colaboradores, usuários de dados, pesquisadores e entusiastas interessados que se reúnem para criar conjuntos de dados de texto e fala que podem impulsionar um ecossistema de dados mais inclusivo, aberto e saudável.

Queríamos criar mais espaço para a participação da comunidade enquanto construímos o futuro da Common Voice com você. Como parte disso, queríamos compartilhar nossas metas e roteiro para 2024 para feedback e discussão com a comunidade em geral.

Esta postagem no blog não detalha todo o trabalho que nossa pequena equipe faz — por exemplo, ainda estaremos corrigindo bugs, adicionando novos idiomas, respondendo a perguntas de suporte e fazendo todas as outras tarefas do dia a dia necessárias para manter a Common Voice saudável e funcionando. Mas também temos algumas expansões emocionantes em andamento! Elas estão agrupadas em três "temas de produto".

Para uma visão mais interativa deste roteiro, também organizaremos uma sessão de perguntas e respostas ao vivo com a equipe da Common Voice em 24 de abril de 2024. O cadastro gratuito está disponível por meio deste formulário.

Um roteiro mostrando os projetos em que a equipe da Common Voice se concentrará este ano. O texto a seguir detalha esses projetos com mais detalhes.

Linguagem como é vivida: Variantes, alternância linguística e fala espontânea

Queremos capturar a diversidade e as nuances da fala das pessoas. Este ano, lançaremos suporte para alternância linguística (2 idiomas em 1 conjunto de dados) e socioletos (variantes de um idioma usado por um grupo social). Ambos estarão inicialmente disponíveis através da nossa segunda plataforma; Common Voice: Spontaneous Speech (Fala Espontânea). O CVSS está atualmente em teste Alpha, mas será lançado em Beta no início do terceiro trimestre, com apenas 3 idiomas para começar.

Centralizando novamente o texto como um ativo de dados: Frases impulsionadas por consentimento e qualidade

Temos nos concentrado em melhorar a saúde de nossos acervos textuais. No ano passado, migramos a coleta de sentenças para a plataforma Common Voice, o que resultou em um aumento de 100% na taxa de idiomas que assimilam novas sentenças e um aumento de 300% em pessoas que se tornam contribuintes de sentenças. Este ano, já trabalhamos para incluir nosso corpus textual em nossos conjuntos de dados e trabalharemos em breve para mover os processos de qualidade e garantia de nossas frases para a plataforma Common Voice. Isso tornará mais rápido e fácil o crescimento do corpus textual com contribuições de alta qualidade em todos os idiomas. Também faremos a prototipagem de algumas ferramentas de "comentário" humanas que podem ser úteis para outros profissionais de AM (aprendizado de máquina).

Diversificação de caminhos de governança para inovação e sustentabilidade mais equitativas

O Data Futures Lab é um espaço experimental para instigar novas abordagens aos desafios de gerenciamento de dados, também parte da Fundação Mozilla.

Estaremos trabalhando em uma colaboração com a DFL para explorar como a plataforma Common Voice pode ser capaz de apoiar projetos de coleta de dados liderados pela comunidade com diferentes estruturas de governança e licenciamento. Estamos comprometidos com o bem que o código aberto faz no mundo e não estamos fazendo nenhuma alteração nas licenças dos conjuntos de dados existentes, mas queremos ouvir comunidades com diferentes perspectivas e fazer uma jornada de aprendizado com elas. Compartilharemos nossas reflexões e manteremos espaço para discussão em 2025.

Revigorando nossas comunidades técnicas e de código aberto

Um dos nossos objetivos este ano é nos envolvermos mais com nossas comunidades além da fase de coleta de dados de sua jornada. Estamos planejando colaborar com membros da comunidade para criar experiências de aprendizado sobre como usar seus dados para desenvolver aplicações de tecnologia de fala responsáveis. Para conseguir isso, estamos fazendo uma parceria com o Responsible Computing Challenge.

Além disso, queremos fornecer um suporte mais eficaz e capacitar nossa própria comunidade de código aberto para colaborar na criação da plataforma Common Voice e satisfazer suas necessidades. Estamos criando mais espaço para discussão em torno da direção técnica e criando mais transparência no roteiro para feedback e colaboração. Também estamos no processo de auditar toda a nossa documentação técnica pública para facilitar o envolvimento. Estamos combinando isso com uma revisão de nossos processos internos, aumentando a atenção da equipe para os PRs para garantir que os colaboradores interessados recebam feedback imediato. Converse conosco no Discourse, Matrix ou no GitHub para nos orientar na direção certa para apoiá-lo!

Explorando diferentes parcerias para a sustentabilidade

A Common Voice é um esforço sem fins lucrativos e é financiado por meio de subsídios e parcerias. Parte de cada roteiro anual inclui o trabalho para garantir o financiamento que permite que a Common Voice cresça de forma sustentável. Este ano, continuaremos a explorar rotas de financiamento que se alinham com nossa missão. Se você quiser nos apoiar diretamente, as doações são aceitas com gratidão, e você pode enviar um e-mail para [email protected] para falar conosco sobre subsídios institucionais ou parcerias.