Data Futures Lab dá as boas-vindas aos premiados do 2024 Infrastructure Fund

(QUARTA-FEIRA, 13 DE MARÇO DE 2024) — Hoje, a Mozilla está anunciando seus premiados do 2024 Data Futures Lab Infrastructure Fund: cinco projetos ambiciosos que criam ferramentas que abordam questões de transparência, privacidade, preconceito e autonomia no ciclo de vida dos dados.

Cada um desses projetos receberá até US$ 50.000, além de apoio e treinamento da equipe e dos bolsistas da Mozilla. A Mozilla lançou uma convocação aberta para premiados em julho de 2023 e recebeu mais de 250 inscrições de 54 países.

Como um espaço experimental para criadores que trabalham em prol de uma economia de dados mais justa, o Data Futures Lab é o lugar perfeito para esses projetos construírem e lançarem ferramentas e métodos que podem ser aproveitados pelos desenvolvedores. Todos os projetos disponibilizarão seu código em um repositório público.

Diz Lisa Gutermuth, Diretora de Programas do Data Futures Lab: “O grupo deste ano do Fundo de Infraestrutura apresenta uma mistura eclética de especialidades — que é exatamente o que precisamos para mudar o ecossistema de dados em uma direção nova e melhor. A Mozilla está financiando pesquisadores e empreendedores, programadores, ativistas e comunidades que trabalham com voz, texto e dados sintéticos no que se refere à IA confiável”.

Esses projetos se juntarão à rede existente de premiados e bolsistas da Mozilla que buscam um ecossistema de dados mais equitativo — como o premiado da Mozilla Technology Fund, Evaluation Harness, uma ferramenta de código aberto para avaliar grandes modelos de linguagem, e a ex-aluna da Trustworthy AI, Bogdana Rakova, que está explorando o uso de contratos computacionais para permitir novos modos de interação entre pessoas e empresas de tecnologia de consumo.

O grupo do Fundo de Infraestrutura deste ano apresenta uma mistura eclética de conhecimentos — que é exatamente o que precisamos para mudar o ecossistema de dados em uma direção nova e melhor.

Lisa Gutermuth, Diretora de Programas, Data Futures Lab

Saiba mais sobre os projetos:

Iniciativa de Procedência de Dados: mapeando a procedência de conjuntos de dados populares

EUA

Avanços recentes na modelagem de linguagem são alimentados por grandes coleções de conjuntos de dados de linguagem natural. Isso desencadeou uma corrida armamentista para treinar modelos em coleções díspares de dados incorretos, ambíguos ou mal documentados que deixaram os profissionais inseguros sobre os riscos éticos e legais. Para resolver isso, a Iniciativa de Procedência de Dados criou um mapeamento de mais de 2.000 conjuntos de dados populares de texto para texto, desde a origem até a criação, catalogando suas fontes de dados, licenças, criadores e outros metadados, para pesquisadores e desenvolvedores explorarem usando esta ferramenta. O objetivo deste trabalho é melhorar a transparência, a documentação e o uso informado de conjuntos de dados em IA.

Veja a gravação da apresentação como parte da Série de Palestrantes da DFL em janeiro de 2024.

Imperial College London: identificando o risco de privacidade em dados sintéticos gerados por IA

Reino Unido

O Computational Privacy Group do Imperial College London se baseará em sua pesquisa inicial sobre a detecção de risco de privacidade em conjuntos de dados sintéticos gerados por IA e publicará um kit de ferramentas de código aberto que permite que os criadores avaliem o risco de privacidade dos dados sintéticos gerados por IA antes de liberá-los. A iniciativa é intitulada "Não deixando ninguém para trás: uma ferramenta para sinalizar o risco de privacidade em dados sintéticos gerados por IA".

Fundación Vía Libre: detectando comportamentos discriminatórios em IA

Argentina

A Fundación Vía Libre se baseará em seu conjunto de ferramentas existente, EDIA (abreviação em espanhol de "Estereótipos e Discriminação em Inteligência Artificial"), que inspeciona os principais componentes das tecnologias de processamento automático de linguagem para detectar e caracterizar comportamentos discriminatórios. Especificamente, eles usarão métodos centrados na comunidade para construir um conjunto de dados de linguagem que represente estereótipos na Argentina; publicar bibliotecas de programação para integrar o conjunto de dados em processos de auditoria para instituições públicas e privadas que usam modelos de linguagem; e publicar conteúdo estruturado e materiais de ensino para que outros possam replicar seus métodos para outras línguas e contextos.

Veja a gravação da apresentação em uma Chamada da Comunidade da DFL em julho de 2023

Laboratório de Direito em Ciência de Dados: projetando uma licença de dados mais responsável

África do Sul

O Laboratório de Direito em Ciência de Dados da Universidade de Pretória realizará pesquisas que abordam as deficiências do uso de licenças Creative Commons em certos contextos (como o reforço de práticas extrativas e o colonialismo digital) e criará um protótipo para uma nova licença de dados com base em suas descobertas.

Inscreva-se para a palestra como parte daSérie de Palestrantes da DFL, que está em andamento até o primeiro semestre de 2024 e explora o uso justo e a transparência no ecossistema generativo de dados de IA.

Iniciativa FLAIR (First Languages AI Reality): criação de conjuntos de dados centrados na comunidade

EUA (comunidades indígenas)

FLAIR trabalhará com uma comunidade de línguas indígenas usando seu software e metodologia para coletar os dados de corpus necessários para desenvolver o Reconhecimento Automático de Fala (ASR) para a língua da comunidade, minimizando a carga sobre os falantes atuais. Dada a limitação da disponibilidade de dados da língua indígena e dos falantes, eles empregarão um método que usa entradas mínimas (cerca de 500 frases) como estímulos. Eles publicarão o código-fonte e um manual de metodologia que visa permitir que outras comunidades de línguas indígenas revitalizem suas línguas de forma mais rápida e eficaz, usando seus próprios dados e em seus próprios termos.

Contato com a imprensa: Kevin Zawacki | [email protected]