Exija da OpenAI, Google e Microsoft: sejam transparentes sobre os dados usados para treinar suas ferramentas de IA.

Os modelos de IA generativa são treinados com terabytes de dados coletados de toda a internet. Uma das fontes mais populares desses dados é o gigantesco arquivo de dados da Common Crawl, uma pequena organização sem fins lucrativos. A investigação mais recente da Mozilla mostra que a Common Crawl fez com que o desenvolvimento de IA generativa fosse mais transparente e competitivo. Mas os criadores de IA também precisam ser transparentes e informar como usam esses dados, pois eles refletem os preconceitos da internet e contêm conteúdo tóxico e prejudicial. No entanto, as grandes empresas de IA, como Microsoft, Google ou Meta, sequer informam se estão usando a Common Crawl para treinar seus produtos de IA, muito menos como removeram o conteúdo nocivo.

Quando se trata de desenvolver produtos de IA confiáveis, é possível fazer melhor. Precisamos conhecer todos os aspectos de como a IA é treinada, para entendermos seus riscos e limitações e, o mais importante, o que precisa ser aprimorado para torná-la confiável e útil para todos na internet.

Assine a petição da Mozilla e exija que a OpenAI, Google, Microsoft e Meta sejam transparentes sobre os dados usados para treinar suas ferramentas de IA!

* indica um campo obrigatório








Os modelos de IA generativa são treinados com terabytes de dados coletados de toda a internet. Uma das fontes mais populares desses dados é o gigantesco arquivo de dados da Common Crawl, uma pequena organização sem fins lucrativos. A investigação mais recente da Mozilla mostra que a Common Crawl fez com que o desenvolvimento de IA generativa fosse mais transparente e competitivo. Mas os criadores de IA também precisam ser transparentes e informar como usam esses dados, pois eles refletem os preconceitos da internet e contêm conteúdo tóxico e prejudicial. No entanto, as grandes empresas de IA, como Microsoft, Google ou Meta, sequer informam se estão usando a Common Crawl para treinar seus produtos de IA, muito menos como removeram o conteúdo nocivo.

Quando se trata de desenvolver produtos de IA confiáveis, é possível fazer melhor. Precisamos conhecer todos os aspectos de como a IA é treinada, para entendermos seus riscos e limitações e, o mais importante, o que precisa ser aprimorado para torná-la confiável e útil para todos na internet.

Assine a petição da Mozilla e exija que a OpenAI, Google, Microsoft e Meta sejam transparentes sobre os dados usados para treinar suas ferramentas de IA!