Demandez à OpenAI, Google et Microsoft d’être transparents sur les données utilisées pour entraîner leurs outils d’IA !

Les modèles d’IA générative sont entraînés sur des téraoctets de données récupérées sur Internet. L’une des sources de données d’entrainement les plus populaires est Common Crawl, une archive massive de données web créée par une petite organisation à but non lucratif. La dernière enquête de Mozilla montre que Common Crawl a contribué à rendre le développement d’IA générative plus transparent et plus compétitif, mais les créateurs d’IA doivent faire preuve de transparence sur la façon dont ils utilisent ces données, car elles reflètent les préjugés d’Internet et contiennent des contenus toxiques et dangereux. Pourtant, nous ne savons même pas si les grandes entreprises d’IA comme Microsoft, Google ou Meta utilisent Common Crawl pour entraîner leurs produits d’IA, et encore moins comment elles filtrent les contenus dangereux.

Créer des produits dignes de confiance basés sur l’IA nécessite de faire mieux que ça. Comme savoir de quelle façon l’IA est entraînée pour comprendre ses risques et ses limites mais surtout ce qu’il faut améliorer pour la rendre fiable et utile pour tous.

Signez la pétition de Mozilla pour demander à OpenAI, Google, Microsoft et Meta d’être transparents sur les données utilisées pour entraîner leurs outils d’IA !

* indique un champ obligatoire








Les modèles d’IA générative sont entraînés sur des téraoctets de données récupérées sur Internet. L’une des sources de données d’entrainement les plus populaires est Common Crawl, une archive massive de données web créée par une petite organisation à but non lucratif. La dernière enquête de Mozilla montre que Common Crawl a contribué à rendre le développement d’IA générative plus transparent et plus compétitif, mais les créateurs d’IA doivent faire preuve de transparence sur la façon dont ils utilisent ces données, car elles reflètent les préjugés d’Internet et contiennent des contenus toxiques et dangereux. Pourtant, nous ne savons même pas si les grandes entreprises d’IA comme Microsoft, Google ou Meta utilisent Common Crawl pour entraîner leurs produits d’IA, et encore moins comment elles filtrent les contenus dangereux.

Créer des produits dignes de confiance basés sur l’IA nécessite de faire mieux que ça. Comme savoir de quelle façon l’IA est entraînée pour comprendre ses risques et ses limites mais surtout ce qu’il faut améliorer pour la rendre fiable et utile pour tous.

Signez la pétition de Mozilla pour demander à OpenAI, Google, Microsoft et Meta d’être transparents sur les données utilisées pour entraîner leurs outils d’IA !