Pide a OpenAI, Google y Microsoft que sean transparentes sobre los datos que utilizaron para entrenar tus herramientas de IA.

Los modelos generativos de IA se entrenan con terabytes de datos de rastreo web provenientes de todo internet. Una de las fuentes más populares de datos para entrenamiento es Common Crawl, un archivo masivo de datos de rastreo web creada por una pequeña organización sin fines de lucro. La última investigación de Mozilla muestra que Common Crawl ha contribuido a que el desarrollo de la IA generativa sea más transparente y competitivo, pero los creadores de IA deben ser claros sobre cómo utilizan esos datos, ya que reflejan los sesgos de internet y contienen contenidos tóxicos y perjudiciales. A pesar de lo anterior, ni siquiera sabemos si las grandes empresas de IA como Microsoft, Google o Meta utilizan o no a Common Crawl para entrenar sus productos de IA, y mucho menos cómo depuraron el contenido perjudicial.

En la creación de productos de IA fiables hay mucho campo para mejorar. Necesitamos saber de la A a la Z cómo se entrena la IA para comprender sus riesgos y limitaciones y, lo que es más importante, qué debe mejorarse para que sea fiable y útil para todos los usuarios de internet.

Firma la petición de Mozilla y pide a OpenAI, Google, Microsoft y Meta que sean transparentes acerca de los datos que utilizaron para entrenar sus herramientas de IA.

* Indica un campo obligatorio








Los modelos generativos de IA se entrenan con terabytes de datos de rastreo web provenientes de todo internet. Una de las fuentes más populares de datos para entrenamiento es Common Crawl, un archivo masivo de datos de rastreo web creada por una pequeña organización sin fines de lucro. La última investigación de Mozilla muestra que Common Crawl ha contribuido a que el desarrollo de la IA generativa sea más transparente y competitivo, pero los creadores de IA deben ser claros sobre cómo utilizan esos datos, ya que reflejan los sesgos de internet y contienen contenidos tóxicos y perjudiciales. A pesar de lo anterior, ni siquiera sabemos si las grandes empresas de IA como Microsoft, Google o Meta utilizan o no a Common Crawl para entrenar sus productos de IA, y mucho menos cómo depuraron el contenido perjudicial.

En la creación de productos de IA fiables hay mucho campo para mejorar. Necesitamos saber de la A a la Z cómo se entrena la IA para comprender sus riesgos y limitaciones y, lo que es más importante, qué debe mejorarse para que sea fiable y útil para todos los usuarios de internet.

Firma la petición de Mozilla y pide a OpenAI, Google, Microsoft y Meta que sean transparentes acerca de los datos que utilizaron para entrenar sus herramientas de IA.