Prefacio: Este artículo de opinión incluye un glosario de términos para explicar las frases utilizadas y ayudarte a comprender el contenido. Si el análisis interdisciplinario de la tecnología, la lengua y el poder es algo nuevo para ti, te animo a que consultes el glosario.

Si no mantenemos amistades críticas, imponemos la liberación. ¿A quién pertenecen las palabras y los idiomas que priorizamos al trabajar en pos de una IA confiable?

A finales de febrero, la organización «Whose Knowledge?», el «Centre for Internet & Society» (India) y el «Oxford Internet Institute» publicaron el Informe sobre el Estado de las Lenguas en Internet (STIL, por sus siglas en inglés). Durante mi trabajo de revisión del informe, tuve sentimientos reconfortantes al ver las historias de las comunidades lingüísticas presentadas de manera honorable y en sus idiomas maternos.

El informe STIL cuestiona el funcionamiento del poder en el proceso de inclusión y exclusión de los idiomas y las lenguas de signos en Internet. Los colaboradores del informe STIL analizan los aspectos excluyentes de la inequidad lingüística en línea: desde el latincentrismo de UNICODE hasta la marginación de lo cuir/queer y la discapacidad en los motores de búsqueda y la falta de representación y contexto sociolingüístico en el desarrollo de herramientas, datos y software.

Escucha a Ishan compartiendo su experiencia en el lanzamiento del Informe sobre el Estado de las Lenguas en Internet (A partir del minuto 31:44)

Lanzamiento del Informe sobre el Estado de las Lenguas en Internet

El informe también proporciona una imagen cuantitativa de las desigualdades lingüísticas en las plataformas con las que interactúan las personas en todo el mundo. Los análisis que más me llamaron la atención fueron:

  • «Más del 90 % de los africanos necesitan cambiar a un segundo idioma para poder utilizar la plataforma, lo que para muchos significa utilizar un idioma europeo-colonial».
  • «Entre los 10 idiomas más hablados, el hindi y el bengalí suelen contar con menos apoyo que los demás, a pesar de representar colectivamente una importante población de alrededor de mil millones de personas».
  • «Incluso dentro de regiones lingüísticas ampliamente representadas, la diferencia entre las lenguas de Europa del Este y otras lenguas europeasindica la existencia de una marginación potencial incluso dentro de regiones relativamente bien apoyadas».

Las estadísticas resuenan fuertemente en la aplicación y el uso de tecnologías de voz para lenguas minoritarias, como lo demuestra la contribución de Claudia al informe STIL. Antes de comenzar a hablar de si Alexa o Siri trabajan con un idioma, «¿hay un teclado para escribir con los caracteres de losidiomas? Por no hablar de tecnologías más avanzadas, como la traducción automática» (Claudia, STIL).

El desarrollo de la tecnología de voz depende en gran medida de tener acceso a medios digitales, de tener poder de procesamiento informático y de contar con un entendimiento sociolingüístico que permita construir aplicaciones de voz que funcionen para las personas. Por ejemplo, para apoyar la creación de un corpus de texto para el set de datos de Common Voice, bajo uso legítimo, algunos idiomas han utilizado el corpus de Wikipedia a través de nuestro Sentence Scraper.

El proyecto Common Voice de Mozilla es una de las numerosas iniciativas para apoyar la diversidad lingüística en las tecnologías digitales. Nuestro set de datos obtenido por crowdsourcing está hecho por personas reales, cuyas experiencias son a menudo similares a las historias y análisis del informe STIL. Por ejemplo, nuestros colegas hablantes de suajili y kinyarwanda para Common Voice han compartido la importancia de crear herramientas de habla que eliminen la dependencia de los idiomas coloniales para los hablantes.

Considero que el Informe sobre el Estado de las Lenguas en Internet es una invitación a la amistad crítica. En las comunidades de práctica, los «amigos críticos» son personas que tienen la capacidad para criticar de forma abierta o «ejecutiva» las normas, prácticas o comportamientos comunes que ocurren dentro de una comunidad . Las amistades críticas son los aspectos relacionales entre dos o más personas o grupos que mantienen una comunicación honesta y son capaces de aprender unos de otros.

Los sets de datos son algo más que artefactos para crear modelos de aprendizaje automático, también cuantifican nuestros medios de vida; por ese motivo, todos tenemos un interés en participar en la creación, aplicación y mantenimiento de sets de datos como Common Voice.

Pienso en el análisis de Claudia sobre la forma en que se hacen las provisiones de tecnología para las comunidades lingüísticas marginadas:

«de arriba hacia abajo, por grandes empresas, con poca o ninguna participación de las comunidades de hablantes. En este caso, también se puede detectar un enfoque condescendiente: como se tiene muy poco, se da por hecho que todo lo que se proporcione será bienvenido y recibido como algo bueno.»

Claudia Soria, Descolonizando las tecnologías de las lenguas minoritarias, Informe sobre el Estado de las Lenguas en Internet 2022

Esto no debería ser lo habitual: la norma debería ser el consentimiento, los recursos y la autonomía genuina.

Quiero animarlos a que lean y examinen el Informe sobre el Estado de las Lenguas en Internet. Al final del resumen del informe, los escritores hablan de acciones específicas con las que se puede trabajar para lograr el equilibrio de poder en las desigualdades del lenguaje digital. Desde proyectos de código abierto hasta gobiernos y editores, todos podemos ser agentes del cambio, pero ¿a qué cambios debemos dirigirno y cómo podemos hacerlo?

Intenta absorber cada sílaba y cada palabra del informe, como sigo haciéndolo yo. El trayecto hacia una internet saludable no es una carrera de velocidad sino una maratón. Además no la corres solo(a).

Glosario

UNICODE

«El estándar Unicode proporciona un número único para cada caracter, sin importar la plataforma, el dispositivo, la aplicación o el idioma utilizados. Como en esencia los ordenadores tratan con números, puedes pensar en ceros y unos, 0 y 1. UNICODE ha sido adoptado por todos los proveedores de software modernos y permite transportar datos a través de numerosas plataformas, dispositivos y aplicaciones diferentes sin sufrir daños» (UNICODE)

Sociolingüística

«La sociolingüística tiene como objetivo el estudio de los efectos del uso del lenguaje en las sociedades y los efectos recíprocos de la organización social y los contextos sociales en el uso del lenguaje»(Mallison, 2015).

Idiomas de «bajos y altos» recursos

Los términos «idiomas de bajos recursos» e «idiomas de altos recursos» son expresiones cuestionadas. En general, se refieren a la escala con la que se dispone de datos para las tareas de procesamiento del lenguaje natural. La disponibilidad también se refiere al proceso de acceso a los datos. Por ejemplo: ¿Las herramientas como los motores de búsqueda son capaces de encontrar los datos en primer lugar? Definición inspirada en una lectura de «Endangered Languages are not Low-Resourced!, Mika Hämäläinen»

Marginación

El proceso de construir y reforzar procesos y prácticas estructurales que excluyen y quitan poder a las personas y comunidades para expresar o inhibir sus experiencias humanas. Los idiomas son «marginados por estructuras y procesos tanto históricos como actuales de poder y privilegio, que incluyen la colonización y el capitalismo, y no por la población o la cantidad de hablantes» (STIL, Definiciones)

PD: El Informe sobre el Estado de las Lenguas en Internet también incluye definiciones que ayudan a explorar el informe.


Contenido relacionado