Ampliamente hablado en Ghana y otros países de África Occidental, el twi es la última incorporación al set de datos lingüísticos de código abierto, Common Voice.



El corpus Common Voice V10.0 ahora contiene cien idiomas y es el set de datos creado a través de crowdsourcing que tiene más diversidad lingüística en el mundo. El idioma más nuevo de la plataforma, el twi, es la lengua nativa y la segunda lengua de aproximadamente 18 millones de personas en Ghana, Benín y las regiones del sudeste de Costa de Marfil en África Occidental.

Este es un paso trascendental dentro de la misión de Common Voice de Mozilla para hacer que la tecnología de voz sea más inclusiva.

Estamos encantados de que el twi sea el idioma número 100 en Common Voice. El corazón de este proyecto está facilitando que las comunidades lingüísticas de todo el mundo aprovechen las posibilidades de la tecnología del habla, creando un ecosistema de IA más saludable y abierto.

EM Lewis-Jong, líder de productos de Common Voice

Según el Informe sobre el Estado de las Lenguas en Internet, la representación insignificante de las lenguas africanas en línea sigue reforzando una forma de imperialismo colonial: «La gran mayoría de las lenguas africanas no son compatibles como idioma de interfaz en ninguna de las plataformas que encuestamos, esto tiene como resultado que más del 90 % de los africanos deben cambiar a una segunda lengua —en muchos casos, una lengua colonial europea— para usar las plataformas». (El informe es producido por «Whose Knowledge?», el Oxford Internet Institute y el Centre for Internet and Society).

Es más, mientras que los idiomas africanos representan por lo menos un tercio de los idiomas hablados en todo el mundo, solo unos pocos productos son compatibles con ellos, a pesar de que la mayoría de estos idiomas existen en forma oral en lugar de escrita.

Cambiar esta situación es la meta que agrupa a varias personas motivadas que se dedican a la construcción de comunidades lingüísticas, como Daniel Agyeman, un colaborador de Common Voice. Esta iniciativa lo reconecta con su cultura: «Nací y crecí en el Reino Unido, pero soy de ascendencia ghanesa», dice. «Como ghanés viviendo en la diáspora, me atraen las actividades que me ayudan a conectarme con mi país de origen y específicamente a mejorar mis habilidades para hablar el twi. Actualmente, no he encontrado ningún uso del twi en las tecnologías de voz, por lo que me sentí muy emocionado con la posibilidad de crear un set de datos de voz para el idioma twi que se pueda usar para crear el primer sistema de reconocimiento de voz en twi».

Daniel ha hecho participar a familiares, amigos y otros ghaneses que viven en la diáspora para recopilar oraciones en twi y subirlas a la plataforma Common Voice. Hasta ahora, la comunidad del idioma twi ha reunido más de 40.000 oraciones de texto y actualmente está invitando a hablantes nativos o bilingües a contribuir con la iniciativa donando sus voces y validando las contribuciones de otros hablantes.

Gracias al apoyo de la Fundación Gates, NVIDIA y GIZ, la 11.ª versión del set de datos de Common Voice superará las 23.000 horas. Este set de datos comunitario se lleva a cabo gracias a la movilización comunitaria, con el apoyo de más de 400.000 voluntarios en todo el mundo.


Contenido relacionado