Kiswahili ni lugha inayozungumzwa zaidi barani Afrika na kipo miongoni mwa lugha 10 zinazozungumzwa zaidi ulimwenguni. Tayari kikiwa na wazungumzaji zaidi ya milioni 200, mvuto wa lugha hii huenda ukaongezeka, kufuatia Shirika la Umoja wa Mataifa la Elimu Sayansi na Utamaduni (UNESCO) kutangaza hivi karibuni tarehe 7 Julai kuwa siku ya lugha ya Kiswahili Duniani - lugha ya kwanza ya Kiafrika kutambuliwa kwa njia hii. Ingawa lugha inaendelea kukua kwa kasi, hadithi ya asili yake bado inajadiliwa sana na athari za kikoloni zinazojitokeza katika hadithi hii ya asili mara nyingi hazizingatiwi.

Kwa kuzingatia juhudi zetu za kuunda seti ya data ya Kiswahili kwenye Mozilla Common Voice, pamoja na kutoa mafunzo kwa miundo ya kiotomatiki ya utambuzi wa usemi wa lugha hii, tulijitahidi kushirikisha timu ya wanaisimu wa Kiswahili na wataalamu wa lugha. Kati ya Septemba na Novemba 2021, tuliandaa warsha ya “Ushirikiano wa Wanaisimu” tukitaka kuhoji iwapo tafiti za isimu katika lugha hii zimeratibu uanuwai wa wazungumzaji mbalimbali wa Kiswahili. Nia yetu kuu kutokana na mdahalo huu ilikuwa kujifunza ni mambo gani muhimu ya lugha ambayo tungehitaji kuzingatia ili kuhakikisha kazi yetu ni jumuishi na inayoweza kuhudumia anuwai iliyopo ya wazungumzaji wa Kiswahili. Ilitushangaza sana kwamba zaidi ya kubainisha lafudhi, lahaja na uanuwai wa lugha, historia ya ukoloni wa mwambao wa pwani ya Afrika Mashariki pamoja na historia ya Waswahili na lugha ya Kiswahili iliwasilisha mafunzo ya isimu-jamii ambayo sasa ni msingi wa jinsi tunavyotazama suala la ujenzi jumuishi wa seti ya data ya Kiswahili kwenye Common Voice.

Kuna hadithi kuu mbili za asili ya lugha ya Kiswahili.

Ya kwanza ni kwamba Kiswahili ni pijini au krioli, ya lugha za Kiarabu na Kibantu na kwamba kilichimbuka pale Waarabu walipokuja Afrika Mashariki (EA) kwa madhumuni ya biashara na kuanza kuingiliana na wenyeji, ambao walikuwa wazungumzaji wa Kibantu, katika karne ya 19. Kama mwandishi Francis Nesbitt anavyoandika:

Tafiti za kiisimu zinaonyesha kuwa hali za mawasiliano, ambapo jamii mbili za lugha huingiliana, husababisha kuibuka kwa pijini (rejista zilizorahisishwa) ambazo huruhusu vikundi viwili vya lugha tofauti kuwasiliana.

Zaidi ya nadharia hii, ni kwamba Kiswahili ni pijini au lugha chotara inayojumuisha lugha nyingine kadhaa; Kireno, Kihindi na Kiajemi, kwa kuwa hawa ni baadhi ya raia wengine ambao walikuwepo kwenye pwani ya Afrika Mashariki, wakati huo huo, kwa madhumuni ya biashara. Lugha hii ina idadi kubwa ya maneno yaliyokopwa, ambayo yanaunga mkono nadharia hii; ‘meza’, neno la Kiswahili la meza, lina asili ya Kireno na ‘chapati’ ni neno la Kiswahili lenye asili ya Kihindi.

Nadharia ya pili inaeleza kuwa neno 'Kiswahili' asili yake ni Kiarabu, wakati lugha yenyewe ni Kibantu. Kwamba Waarabu walipokuja Afrika Mashariki na kuwakuta wanaoishi huko, kando ya pwani, waliwaita 'Saheel', ambalo ni neno la 'pwani’ kwa Kiarabu, na kwamba baada ya muda neno hili lilibadilika na kuwa Kiswahili kwa lugha na Mswahili (Waswahili kwa wingi), kuwaashiria watu hao. Ushahidi wa Kiswahili kama lugha ya Kibantu ulianza tangu karne ya 2 AD katika hati iitwayo 'Periplus of Erythrean Sea' iliyoandikwa na mwandishi wa Kigiriki asiyejulikana jina lake ikielezea kupanuka mapema kwa ustaarabu wa Waswahili kuelekea Somalia, Kenya na Zanzibar.

Kiswahili Sanifu tunachokifahamu leo ​​hii kiliundwa kupitia usanifishaji wa lahaja ijulikanayo kwa jina la Kiunguja, ambayo asili yake ni Visiwa vya Zanzibar na Pemba vya Tanzania. Kiunguja ni mojawapo ya lahaja zaidi ya 23 za Kiswahili zinazojulikana. Katika kitabu cha ‘Machozi Yameniishia’, mshairi Mohammed Ghassani, anakosoa chaguo la Kiunguja kuwa msingi wa Kiswahili Sanifu, na waandishi na wasomi wengi wa Kiswahili wana maoni haya. Mchakato huo ulimilikiwa kikamilifu na mamlaka za kikoloni bila kuwashirikisha wazungumzaji asilia.

Katika kitabu chake ‘Decolonising the Mind: The Language of African Literature’, Ngugi wa Thiong’o anazungumzia ukweli kwamba lugha ni nyenzo muhimu, kwa mkoloni na kwa wenyeji. Mkoloni akiitumia kama silaha huku wenyeji wakiwa chombo, lugha inatumika kama bomu la kitamaduni, ambayo athari yake ni:

"Kuangamiza imani ya watu katika majina yao, lugha zao, mazingira yao, urithi wao wa mapambano, umoja wao, uwezo wao na hatimaye ndani yao wenyewe. Inawafanya waone maisha yao ya nyuma kama jangwa moja la kutofanikiwa na inawafanya kutaka kujitenga na eneo hilo tasa. Inawafanya kutaka kujihusisha na kile ambacho kimetolewa mbali nao, kwa mfano, na lugha za watu wengine badala ya lugha zao."

Juhudi za kusanifisha Kiswahili ziliendeshwa na makundi ya kimishonari. Kwa upande mmoja, wamishonari Wajerumani ambao walikuwa na hamu ya kutumia lahaja kutoka Mombasa (Kenya), Pate (Kenya) na Tanga (Tanzania), ambayo ni maeneo waliyokuwa wamekita kambi. Kwa upande mwingine, wamishonari wa Waingereza walikuwa na hamu ya kutumia Kiunguja kwa sababu ndiyo lugha iliyokuwa ikitumika walikokita kambi - Zanzibar na visiwa vya jirani, na kwa hiyo lugha/lahaja hii ilikuwa ile waliyoifahamu zaidi. Mnamo mwaka wa 1930, Kamati ya Kimaeneo ya Lugha ilichagua lahaja ya Kiswahili ya Kizanzibari, Kiunguja, kuwa chimbuko la Kiswahili Sanifu, uamuzi ulioshawishiwa na utawala wa kikoloni wa Waingereza katika maeneo ya Afrika Mashariki.

Ili kuhakikisha uenezaji wa Kiswahili Sanifu, Kamati ya Kimaeneo ya Lugha (Kiswahili) iliyoundwa na Wazungu pekee, iliidhinisha vitabu vya kufundishia lugha hiyo shuleni. Vitabu vya kiada viliandikwa na kuhakikiwa na Wazungu na kupitia hili, msamiati ulibadilika na baadhi ya maneno kufupishwa na maana yake kubadilika kabisa. Kwa hivyo, kadri lugha hii ilivyosanifishwa, ndivyo ilivyozidi kuyumba kutoka kile wazungumzaji asilia wa Kiswahili walichokijua kama Kiunguja. Wengine wanaona usanifishaji kama chombo, kwa mara nyingine tena kwa mkoloni, kuangamiza lahaja zingine. Matumizi yake na uenezaji uliokokotolewa shuleni ulisababisha kupungua kwa matumizi ya lahaja nyingine zinazohusiana na hali inayojulikana kama ‘Ukosefu wa Usalama kwa Lugha’. Wanaandika waandishi Wilma Bucci na Milton Baxter:

Ukosefu wa usalama kwa lugha ni taswira mbaya ya mzungumzaji kuhusiana na anuwai ya usemi au lugha yake. Inaweza kutokea ikiwa mzungumzaji atalinganisha sifa zake za fonetiki na kisintaksia za usemi na zile sifa zinazochukuliwa kuwa sahihi.

Baada ya uhuru, Kiswahili Sanifu kimeidhinishwa kwa kiasi kikubwa na wakazi wa maeneo husika. Kinatumika kama lugha ya taifa nchini Tanzania, Kenya, Jamhuri ya Kidemokrasia ya Kongo (DRC) na Uganda. Ni lugha rasmi ya Jumuiya ya Afrika Mashariki (EAC) pamoja na Jumuiya ya Maendeleo ya Kusini mwa Afrika (SADC). Nchini Tanzania, kinatumika kama njia ya kufundishia shuleni. Lugha hii imepata usaidizi mkubwa wa serikali katika eneo hili, haswa nchini Tanzania. Mojawapo wa mchango mkubwa wa Mwalimu Julius Nyerere, rais wa kwanza wa Tanzania, ilikuwa kushinikiza ukuaji wa Kiswahili Afrika Mashariki na Kati kwani aliamini kuwa kinaweza kukuza umoja wa Afrika, kama ilivyokuwa Tanzania. Wasomi wa Kiswahili Afrika Mashariki wanaendelea kukuza lugha kikamilifu huku idara za fasihi katika vyuo vikuu na mashirika ya utafiti yakiendelea kuchapisha matoleo mapya ya kamusi za Kiswahili. Vyombo vya lugha kama vile Baraza la Kiswahili la Taifa (BAKITA) nchini Tanzania na Chama cha Kiswahili cha Taifa (CHAKITA) nchini Kenya vina wajibu wa kukuza lugha ya Kiswahili na mashirika ya uchapishaji, hasa nchini Tanzania, yanachangia katika ukuaji wa kazi za fasihi.

Kutoka kwa wataalamu wa isimu na lugha, tunajifunza kwamba kujenga kwa kujitenga kama wanateknolojia, kama wasanidi programu na watafiti wa NLP, sio jambo sahihi. Iwapo tutaendelea bila kuzingatia kwa uangalifu, tunaweza kuwa katika hatari ya kuwatenga baadhi ya watu ambao rasilimali hizi za kidijitali zinapaswa kuwafaidi.

Ndani ya mradi wa Common Voice, kazi yetu inajumuisha uundaji wa seti ndogo za seti ya data ya Kiswahili ambazo zinawakilisha lahaja ndogo na lahaja nyingi zinazojumuisha Kiswahili Sanifu. Kusudi kuu la seti hizi ndogo ni kutuwezesha kutathmini kwa kiasi jinsi miundo yetu na programu za mkondo wa chini zinavyofanya kazi kwenye demografia zinazozungumza lahaja zinazohusiana na anuai.

Lugha ni ya kisiasa katika chimbuko lake, iliyounganishwa na muktadha wetu wa ukoloni, na kwa hivyo katika kujenga teknolojia kwa lugha zenye uwakilishi mdogo, lazima tufanye kazi kwa kutambua muktadha huu. Tunakusudia ukadiriaji huu wa upendeleo uwe mahali pa kuanzia, na ikiwa utendakazi kwa hakika umeshushwa hadhi kwa idadi fulani ya watu, tungependa kufanya kazi ili kuwezesha rasilimali zipatikane kwa wasanidi programu, ili kulingana na miktadha mahususi ya eneo wanayoundia programu, wawe na uwezo wa kurekebisha/kujanibisha ili kuboresha utendakazi pale inapobidi.

Kwa uandishi wa kina kuhusu “Ushirikiano wa Wanaisimu” na matokeo yanayofuatia, soma karatasi yetu, “Corpus Development of Kiswahili Speech Recognition Test and Evaluation sets, Preemptively Mitigating Demographic Bias Through Collaboration with Linguists”.