在南非約翰內斯堡 Rosebank 社區的一個共享辦公空間內,傑德·阿博特(Jade Abbott)打開了一個網頁,向 ChatGPT 輸入提示,要求它用祖魯語(isiZulu)從 1 數到 10。在她的祖國南非,有超過 1000 萬人使用這種語言。計算機科學家兼研究員阿博特表示,結果「好壞參半且令人捧腹」。
(來源:COURTESY OF LELAPA AI)
之後她又用祖魯語的文字輸入了幾個句子,並要求聊天機器人將它們翻譯成英語。ChatGPT 給出的答案跟正確答案毫無關係。儘管在沒有太多可用於訓練的數據的情況下,人們一直在努力將一些小語種納入人工智慧模型中,但對阿博特來說,這些結果表明該技術「實際上仍然無法獲取我們的語言」。
阿博特的經歷反映了不會說英語的非洲人所面臨的情況,包括 ChatGPT 在內的許多語言模型對於使用人數較少的語言(尤其是非洲語言)表現不佳。但阿博特和生物醫學工程師佩羅諾米·莫伊洛亞(Pelonomi Moiloa)共同成立了一家名為 Lelapa AI 的新公司,該公司正嘗試利用機器學習來創建專門為非洲人服務的工具。
Vulavula 是 Lelapa 公司近日發布的一款新人工智慧工具,可將語音轉換為文本,並檢測書面文本中的人名和地名。這對於總結文檔或在線搜索某人可能很有用。目前,它可以識別南非使用的四種語言:祖魯語、南非語(Afrikaans)、塞索托語(Sesotho)和英語,並且該團隊正在努力將非洲各地的其他語言納入其中。
該工具可以單獨使用,也可以集成到 ChatGPT 和在線對話聊天機器人等現有人工智慧工具中。該團隊希望 Vulavula(在聰加語中的意思是「說話」)將使那些目前不支持非洲語言的工具變得支持一部分非洲語言。
Lelapa AI 執行長兼聯合創始人莫伊洛亞表示,缺乏適用於非洲語言並識別非洲人名和地點的人工智慧工具,使非洲人民無法獲得經濟機會。對她來說,致力於構建以非洲為中心的人工智慧解決方案,這是幫助非洲人民利用人工智慧技術抓住巨大潛在優勢的一種方式。 「我們正在努力解決真正的問題,並將權力重新交到我們的人民手中,」她說。
「我們等不及他們了」
世界上有成千上萬種語言,其中僅非洲就有 1000 到 2000 種語言。據估計,非洲大陸的本土語言占世界語言的三分之一。儘管以英語為母語的人僅占全球人口的 5%,但英語顯然在網際網路上占據主導地位,而且現在也開始在人工智慧工具中占據主導地位。
糾正這種不平衡狀況的一些努力已經存在,比如 OpenAI 的 GPT-4 已包含冰島語等小語種。2020 年 2 月,谷歌翻譯開始支持約 7500 萬人使用的五種新語言。但非洲人工智慧研究人員表示,翻譯質量很差,該工具經常把非洲語言弄錯,距離準確地通過數字化方式表達非洲語言還有很長的路要走。
2023 年早些時候,在盧安達基加利舉行的非洲頂級人工智慧會議上,衣索比亞計算機科學家阿斯梅拉什·特卡·哈德古(Asmelash Teka Hadgu)與阿博特使用 ChatGPT 進行了相同的實驗。
當他用母語提格雷尼亞語向聊天機器人提問時,得到的答案都是亂碼。「它生成的單詞沒有任何意義。」 哈德古說。他是 Lesan 的聯合創始人,Lesan 是一家總部位於德國柏林的人工智慧初創公司,正在開發衣索比亞語言的翻譯工具。
Lelapa AI 和 Lesan 只是開發非洲語言語音識別工具的兩家初創公司。2023 年 2 月,Lelapa AI 籌集了 250 萬美元的種子資金,該公司計劃在 2025 年進行下一輪融資。
但非洲企業家表示,他們面臨許多重大障礙,包括缺乏資金、接觸投資者的機會有限以及訓練人工智慧學習多種非洲語言方面的困難。 「在非洲科技初創公司中,人工智慧獲得的資金最少。」AJALA 的創始人阿巴克·阿登勒(Abake Adenle)說道,AJALA 是一家總部位於倫敦的初創公司,為非洲語言提供語音自動化服務。
哈德古表示,由於潛在市場規模小、缺乏政治支持以及網際網路基礎設施薄弱,致力於開發支持非洲語言產品的人工智慧初創公司經常被投資者忽視。然而,哈德古表示,包括 Lesan、GhanaNLP 和 Lelapa AI 在內的非洲小型初創公司正在發揮重要作用。「大型科技公司還沒精力關注我們的語言。」他說,「但我們不能指望他們。」
非洲人工智慧的典範
Lelapa AI 人工智慧團隊的數據科學家武科西·馬里瓦特(Vukosi Marivate)表示,該公司正試圖為非洲的人工智慧模型創建一個新的範式。Lelapa AI 不像西方公司那樣單獨利用從網際網路收集的數據來訓練模型,而是與語言學家和當地社區進行線上和線下合作,收集數據、對其進行注釋,並識別該工具可能存在問題的用例 。
Lelapa AI 的自然語言處理研究員博納文圖爾·多索(Bonaventure Dossou) 表示,與語言學家合作使他們能夠開發出一種針對特定情境且與文化相關的模型。 「嵌入文化敏感性和語言觀點可以使技術系統變得更好。」多索說。例如,Lelapa AI 團隊構建了針對特定語言的情緒和語氣分析算法。
馬里瓦特和他在 Lelapa AI 的同事設想了一個人工智慧技術為非洲人服務並代表非洲人的未來。 2019 年,馬里瓦特和阿博特創立了 Masakhane,這是一項所謂的「草根倡議(grassroots initiative)」,旨在促進非洲語言的自然語言研究。該倡議現在有數千名志願者、程式設計師和研究人員共同努力構建以非洲為中心的自然語言模型。
馬里瓦特表示,Vulavula 和其他人工智慧工具是非洲人為非洲人打造的,這一點很重要:「我們是我們自己語言的守護者。我們應該成為適用於我們語言的技術的構建者。」
支持:Ren