新加坡超級應用程式平台 Grab 公開表示,商業化大型語言模型在處理亞洲語言時表現不佳。Grab 最終決定自行開發視覺語言模型,專門用於辨識東南亞各國證件與檔案上的文字資訊。這個決定反映出全球 AI 技術發展的一個重要缺口,現有主流模型對非拉丁語系的支援嚴重不足,促使區域企業走向自主開發道路。
Grab 營運範圍橫跨新加坡、馬來西亞、印尼、菲律賓、越南、泰國、柬埔寨和緬甸等 8 個國家,提供叫車、外賣、購物及金融服務。這些國家使用的文字系統均非英語所用的拉丁字母,包括泰文、越南文、印尼文等多種語言。Grab 工程團隊在官方技術網誌中說明,因業務需要精確提取身份證、駕駛執照和登記證明等檔案資訊,以完成客戶身份驗證等合規要求。團隊最初嘗試使用光學字元辨識系統,但發現該技術難以應付各式各樣的檔案範本格式。
隨後 Grab 測試了大型語言模型的可行性,工程團隊指出,雖然功能強大的商業化大型語言模型是一個選項,但這些模型在理解東南亞語言方面往往表現不足,會產生錯誤、出現幻覺問題,而且回應延遲時間過長。另一方面,開源視覺語言模型雖然效率較高,但準確度不足以應用於實際生產環境。評估過後 Grab 決定自行建立視覺語言模型。
團隊評估了多個具備光學字元辨識和關鍵資訊提取能力的大型語言模型後,最終選擇阿里雲的 Qwen2-VL 2B 作為基礎。選擇理由包括:模型規模夠小,可在有限記憶體資源的圖形處理器上進行完整微調;支援東南亞語言,其分詞器對泰文和越南文等語言效率良好,顯示具備相當的本地詞彙覆蓋率;具備動態解像度功能,不像其他需要固定尺寸圖像輸入的模型,Qwen2-VL 能處理原始解像度的圖像,對光學字元辨識任務極為重要,因為這能防止圖像縮放或裁切時文字字元變形失真。
為建立自己的模型,Grab 從 Common Crawl 開放資料集中提取東南亞語言內容。Common Crawl 是一個從網絡爬取的開放資料收集。團隊接著建立內部合成資料管線,透過以各種字型、背景和增強效果渲染東南亞文字內容來生成文字圖像。團隊使用 Qwen2VL 和低秩適應技術來微調視覺語言模型。他們發現這項技術相當有效率,因為允許以輕量級方式更新模型參數,將對大量運算資源的需求降到最低。
團隊在精心整理的檔案資料上訓練模型,這些資料包含多種語言的各類檔案範本。對於使用拉丁字母的檔案,效能表現令人滿意。經過低秩適應微調的 Qwen2VL-2B 在印尼檔案上達到很高的欄位級別準確度。不過泰文和越南文仍然難以辨識,結構不規則且文字密集細小的檔案也是如此。
進一步實驗顯示,現有視覺語言模型在視覺編碼器和聯合訓練階段缺乏東南亞語言的視覺文字資料。Grab 團隊因此決定對模型進行全參數微調。團隊首先使用為印尼語、泰語、越南語和英語建立的合成光學字元辨識資料集訓練模型的視覺元件,協助模型學習東南亞文字的獨特視覺模式。接下來進行全參數微調,用任務專屬檔案資料精煉模型的所有元件。
Grab 認為產生的模型相當成功,但承認微調過程將圖形處理器推向極限。為改善資源使用並建立完全符合需求的模型,團隊決定從零開始建立輕量級視覺語言模型,參數量約為 10 億個。Grab 在文章中說明建立模型的流程和結果,效能表現優於光學字元辨識工具、Qwen2、ChatGPT 和 Google 的 Gemini。
Grab 總結指出,以高品質資料進行策略性訓練,能讓較小的專門化模型達到顯著的效率和效能。Grab 現正計劃開發更多自有模型。團隊正在開發基於思維鏈的光學字元辨識和關鍵資訊提取模型,目標是強化泛化能力並處理更多元的檔案場景。公司也將把先進檔案處理技術延伸至緬甸、柬埔寨和其他地區。
企業應用與商業價值
Grab 經驗與業界對企業人工智能未來的預測一致,許多組織將開發自己的模型來處理通用模型無法勝任的專門任務。這種趨勢在 2025 年已經相當明確,反映出垂直領域人工智能的興起。
對於在東南亞營運或服務多語言市場的企業而言,這個案例提供了重要啟示。首先商業化人工智能解決方案雖然功能強大,但未必適合所有語言環境和業務場景。企業需要評估現有工具對自身特定語言和檔案類型的支援程度。其次開源模型提供了可行的起點。Grab 選擇 Alibaba Cloud 的 Qwen2-VL 2B 作為基礎,而非從零開始,大幅降低開發門檻。企業可以採用類似策略,在開源基礎上針對自身需求進行微調。
檔案處理自動化帶來的商業價值顯而易見,在合規性要求嚴格的行業,如金融服務、運輸物流和醫療保健領域,能準確快速地提取和驗證檔案資訊直接影響營運效率。人工輸入不僅耗時且容易出錯,自動化系統可大幅減少人力成本並提高準確度。對於處理大量跨國檔案的企業,投資開發專門的語言模型可能帶來長期回報。
區域語言人工智能模型的發展也反映出更廣泛的技術自主趨勢,新加坡政府在 2025 年 5 月推出升級版 MERaLiON 大型語言模型,將語言支援從原本的英語、中文和新加坡式英語擴展到馬來語、越南語、泰語、泰米爾語、印尼語,以及未來版本將包含的中文方言。該模型目標是服務約 4.5 億主要使用這些語言的人群。新加坡政府更成立聯盟,由科技研究局與 DBS Bank、Grab、ST Engineering、NCS、SPH Media Trust 及衛生部合作,冀能分享學習成果並加速採用。
東南亞其他語言模型項目也陸續出現,AI Singapore 的 SEA-LION 系列模型支援 11 種東南亞語言,包括英語、中文、印尼語、越南語、馬來語、泰語、緬甸語、寮語、菲律賓語、泰米爾語和高棉語。Alibaba DAMO Academy 的 SeaLLM 和 SEA AI Lab 與新加坡科技設計大學合作的 Sailor 模型也提供類似的語言支援。這些項目共同解決了所謂「低資源語言」的問題,即缺乏高品質、完善標註資料的語言,這些語言可能也面臨資金、基礎設施或語言專業知識不足的問題。
卡內基國際和平基金會的研究報告指出,目前 40% 大型語言模型由美國公司生產,多數以英語訓練,至少有一家公司自我報告存在西方和英語語言偏見。東南亞特定模型的出現是該區域在人工智能生態系統中爭取代理權的表現,而這個生態系統原本由其他國家的語言、世界觀和資源主導。
對企業決策者而言,關鍵問題在於何時該採購現成解決方案,何時該投資自建系統。產業專家建議採用 80/20 原則作為起點,80% 使用現成平台處理標準或商品化任務,如客戶服務機械人或基本異常偵測,保留 20% 資源用於自建進階預測模型、專門生成式人工智能或深度整合的工作流程。不過這個比例並非絕對,某些產業可能偏向 70/30 或 90/10,取決於合規壓力、既有基礎設施和長期願景。
光學字元辨識和亞洲語言處理的技術挑戰確實存在,研究顯示南亞圓形文字的準確度明顯落後於拉丁字母文字。中文、日文和韓文等語言使用包含數千個獨特字元的複雜字元集,亞洲語言通常具有更複雜的文字系統,包括表意文字或代表概念的字元,以及更複雜的字元組合和定位規則。這些因素使光學字元辨識技術更難準確辨識和解釋這些語言的文字。
多語言光學字元辨識解決方案必須使用進階演算法分析檔案的文字和字元集,以提高準確度並確保正確提取資料。現代人工智能驅動的光學字元辨識系統利用機器學習和深度學習技術,現在能處理各種字型、手寫字和多種語言。整合自動語言偵測機制,如 langdetect 或 fastText 程式庫,能確保多語言檔案的無縫處理。
未來趨勢與展望
企業人工智能發展正朝向幾個明確方向前進,首先是代理式人工智能的興起,這些是能設定自己的子目標並半自主行動的人工智能系統。Deloitte 預測,到 2025 年,25% 使用生成式人工智能的公司將試點此類自主代理,到 2027 年這個比例將增倍至 50%。隨著系統變得更智能,這些系統承諾帶來巨大的生產力提升,但也帶來治理挑戰。
生成式人工智能將繼續嵌入商業工具,預計到 2027 年,生成式人工智能將成為商業應用程式中的標準層級,例如內建人工智能副駕駛的客戶關係管理工具、配備人工智能規劃助理的供應鏈系統等。更多企業將使用針對其領域微調的專門或較小型模型。這些專門化推理模型能在特定任務上達到與大型通用模型相當甚至更好的效能,同時大幅降低運算成本和延遲時間。
多模態人工智能能力的擴展也是重要趨勢,除了文字,系統將更有效地處理圖像、音訊和影片。東南亞已經出現 SeaLLMs-Audio 等項目,建立在 Qwen2-Audio-7B 和 Qwen2.5-7B-Instruct 基礎上,為東南亞語言提供音訊處理能力。這種多模態整合將為企業帶來更豐富的應用可能性。
監管與治理框架將變得更加嚴格,過去存在於政策檔案和試點架構中的規範正迅速成為具約束力的合規要求:稽核軌跡、可解釋性要求、風險分類,以及關於模型訓練、測試和部署方式的強制性報告。企業必須建立明確政策,定期稽核模型,並在高風險情況下加入人工審核。強大的治理流程能避免問題發生。
對於東南亞市場,語言模型本地化發展將持續加速。除了 Grab 外,DBS Bank、ST Engineering 等大型企業都在參與區域語言模型的開發和應用。這種合作生態系統將推動技術快速進步,並確保解決方案真正符合區域需求。企業可以期待在未來幾年內看到更多高品質、符合當地語言和文化特色的人工智能工具。
Grab 案例證明,即使是複雜的人工智能項目,只要策略正確,也能在企業內部實現。關鍵在於清楚定義問題、選擇適當的開源基礎、收集高品質訓練資料,並願意在必要時進行完整模型訓練而非僅依賴微調。對於面l臨類似挑戰的企業,無論是處理特定語言檔案、行業專屬術語,或獨特的業務流程,Grab 經驗提供了可複製的藍圖。
隨著人工智能技術持續發展,企業應該思考的不是是否要投入人工智能,而是如何在通用解決方案與專門開發之間找到平衡。維持這種平衡的企業將在人工智能驅動的未來中佔據優勢地位,既能快速採用成熟技術,又能在關鍵領域建立獨特競爭優勢。東南亞企業在語言人工智能領域的自主創新,正為全球其他面臨類似挑戰的區域樹立榜樣。
來源:Grab