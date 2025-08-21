「虢礫緙嘞」（音：kick瀝卡啦）、「好Chur」這些常用的廣東話字，大部份香港人都「識聽唔識寫」，但就有AI人工智能卻不但看得明、懂得寫，還可操一口流利地道廣東話，讓我們應用自如。你可有想過，其實是由一個本地團隊，利用十年積累的數據，克服重重障礙，才訓練出一個「貼地」又高質的廣東話AI大型語言模型（Large language model）？背後是一個怎樣的故事？



廣東話AI模型質素參差

在研發AI的IT世界，從來都是以英語為通用語言，說廣東話的人雖然遍及全球，但以它為主的AI語言模型卻為數不多。即使有不同的廣東話AI模型提供，質素亦參差，歸根究底是資源、數據不足所致。Votee AI就是洞悉了這問題的核心，致力在根源上解決。

Votee AI是人工智能市場調查公司，利用AI技術為企業提供度身訂造的方案，包括B2C市場調查、軟件開發套件、輿情監測（Social listening）等，以提升各行各業的工作效率。近年，團隊更察覺到廣東話AI模型的重要性，決心自主研發一套廣東話AI大型語言模型，但首要解決的，是廣東話在AI發展中資源稀缺的問題。

人工智能市場調查公司Votee AI自主研發出一套廣東話AI大型語言模型，決心要讓廣東話傳承下去。（黃寶瑩 攝）

AI編寫以英語為主 廣東話數據貧瘠成最大阻礙

Votee AI技術總監Jacky指出，要訓練一個AI精通廣東話，最重要的是要有足夠的數據，訓練AI也只是其次，數據才是關鍵。

雖然現時大眾廣泛使用的Deepseek、Gemini等AI模型也可以理解廣東話，而它們主要的學習方式是來自僅有的公開資源，但對於一些廣東話的俚語、行內術語等用字，它們的理解能力就會大幅下降。例如：

「邊間酒店有小朋友專用嘅大口仔（馬桶）？」，AI或會將大口仔誤解成卡通人物，經過訓練後才會識別到大口仔是酒店的行內術語。



「葵芳邊個油站可以借尿袋（流動充電器）？」AI也無法識別出尿袋就是流動充電器。



AI技術總監Jacky指出，要訓練一個AI學習廣東話最重要的是要有足夠的數據，數據才是核心。（受訪者提供）

團隊亦發現，不少公司也嘗試訓練出可理解廣東話的AI模型，他們採用以AI訓練AI的方式去提升其理解能力，但造出來的成果往往不如理想。要解決這個問題，便需要自行收集並整理龐大的廣東話數據，再訓練AI，情況如同聚沙成塔，當中花費多少心力和時間可想而知。

邀語言學教授參與 自建廣東話數據AI模型更精準

Votee團隊採用的是迭代法（Iterative approach），即先創作初步版本，慢慢透過測試找出問題並修正，再重複步驟不斷改進。為此他們花了8個月時間，運用過往公司累計的數據，製作廣東話初步模型，還找來教育大學語言學教授及世界各地修讀語言學的博士生幫忙，提升模型對廣東話的解讀能力，讓生成出來的廣東話更準確更有質素。

Jacky解釋，廣東話有很多用語在文字上難以覆蓋，例如港人常用的「Chur」，原來並沒有中文寫法；「虢礫緙嘞」容易說出口，但轉成文字卻十分生僻，因此在編寫AI模型上相當艱辛。

不過，重重障礙最後還是逐一跨過，Votee團隊研發出來的廣東話模型發展至今，已可應用在不同範疇，例如網站和WhatsApp客戶服務，甚至可在電話即時生成廣東話語音回覆等等。團隊就曾為一間油站公司製作即時語音的AI客服，當行車途中遇上電話無電的緊急情況時，AI客服可透過即時語音以廣東話回覆客戶，最近哪裡有提供充電服務的油站。

Votee AI團隊花費了8個月時間，運用過往公司累計的數據，製作廣東話初步模型。（黃寶瑩 攝）

「廣東話是屬於大家的語言」 為文化傳承公開數據原始碼

當Votee的廣東話AI模型面世後，團隊也選擇公開軟件的原始碼予別人瀏覽。團隊認為，廣東話是屬於大家的語言，這樣做有助文化傳承，並確信開源模型（Open source model）會更安全，因使用者可清晰地知道代碼內包含了什麼，較容易配合企業法規的要求。

AI智能製作分析報告5分鐘辦妥 節省7成人手及工作量

隨著全球經濟放緩，不少企業都希望精簡人手，以節省公司營運成本，因此也會利用AI人工智能去處理內部業務。Votee AI營銷總監Jeff分享，他們曾幫助不少公司提升效率，當中他認為最成功的例子，是幫助一間企業的人力資源部門製作代理客服，以往部門可能需要一對十，甚至一對五十名員工，去解答同事各種日常問題，例如年假怎樣計算、如何申請在職證明、公司培訓津貼等等。當一間公司員工人數眾多，要應對這樣的查詢可能已花上大半天，但透過他們的AI模型，該部門已不再需要花時間處理這些諮詢，騰出更多時間處理其他要務，節省了七成的工作量及人手。

Jeff亦補充，以往企業整理一份完整的業務分析報告，需要經不同的部門組合資料，最少用上半日至一日的時間，但如今最快5分鐘就可辦妥，還可針對客戶的公司實況訓練AI模型，令其擁有企業家思維（Executive mindset），可分析該公司與其他同類型公司的關係，屬於合作夥伴還是競爭對手、公司財務實況等，以確保分析出來的數據更貼合現況及更有參考價值。

開托更多小語種AI語言模型 推動人工智能產業創無限可能

AI的發展一日千里，Votee AI行政總裁Pak表示，除了廣東話大模型外，未來還會繼續研發其他語言的AI大模型，例如東南亞地區、非洲等較多小語種的地方，他們現時正積極地與當地相關的政府部門協商，推動人工智能產業發展，創造無限可能。