AI都識講廣東話?港企推動語言科技新突破
「虢礫緙嘞」(音:kick瀝卡啦)、「好Chur」這些常用的廣東話字,大部份香港人都「識聽唔識寫」,但就有AI人工智能卻不但看得明、懂得寫,還可操一口流利地道廣東話,讓我們應用自如。你可有想過,其實是由一個本地團隊,利用十年積累的數據,克服重重障礙,才訓練出一個「貼地」又高質的廣東話AI大型語言模型(Large language model)?背後是一個怎樣的故事?
廣東話AI模型質素參差
在研發AI的IT世界,從來都是以英語為通用語言,說廣東話的人雖然遍及全球,但以它為主的AI語言模型卻為數不多。即使有不同的廣東話AI模型提供,質素亦參差,歸根究底是資源、數據不足所致。Votee AI就是洞悉了這問題的核心,致力在根源上解決。
Votee AI是人工智能市場調查公司,利用AI技術為企業提供度身訂造的方案,包括B2C市場調查、軟件開發套件、輿情監測(Social listening)等,以提升各行各業的工作效率。近年,團隊更察覺到廣東話AI模型的重要性,決心自主研發一套廣東話AI大型語言模型,但首要解決的,是廣東話在AI發展中資源稀缺的問題。
AI編寫以英語為主 廣東話數據貧瘠成最大阻礙
Votee AI技術總監Jacky指出,要訓練一個AI精通廣東話,最重要的是要有足夠的數據,訓練AI也只是其次,數據才是關鍵。
雖然現時大眾廣泛使用的Deepseek、Gemini等AI模型也可以理解廣東話,而它們主要的學習方式是來自僅有的公開資源,但對於一些廣東話的俚語、行內術語等用字,它們的理解能力就會大幅下降。例如:
「邊間酒店有小朋友專用嘅大口仔(馬桶)?」,AI或會將大口仔誤解成卡通人物,經過訓練後才會識別到大口仔是酒店的行內術語。
「葵芳邊個油站可以借尿袋(流動充電器)?」AI也無法識別出尿袋就是流動充電器。
團隊亦發現,不少公司也嘗試訓練出可理解廣東話的AI模型,他們採用以AI訓練AI的方式去提升其理解能力,但造出來的成果往往不如理想。要解決這個問題,便需要自行收集並整理龐大的廣東話數據,再訓練AI,情況如同聚沙成塔,當中花費多少心力和時間可想而知。
邀語言學教授參與 自建廣東話數據AI模型更精準
Votee團隊採用的是迭代法(Iterative approach),即先創作初步版本,慢慢透過測試找出問題並修正,再重複步驟不斷改進。為此他們花了8個月時間,運用過往公司累計的數據,製作廣東話初步模型,還找來教育大學語言學教授及世界各地修讀語言學的博士生幫忙,提升模型對廣東話的解讀能力,讓生成出來的廣東話更準確更有質素。
Jacky解釋,廣東話有很多用語在文字上難以覆蓋,例如港人常用的「Chur」,原來並沒有中文寫法;「虢礫緙嘞」容易說出口,但轉成文字卻十分生僻,因此在編寫AI模型上相當艱辛。
不過,重重障礙最後還是逐一跨過,Votee團隊研發出來的廣東話模型發展至今,已可應用在不同範疇,例如網站和WhatsApp客戶服務,甚至可在電話即時生成廣東話語音回覆等等。團隊就曾為一間油站公司製作即時語音的AI客服,當行車途中遇上電話無電的緊急情況時,AI客服可透過即時語音以廣東話回覆客戶,最近哪裡有提供充電服務的油站。
「廣東話是屬於大家的語言」 為文化傳承公開數據原始碼
當Votee的廣東話AI模型面世後,團隊也選擇公開軟件的原始碼予別人瀏覽。團隊認為,廣東話是屬於大家的語言,這樣做有助文化傳承,並確信開源模型(Open source model)會更安全,因使用者可清晰地知道代碼內包含了什麼,較容易配合企業法規的要求。
AI智能製作分析報告5分鐘辦妥 節省7成人手及工作量
隨著全球經濟放緩,不少企業都希望精簡人手,以節省公司營運成本,因此也會利用AI人工智能去處理內部業務。Votee AI營銷總監Jeff分享,他們曾幫助不少公司提升效率,當中他認為最成功的例子,是幫助一間企業的人力資源部門製作代理客服,以往部門可能需要一對十,甚至一對五十名員工,去解答同事各種日常問題,例如年假怎樣計算、如何申請在職證明、公司培訓津貼等等。當一間公司員工人數眾多,要應對這樣的查詢可能已花上大半天,但透過他們的AI模型,該部門已不再需要花時間處理這些諮詢,騰出更多時間處理其他要務,節省了七成的工作量及人手。
Jeff亦補充,以往企業整理一份完整的業務分析報告,需要經不同的部門組合資料,最少用上半日至一日的時間,但如今最快5分鐘就可辦妥,還可針對客戶的公司實況訓練AI模型,令其擁有企業家思維(Executive mindset),可分析該公司與其他同類型公司的關係,屬於合作夥伴還是競爭對手、公司財務實況等,以確保分析出來的數據更貼合現況及更有參考價值。
開托更多小語種AI語言模型 推動人工智能產業創無限可能
AI的發展一日千里,Votee AI行政總裁Pak表示,除了廣東話大模型外,未來還會繼續研發其他語言的AI大模型,例如東南亞地區、非洲等較多小語種的地方,他們現時正積極地與當地相關的政府部門協商,推動人工智能產業發展,創造無限可能。