教大學者夥「粵語迷」澳洲籍助理創語料庫 助外籍人士學廣東話

撰文:鄺曉斌
出版:更新:

談及世界上最難掌握的語言,廣東話必定上榜,簡單如「食飯」可衍生出「食晚飯」、「食冷飯」、「食拖鞋飯」等,對外籍人士並不容易理解,然後廣東話或廣東話的俚語,仍吸引不少外籍人士,令他們着迷。一年多前加入香港教育大學負責「香港二十世紀中期粵語語料庫」研究項目的澳洲籍研究助理Alistair Tweed,便是「粵語迷」的其中一員。
Alistair由自學廣東話,發展到赴港研究廣東話,更協助教大語言學者錢志安開發粵語語料庫,他以一口流利廣東話道出原因:「好多人以為廣東話難學,但其實只係教材比較少。」

教大語言學及現代語言系副教授錢志安(右)及澳洲籍研究助理Alistair Tweed(左)。(鄺曉斌攝)

教大語言學及現代語言系副教授、語言學及語言研究中心副總監錢志安的研究團隊,透過翻看1947年至1970年的倫理類、偵探類及詼諧類經典粵語長片,謄寫角色對白,於2012年首度設立「香港二十世紀中期粵語語料庫」。

研究團隊先後獲研資局及其他資助撥款近100萬元,開始第二階段研究,連同首階段語料庫,合共處理約70套粵語長片、約300名演員對白,涉及總字數近100萬字。

Alistair Tweed初時透過閱讀相關書籍,自學廣東話。(鄺曉斌攝)

澳洲籍研究助理成語料庫「幕後功臣」

建構語料庫,本為協助外籍人士了解廣東話,然後語料庫的其中一名「幕後功臣」卻是澳洲籍研究助理Alistair Tweed。他就讀中學期間,曾修讀俄文及法文,大學則主修普通話及日文;後來想到外國進修語言,因而在學期間首次到訪香港,已覺得是個「好地方」,因此7年前毅然赴港工作。數年間曾任海外升學顧問、小學英文教師。在港期間,他更為自己起了個中文名──徐樂文。

受華僑同學影響 引起對廣東話興趣

大部分外國人都是先學普通話,然後才學廣東話,惟Alistair的情況則是相反。他向記者表示,對廣東話的熱情是源於中學時期,身邊很多同學是華僑後裔,經常會以廣東話溝通,因而喚起他的興趣,及後更購置書籍自學。

「你個電腦」「你部電腦」?

Alistair憶述,在港擔任小學英文教師期間,曾發生運用廣東話的「蝦碌」情況,他當時跟學生說:「你個電腦……」然後學生立即回應:「阿sir,應該係『你部電腦』。」他隨後認為,擔任英文老師只能繼續說英文,不能學好廣東話,亦是觸發其轉換工作環境的原因之一。

年多前加入教大 為語料庫編寫演算法

於一年多前,Alistair正式加入教大,成為粵語語料庫項目研究助理。居港7年間,Alistair學得一身好本領,能以流利廣東話對答溝通,他認為:「好多人以為廣東話難學,但其實只係教材比較少。」

Alistair參考學習廣東話時遇過的困難,為語料庫編寫演算法(algorithm),協助平台使用者能獲得更有效、清晰的資訊。他相信,語料庫為外籍人士提供參考例子,有助他們學習正確運用廣東話字詞,尤其是配詞功能,讓使用者認識字詞在句子不同位置下的意思,區分廣東話句式與英文句式的差別。

於一年多前,Alistair加入教大擔任研究助理,協助錢志安開發粵語語料庫項目。(鄺曉斌攝)

語氣助詞為外籍人士學習廣東話最大難題

Alistair的經驗發現,廣東話的量詞運用、語氣助詞運用、變調、字詞於不同句式的含義,均為外籍人士學習廣東話的最大難題;只要語氣助詞稍有不同,已可改變整個意思,例如「去喎」與「去咩」,意思上截然不同。

語料庫包含搜尋引擎 方便外籍人士掌握廣東話俚語

因此語料庫最新版本能提供字詞組合、分詞組合、詞性、粵語注音等資訊,同時包含搜尋引擎,方便外籍人士掌握普遍中文字典所缺乏的廣東話俚語、常用字詞配搭,同時具備電影對白例句重播功能,讓使用者釐清讀音、適用語境等。

語料庫亦包含常用助語詞如:「㗎」、「啦」

這亦是錢志安採用粵語長片作資料庫素材的原因,他解釋,主要因為對白寫實、通俗,突顯廣東話的字詞句式結構,對有志學習粵語的外國人而言,具有參考價值。

他舉例指,例如廣東話的「食飯」,同時能衍生「食晚飯」、「食冷飯」、「食拖鞋飯」等不同含義的配詞;另外,配合語氣助詞亦有不同意思,因此語料庫囊括「㗎」、「啦」、「啵」等常用助語詞,讓外籍人士掌握其用法。

Alistair Tweed初時透過閱讀相關書籍,自學廣東話。圖為Alistair閱讀過的學習廣東話書籍。(鄺曉斌攝)
最新版本「香港二十世紀中期粵語語料庫」將於4月下旬,正式開放予公眾使用。

錢志安強調,外籍人士透過認字學習廣東話的同時,不能忽略配詞、四字詞語的重要性,「例如識個『香』字,識個『港』字,但(外籍人士)未必識『香港』。」

根據語料庫的統計, 70套粵語長片當中,總共包括約9,000個「詞種(word type)」,首48個高頻詞的覆蓋率為50%,首916個高頻詞的覆蓋率為90%。錢志安說,此數據能為外籍人士提供學習指標,熟讀48個高頻詞,相當於掌握一半常用的廣東話詞語。

最新版本「香港二十世紀中期粵語語料庫」將開放予公眾使用

最新版本「香港二十世紀中期粵語語料庫」將於本月下旬,正式開放予公眾使用。教大語言學及現代語言系將於本年5月27至31日,於大埔校園舉行「粵語研究研習班」,來自世界各地的粵語研究學者,將就廣東話課題深入討論。

【第一屆武博】眼界.決定境界!5月3至5日在九展舉行的第一屆香港武術及搏擊運動博覽(武博),活動包括解構武術電影的光影武林隧道、有趣好玩的武館街遊戲,以及超過100個體驗班,讓市民、初學者或武術專家,透過這個多元化體驗型博覽會,從武博擴闊眼界、提升境界!

按此立即購票

按此瀏覽武博專頁