應付DSE「死亡之卷」有救? 中大研錯字檢測系統助考生「升呢」

撰文:胡家欣
出版:更新:

DSE (中學文憑試)中文科有「死亡之卷」稱號,除了卷目的難度外,考生亦容易因經常犯錯別字及亂用成語而大量失分。
香港中文大學工程學院應香港應用科技研究院委託合作,花近兩年時間研發錯字和粵語檢測系統,期間匯入過千份DSE卷和學校模擬試卷、中小學教科書與字典中過百萬詞彙,以識別中文寫作四大問題,包括錯別字、簡體字、倒裝及粵語用法。
團隊希望未來能引入教育界輔助師生教與學,年內將系統轉化為辦公室軟件的插件予公眾使用。

中大系統工程及工程管理學系研究員馮沛璋(左)與中大工程學院副院長(外務)黃錦輝於記者會上,介紹由工程院及文學院學生、工程師等5人團隊研發的錯字和粵語檢測系統。(胡家欣攝)

DSE中文寫作卷一直為考生錯別字的重災區。中大工程學院副院長(外務)黃錦輝表示,2012年第一屆DSE中文卷反映本港學生寫作水平較差,特別名校生在學習中文上遇有困難,有見及此,香港應用科技研究院委託其學院研發錯字和粵語檢測系統,輔助師生教與學,提升學生中文寫作能力。

首系統加入口語識別元素

中大系統工程及工程管理學系研究員馮沛璋表示,系統以大數據(Big Data)及深度學習(Deep Learning)為基礎,經演算及分析,識別出中文句子中的錯別字、簡體字、倒裝及粵語用法,準確度達8成。

錯字和粵語檢測系統

例子

錯別字

「端兒」→「端倪」

「側隱之心」→「惻隱之心」

簡體字

「之后」→「之後」

粵語用法

「沖涼房」→「浴室」

「鍾意」→「喜歡」

倒裝用法

「素質」→「質素」

「緊要」→「要緊」

註:必須於系統輸入10個字以上的句字才能作檢測

圖為程式系統介面,用家需輸入10個字或以上的句子,或一篇文章才能作檢察。(胡家欣攝)

系統準確度達8成 惟成語潮語難判別

不過,系統仍有一定限制,例如未能判別由英文字母組成的潮語如「Hea」、部份四字成語如「終身平等」,正寫為「眾生平等」、辨識正字後亦尚未附有註解。黃錦輝解釋,目前系統「基本盤」為語文分析應用,針對DSE考生寫作錯誤,故未有涵蓋英文寫法的廣東話潮語;系統亦只能基於上文下理才能判別錯字,故單以「終身平等」四字,難以斷定為錯,故學生於自學後,仍需要老師作為輔助解說。

黃稱,系統猶如「人的學習一樣」,須繼續輸入資料更新,豐富詞彙句式。他續指,系統將由應科院及團隊決定發佈平台及收費,但計劃未來可開放於中、小學校使用,以及轉化為辦公室軟件的插件讓公眾使用。