AlphaGo「同門師弟」 新AI軟件讀唇準確度達93.4% 遠勝人類

撰文:黃珮瑜
出版:更新:

聽障人士要觀察說話者的口形、舌頭和下顎的動作、面部表情,甚至身體語言,才能「看懂」一句話。讀唇是一門專業,困難在於說話者嘴唇活動大小、語速等因素,都會影響解讀;而且要掌握語境,且要有不同範疇的知識,才能準確理解對方的話。
不過,這項艱巨的任務已難不倒人工智能。Google旗下的人工智能公司DeepMind,繼研發擊敗韓國棋王李世石的AlphaGo程式後,又開發了一個新的AI軟件。它能透過無聲影像解讀人類的唇語,準確度高達93.4%,遠勝讀唇專家。

LipNet不是透過可視音素系統來運作,而是能夠處理完整句子,能夠辨識字母與唇部之間細微的對應關係。(Lipnet YouTube截圖)

這個人工智能程式名叫LipNet,由牛津大學計算機科學系和DeepMind共同研發。LipNet之所以比以往的讀唇程式更聰明更準確,皆因採取了截然不同的「思維模式」。一般的讀唇程式着重識別若干個音素的唇形和運動(音素是最小語音單位,例如「b」,「ng」 和「th」),但很多音素發音時都有相同的唇形,不能單憑視覺分辨,而且發音部位在嘴巴或喉嚨深處的聲音,是不可能被察覺的,例如英文40至50個音素中,只十多個是可視音素(Visual phonemes),因此,靠這種方法讀唇是很有局限的。

LipNet不再透過可視音素系統來運作,而能夠處理完整句子,也能夠辨識字母與唇部之間細微的對應關係。專家為LipNet進行特訓,從英國BBC電視節目如《Newsnight》、《Question Time》以及《World Today》等,節錄29,000段附字幕影片,每段長3秒,當中包含了118,000個不同句子,以及約17,500個單詞,涉及不同知識範疇,並且包含了不同的燈光效果和講者頭部位置的移動。

LipNet誤差率遠低於聽障人士

為了考核LipNet的表現,研究人員找來3名聽障人士做測試,安排他們觀看其中300段影片,再將唇形與台詞配對,結果發現3名志願者的誤差率為47.7%。研究人員再向LipNet展示剛才的300段影片,結果LipNet的誤差率只有6.6%,遠比人類準確。

雖然測試結果顯示,在讀唇一事上,人類完全被LipNet技術性擊倒,但測試也有局限性,就是所有片段都經過研究團隊精心挑選:畫面光線充足,每個講者都面對鏡頭,台詞也符合某一特定格式,例如「將藍色放入m1」這種短片,由動詞、顏色、介詞、字母、數字組成。如果在YouTube隨機挑選影片,讓LipNet解讀,準確度可能與原來的測試結果相距甚遠。

要真正幫助聽障人士,LipNet還有許多方面需要改善,包括通過大量真實環境中的人物對話片段,讓LipNet學懂從不同角度閱讀唇形,以及分辨不同形式的句子。牛津大學的研究人員阿薩埃爾(Yannis Assael)表示:「我們相信人工智能讀唇技術應用廣泛,例如發展出智能更高的助聽器,或者在嘈雜的環境下,仍能準確識別語音。」

LipNet還有多方面需要完善,例如要學懂從不同的角度閱讀唇形,以及分辨不同形式的句子。

聽障人士生活 從此不一樣……

日本將會推出首部「能看的電話」,通過語音識別系統將對方的說話,即時轉換成文字,並顯示在用戶電話上,就像聽電話時有字幕一樣。有了這項技術,聽障人士也可以「聽電話」。日本之所以能夠發展出這種科技,是因為日文的發音系統比較簡單,電腦較易識別。同樣科技應用到廣東話上,則需要一套更複雜的語音識別系統。

Uni能夠識別出手勢,將手語轉換成文字。(MotionSavvy網站圖片)

美國聽障人士發明手語翻譯工具

在美國,一群聽障人士組成創業團隊,研發出能夠翻譯手語的工具「Uni」。它其實是一部平板電腦,能以相機捕捉手掌與手指的動作,再識別出手勢,並翻譯成文字,為聽障人士傳遞信息。公司負責人之一Ryan Hait-Campbel先天聽力有缺陷,深明聽障人士與外界溝通時的困難,這驅使他研發手語翻譯工具。目前團隊正努力建立一個名為Sign Builder的資料庫,希望跨越這個障礙。

你想看更多精彩的深度文章嗎?請購買今期《香港01》周報,或點擊此處:成為我們的訂戶