AlphaGo「同門師弟」　新AI軟件讀唇準確度達93.4%　遠勝人類

聽障人士要觀察說話者的口形、舌頭和下顎的動作、面部表情，甚至身體語言，才能「看懂」一句話。讀唇是一門專業，困難在於說話者嘴唇活動大小、語速等因素，都會影響解讀；而且要掌握語境，且要有不同範疇的知識，才能準確理解對方的話。
不過，這項艱巨的任務已難不倒人工智能。Google旗下的人工智能公司DeepMind，繼研發擊敗韓國棋王李世石的AlphaGo程式後，又開發了一個新的AI軟件。它能透過無聲影像解讀人類的唇語，準確度高達93.4%，遠勝讀唇專家。

LipNet不是透過可視音素系統來運作，而是能夠處理完整句子，能夠辨識字母與唇部之間細微的對應關係。（Lipnet YouTube截圖）

這個人工智能程式名叫LipNet，由牛津大學計算機科學系和DeepMind共同研發。LipNet之所以比以往的讀唇程式更聰明更準確，皆因採取了截然不同的「思維模式」。一般的讀唇程式着重識別若干個音素的唇形和運動（音素是最小語音單位，例如「b」，「ng」和「th」），但很多音素發音時都有相同的唇形，不能單憑視覺分辨，而且發音部位在嘴巴或喉嚨深處的聲音，是不可能被察覺的，例如英文40至50個音素中，只十多個是可視音素（Visual phonemes），因此，靠這種方法讀唇是很有局限的。

LipNet不再透過可視音素系統來運作，而能夠處理完整句子，也能夠辨識字母與唇部之間細微的對應關係。專家為LipNet進行特訓，從英國BBC電視節目如《Newsnight》、《Question Time》以及《World Today》等，節錄29,000段附字幕影片，每段長3秒，當中包含了118,000個不同句子，以及約17,500個單詞，涉及不同知識範疇，並且包含了不同的燈光效果和講者頭部位置的移動。

【人工智能】仿A.I.做真訪問報道　人類記者會否被取代？李世石不敵AlphaGo連輸三局　「只是我輸了　不是全人類」【Google發布會．有片】新手機Pixel及Home家居系統　智能助手進化英科學家研發「AI法官」　與歐洲人權法院八成裁決一致

LipNet誤差率遠低於聽障人士

為了考核LipNet的表現，研究人員找來3名聽障人士做測試，安排他們觀看其中300段影片，再將唇形與台詞配對，結果發現3名志願者的誤差率為47.7%。研究人員再向LipNet展示剛才的300段影片，結果LipNet的誤差率只有6.6%，遠比人類準確。

雖然測試結果顯示，在讀唇一事上，人類完全被LipNet技術性擊倒，但測試也有局限性，就是所有片段都經過研究團隊精心挑選：畫面光線充足，每個講者都面對鏡頭，台詞也符合某一特定格式，例如「將藍色放入m1」這種短片，由動詞、顏色、介詞、字母、數字組成。如果在YouTube隨機挑選影片，讓LipNet解讀，準確度可能與原來的測試結果相距甚遠。

要真正幫助聽障人士，LipNet還有許多方面需要改善，包括通過大量真實環境中的人物對話片段，讓LipNet學懂從不同角度閱讀唇形，以及分辨不同形式的句子。牛津大學的研究人員阿薩埃爾（Yannis Assael）表示：「我們相信人工智能讀唇技術應用廣泛，例如發展出智能更高的助聽器，或者在嘈雜的環境下，仍能準確識別語音。」

LipNet還有多方面需要完善，例如要學懂從不同的角度閱讀唇形，以及分辨不同形式的句子。

聽障人士生活　從此不一樣……

日本將會推出首部「能看的電話」，通過語音識別系統將對方的說話，即時轉換成文字，並顯示在用戶電話上，就像聽電話時有字幕一樣。有了這項技術，聽障人士也可以「聽電話」。日本之所以能夠發展出這種科技，是因為日文的發音系統比較簡單，電腦較易識別。同樣科技應用到廣東話上，則需要一套更複雜的語音識別系統。

Uni能夠識別出手勢，將手語轉換成文字。（MotionSavvy網站圖片）

美國聽障人士發明手語翻譯工具

在美國，一群聽障人士組成創業團隊，研發出能夠翻譯手語的工具「Uni」。它其實是一部平板電腦，能以相機捕捉手掌與手指的動作，再識別出手勢，並翻譯成文字，為聽障人士傳遞信息。公司負責人之一Ryan Hait-Campbel先天聽力有缺陷，深明聽障人士與外界溝通時的困難，這驅使他研發手語翻譯工具。目前團隊正努力建立一個名為Sign Builder的資料庫，希望跨越這個障礙。

你想看更多精彩的深度文章嗎？請購買今期《香港01》周報，或點擊此處：成為我們的訂戶。

AlphaGo「同門師弟」 新AI軟件讀唇準確度達93.4% 遠勝人類

LipNet誤差率遠低於聽障人士

聽障人士生活 從此不一樣……

美國聽障人士發明手語翻譯工具

AlphaGo「同門師弟」　新AI軟件讀唇準確度達93.4%　遠勝人類

聽障人士生活　從此不一樣……