【科技．未來】AI診症匹敵人類醫生　可否知疾病成因？

本月初，Google再次發表人工智能（AI）應用醫療研究成果，顯示AI診斷乳癌的準確率能匹敵人類醫生。過去幾年，幾乎每數個月就有一宗類似的消息，包括在糖尿病視網膜病變、腎病、肺癌、腦瘤等診斷上。當這些成果愈來愈多，人們難免期待：AI可否在診症之餘知道疾病的成因？現時單憑數據深度學習的AI，其智能能否進一步發揮？

AI擁有辨識規律的強大能力。圖為2018年在北京舉行的全球首場神經系統影像診斷人機大賽，AI最終勝出。（美聯社）

乳癌是女性最常見的癌症。現時醫學界建議女性定期接受乳房X光造影（mammogram）檢查，及早檢測預防，但乳房X光造影並非完美。Google研究員Shravya Shetty解釋：「乳房X光造影很有效，但仍然明顯有偽陰性和偽陽性結果的問題。」

本月初，科學期刊《自然》（Nature）發表了一篇論文，當中由Google Health、DeepMind及多間醫療機構組成的團隊，以76,000名英國女性和15,000名美國女性經匿名處理的乳房X光造影，訓練AI診斷乳癌；再分別以25,000名英國女性和3,000名美國女性經匿名處理的乳房X光造影，測試AI的診斷能力。結果，在美國女性方面，Google AI能分別減少偽陰性和偽陽性結果9.4%和5.7%；英國女性方面則減少了2.7%和1.2%。另一研究作者Christopher Kelly對結果甚為滿意：「這模型比一名英國或美國放射科醫生更好。」

乳房X光造影檢查有偽陽性和偽陰性問題，Google研發的AI有效減低兩者。（Getty Images）

Google是次成果，是近年不斷出現AI診症效果能媲美人類醫生的又一個例子。Google去年5月於學術期刊《自然醫學》發表研究，顯示Google AI憑電腦斷層掃描（CT）診斷逾6,700個肺癌個案，成功率達94%；在沒有過往掃描記錄下，其診斷甚至比六名放射科專家更少出現偽陰性或偽陽性結果。DeepMind去年7月宣佈，他們利用美國退伍軍人事務部（VA）的數據訓練機器學習演算法，能夠在急性腎損傷（AKI）病發48小時前，診斷出90%需要洗腎的嚴重病人。

本月初刊於《自然醫學》的另一項研究顯示，美國紐約大學、密歇根大學等組成的團隊成功利用AI加快腦瘤分析診斷─傳統上需要從病人取得腫瘤樣本，送到實驗室冷凍及染色後在顯微鏡下觀察，一般需時20、30分鐘或更長；新方式則在取得樣本後以激光掃描成影像，可直接在手術室中以經訓練的AI診斷，只需兩分半鐘，且準確率達94.6%，勝過人類醫生的93.9%。美國貝斯以色列女執事醫療中心（BIDMC）就以AI預測哪些病人較可能缺席複診或錯過治療時機，以及早介入。

「第二雙眼」的AI

Google的乳癌診斷AI並非毫無缺憾，在某些人類醫生診斷出癌症的個案中，AI卻「走漏眼」。「有時，全部六名美國醫生都發現是癌症，AI卻錯過了，也有相反情況。」美國西北大學研究員、該研究報告的另一作者Mozziyar Etemadi對《華爾街日報》說。但Google仍希望AI最終能臨牀應用，現正確保研究成果能適用於不同族群。

Shetty強調，AI的作用是幫助放射科醫生，而非取代他們：「他們各有強項，是互補關係。有些個案，放射科醫生能成功診斷而AI錯過了，反之亦然。將兩者結合可增強整體的準確率。」例如，在美國，乳房造影一般由一名放射科醫生判讀，但英國則要求最少有兩名放射科醫生，若兩人意見不一致，則進一步由第三甚至第四名醫生檢查。Kelly說：「模型表現比英國和美國的單一放射科醫生更好。在英國……我們在統計上也做到同樣水平，但沒有更佳效果。」

美國西北大學的AI系統標示出乳瘤的所在位置。（路透社）

根據英國皇家放射科醫學院（RCR）的數據，該國醫療人手短缺，缺乏至少1,104名放射科醫生。現時英國有542名乳房放射科專科醫生，但醫院中仍有8%的崗位空缺。Google Health總監Dominic King認為，若第二名診斷醫生由AI頂上，有助減輕人手壓力，並透露有些放射科醫生因而希望Google研發掃描篩查的AI：「有一群英國的乳房放射科高級醫生在三至四年前聯絡我們，說他們認為能夠在這個領域使用AI，也應該開始思考科技如何支持醫療服務的可持續性，因為現時延遲診斷的情況太嚴重。」故此，研究還評估演算法可如何與人類放射科醫生合作。在88%的案例中，AI與人類醫生的診斷相同，換言之，只有12%的掃描需要再由一名人類醫生診斷。

沒有參與研究的RCR臨牀放射科副主席Caroline Rubin強調，不論這類研究結果如何成功，AI都無法完全取代放射科醫生，但可以輔助他們：「就如其他醫療服務，乳房造影乃至於整個英國放射科都面臨人手短缺問題，並渴望得到幫助。AI程式不會解決人類員工不足的危機，因為放射科醫生及造影團隊的工作遠不止於判讀掃描，但以AI作為第二雙眼睛和安全網，毫無疑問有所助益。」

英國乳癌檢測要由至少2名醫生診斷，惟人手緊絀，AI或可以作為人類醫生的「第二雙眼」輔助。（Getty Images）

心臟科醫生及遺傳學家Eric Topol則在去年3月出版的著作《Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again》中提出，AI可讓醫生有更多時間接觸病人，修復醫患關係。他對科技媒體The Verge解釋：「病人其實沒有得到公道對待，因為看醫生的時間實在太短，甚至連眼神接觸都沒有。也不只是時間，醫生變成數據文員而分心，無法成為好的聆聽者……現在有一個前所未有的新機會，讓我們把握和恢復已失去的關懷照顧。」

要把AI應用在醫療之上，監管是必須通過的一關。台灣長庚醫院醫療人工智能核心實驗室主任郭昶甫就向《天下雜誌》提出對AI「黑箱」的經典質疑，即AI模型建立過程複雜，而且無從得知它如何作出決定，使用時或會出現信任問題，一旦錯判，如何檢驗和追究責任也成疑問。他舉例，每天能接受手術的人數有限，醫院按病情的嚴重情況決定誰能先進手術室，但若由AI透過輔助診斷來安排順序，「我們能不能信任AI所作的決定？」

台灣衛生福利部食品藥物管理署署長吳秀梅反指，即使AI的判斷過程不透明，只要能確認它的準確程度就能把關：「就像我不會造車，可是我會開車，就知道車子有沒有出毛病，道理是一樣的……要回到我們的目的，就像車子能不能正常上路一樣。」

有醫生質疑，AI如何得出判決無從得知，若由它決定手術順序，或有追究責任的困難和信任問題，但也有監管者認為AI夠準就可。圖為莫斯科一間兒童醫院手術室。（Getty Images）

「深度」學習的AI

然而，對一些更着眼於基礎前沿的專家來說，AI能否就其判斷作出解釋，意義遠不止於信任問題，而是關乎AI從根本上到底有多少潛力、可否邁向真正智能。

深度學習利用人工神經網絡，以數學的方法形成和加強事物的關聯，大致模仿人類神經元和突觸的方式「學習」。數據如影像和聲音會被輸入到神經網絡，訓練它直至能以正確的方式反應。問題是，深度學習及大部份的機器學習方式，都只懂在龐大數據中找出規律和關聯，但關聯不等同任何因果關係。何況，即使數據中可能藴含因果關係，通常是曖昧模糊，甚至更多時因為變項缺失、觀察方法、雜訊或偏見等而難以確立。因此，現時絕大部份機器學習系統都缺乏因果關係的推論能力。

固然，在一些領域，AI仍能夠發揮它辨識規律的強大能力，心理學家Robin Hogarth稱之為「友善的學習環境」。在這個環境下，規律會一而再再而三出現，反饋通常快速而準確─因此，現時的機器學習系統通常都是非常專門、有針對性、為完成某個特定任務訓練而成。一個深度學習程式可被訓練成能極準確辨認圖片中的物件，只要它看的訓練影像足夠多和有足夠的電腦運算能力。又如象棋和圍棋，棋子在確切定義的邊界和規則下移動，AI可在這類領域壓倒人類，不論是1997年的深藍（Deep Blue），還是2016年的AlphaGo。

AI在一些規律重複、規則和目標清晰的應用有可發揮強大能力，例如AlphaGo在圍棋中連番擊敗人類棋手。（美聯社）

圖像診症亦如是，數據組相對上具結構而獨立，要完成的任務也有清晰定義，更莫說AI能24小時工作，只是它無法解釋為什麼判斷某張影像表示患病。但是，現實中並非所有醫療領域都如此「友善」，很多醫療應用需要回答的問題是，會令治療更復雜的共病是什麼？若某病人不吃某種藥改吃另一種藥，會怎樣呢？Hogarth形容這些為「惡劣」的學習環境。

在沒有針對真實情況的外在模型引導下，以數據為中心的AI有何侷限？2015年曾有一項研究想製造一個肺炎風險評估AI系統，就是一個被廣為引用的例子。該AI從真實醫療數據「學懂」的，竟然是哮喘患者不太可能死於肺炎。研究人員追查這奇怪結果後發現，AI忽略了在數據背後，醫院一項實際措施：同時患有哮喘和肺炎的病人會被直接送到深切治療部，因而接受更高規格的照料，相比其他沒有得到相同照顧的哮喘病人，自然死亡的可能性較低。但該模型卻因為這缺憾，錯誤建議這些明明高危的哮喘病人不應該被送往深切治療部。

雖然AI從掃描診症的能力，已經能與人類匹敵，但一些專家指出，AI以現時深度學習無法知到因果，無法知道疾病成因，甚或在實際醫療領域中回答更廣闊的難題。（Getty Images）

2018年，麻省理工學院（MIT）電子工程和計算機科學副教授David Sontag在博勞德研究所（Broad Institute）的演說中，把這種只從臨牀數據學習的模型稱為「非結構」的，意指它欠缺一個由工程師或科學家編定的外在結構，來表示不同變項之間的因果連結。他認為，最多隻能寄望它們與人類醫生有相若的能力，即可以是一個不可靠的資訊來源，以及很多時會作出錯誤的判斷。

深度學習演算法在泛化（generalization）方面也不在行，即是要把在某個脈絡下學習所得應用到另一脈絡時會出現困難。2018年圖靈獎得主Yoshua Bengio解釋：「系統性泛化是人類把已知概念普遍化的能力，所以，它們可以以新的方式結合。現時機器學習不知道如何做到，所以你經常會有以某個特別數據組訓練的問題。例如你在某個國家訓練AI，但將它應用在另一個國家，就需要泛化和遷移學習（transfer learning）。你如何訓練出一個神經網絡，即使你把它轉移到新的環境，它仍然能夠運作良好或快速適應？」

繼續閲讀︰

【科技．未來】不問「為什麼」　AI可有真正智能？

相關文章︰

從數據尋找最佳配方　AI可滿足人類味蕾？

AI研發新口味　人類廚師將被取代？

當AI能預防受傷　分析比賽　將如何改變運動產業？

AI任球探裁判評述　成也數據敗也數據？

阻止不當內容與自殺　AI協助社交媒體「消毒」

社交網絡以AI「消毒」　但AI可判斷「不當」內容？

新藥研發低迷　AI可如何顛覆生態

AI用數據研製新藥　反而是它的最大侷限？

未來製藥專家　將由AI取代人類？