預測人類蛋白質結構 AlphaFold改變生物科研

撰文:孔祥威
出版:更新:

人工智能(AI)研究公司DeepMind上月底宣布,其AI系統AlphaFold幾乎預測所有人類蛋白質的結構,並預測另外20種生物如大腸桿菌、果蠅等合共多達35萬種蛋白質結構,更製成公開數據庫。能夠知道蛋白質結構有什麼重要作用?為什麼這是AI的強項?AlphaFold的成果又會否從此改變生物學家的研究方式?

過去幾年來,英國樸茨茅斯大學(University of Portsmouth)酵素創新中心主任John McGeehan,一直在尋找能夠分解膠樽和塑膠垃圾的酵素。雖然他已經物色了一些成分,然而,他仍需要知道這些蛋白的立體形狀結構。得知DeepMind研發了用來預測蛋白質結構的AI AlphaFold後,他決定向該公司求助。在某個周末,他向DeepMind傳送了包含七種酵素的清單,周一已收到回覆。

McGeehan沒有告訴DeepMind的是,他早已在實驗室確定其中兩種酵素的形狀結構,偷偷考驗AlphaFold。他說AlphaFold的預測「嚇了他一跳」,因為那兩個結構與他找到的完全一樣。後來他更得悉,AlphaFold只用上幾個小時就完成這項任務。

蛋白質搜尋器

美國生物化學家Christian Anfinsen在1972年獲頒諾貝爾化學獎時提出,理論上蛋白質的結構應該由胺基酸序列決定。蛋白質由胺基酸鏈組成,再摺疊成不同的複雜立體形狀,這結構決定蛋白質的功能。問題是,摺疊的可能性是天文數字。過去有科學家試圖以電腦運算複雜數學模型來找出蛋白質結構,但是這不過是以蠻力搜索所有結構的可能性。數十年來,科學家使用實驗技術來確定蛋白質結構,例如核磁共振(NMR)、X光晶體繞射學(X-ray crystallography)、冷凍電子顯微鏡(cryo-EM)等,但McGeehan表示,過程並不容易,需很多金錢和資源。

這個困境在AlphaFold出現後有重大突破。DeepMind使用深度學習(deep learning)技術,以大量公開、已知的蛋白質結構訓練出AI AlphaFold,它根據DNA序列分析胺基酸,從而推理出立體形狀。它自2018年起參與蛋白質結構預測關鍵評估(CASP)比賽,更在去年底的一屆技驚四座,預測結構準確率基本上已經與現有實驗室方法無異。CASP共同創辦人、馬里蘭大學(University of Maryland)計算生物學家John Moult當時讚賞,這個困擾科學界五十年的難題「某程度上已經解決了」。

DeepMind的人工智能(AI)AlphaFold,幾乎預測全部人類蛋白質組的結構,並預測另外20種生物共多達35萬個蛋白質結構。(DeepMind圖片)

DeepMind未有就此停步。一方面,他們上月中在《自然》(Nature)期刊發表有關AlphaFold研發過程的論文,並公開原始碼:另一方面,他們更新了AlphaFold,令它比去年底比賽時快16倍。公司創辦人及行政總裁Demis Hassabis聲稱:「現在摺疊一個蛋白只要幾分鐘,大多數情況可能只需數以秒計。」

更重要的是,DeepMind上月底宣布,AlphaFold已預測出人類蛋白質組(proteome)中98.5%結構。該預測附設置信度,對胺基酸位置的預測達58%,置信度為「高」;有36%預測更精準至原子級別。相比之下,科學界至今只鑑定了17%人類蛋白質結構,換言之AlphaFold已經預測出多一倍數量。人類以外,AlphaFold還預測了20種生物的蛋白質組,例如大腸桿菌、果蠅、老鼠、酵母等,共約35萬個結構。該研究結果已刊於《自然》期刊。

DeepMind與歐洲分子生物學實驗室歐洲生物信息研究所(EMBL-EBI)合作,把這些結構建成龐大蛋白質數據庫。Hassabis說,資料庫將免費開放予學術及商業機構使用:「它是一個搜尋列,就像蛋白質結構的Google搜尋。你可以在3D視像器上瀏覽它,放大它;查看它的基因序列。與EBML-EBI合作的好處是能夠與其數據庫相連接,可以立即查到相關基因,或者在其他生物中有類似功能的蛋白質。」DeepMind計劃在本年內再在資料庫中增加多一億個結構。

15分鐘解決十年難題

AlphaFold對於科研有幾個重要意義。首先,科學家可以繞過現有以實驗方式確認蛋白質結構的耗時流程,大幅加快研究進度。就如文首McGeehan的塑膠分解酵素研究,他說「研究進度加快了一、兩年」。除了因為預測過程快之外,AlphaFold的預測相比他自行以實驗室鑑定的結構,在某些情況下提供了更多資訊,令他能直接利用相關數據來設計酵素。

其次,AlphaFold將會成為科學家突破研究瓶頸的利器。例如科羅拉多大學(University of Colorado)生物化學系教授Marcelo C. Sousa說,有一個蛋白質樣本困擾其團隊十年:「DeepMind答應給我們預測結構,它在15分鐘內就解決我們停滯了十年的問題。」

當如此大量本來未知的蛋白質結構變成科學家伸手可及的資訊,將會開啟生物科技、藥物和治療研究。在醫療上,AlphaFold去年1月底預測新冠病毒(Sars-CoV-2)結構,全球科學家迅即用作研究,科羅拉多大學波德分校正用AlphaFold來研究細菌抗藥性。

AlphaFold快速、大量而準確預測蛋白質結構,能大幅加快生物醫學科研。例如DeepMind正與非牟利組織DNDi合作,利用AlphaFold研究罕見疾病療法。(DNDi圖片)

現時,DeepMind正嘗試用AlphaFold來研究罕見疾病。它與非牟利組織「被忽略疾病計劃」(DNDi)合作,希望能找出恰加斯病(Chagas disease,又名南美錐蟲病)和利什曼病(Leishmaniasis)的療法。DNDi藥物開發負責人Ben Perry指出:「受利什曼病和南美錐蟲病等被忽視疾病影響的患者正接受過時的療法,其治療方式可能有毒或有嚴重副作用。」

DNDi在過去18個月發現了一種分子,能與克氏錐蟲(Trypanosoma cruzi,引致恰加斯病的寄生蟲)蛋白質結合,阻止發病並殺死它。Perry希望利用AlphaFold加快研究該蛋白質的結構,以準確了解潛在藥物到底如何阻止寄生蟲致病,從而設計更多與這種蛋白質結合、能夠殺死克氏錐蟲的藥物:「能快速獲得蛋白質結構,就可以設計多種候選藥物,從而進行多種臨床試驗。」

此外,DeepMind 科學AI研究主管Pushmeet Kohli希望,AlphaFold能有助藥物開發普及化,令低收入國家也能參與開發新療法:「總括而言,我們試圖用 AlphaFold做到三件事:一是擴大預測結構的能力,二是加速以上過程,三是讓無法使用複雜、昂貴機器的人能夠使用這技術。」

誠然,AlphaFold並非毫無局限。例如華盛頓大學(University of Washington)蛋白質設計研究所研究員Minkyung Baek指出,蛋白質是動態分子,按照所結合的物質而不斷改變形狀,惟DeepMind的演算法只能預測蛋白質的靜態結構。而且,AlphaFold也不是對它每個預測皆有同樣高度置信度。Sousa提醒:「我們還沒有去到可以完全相信它的預測並假設它們是正確的地步。」

不過DeepMind補充,置信度較低的預測不一定沒有作用。蛋白質之中,有所謂「固有無序」(intrinsically disordered)區域,只有與其他分子互動時才會呈現確定的結構。Kohli指出,AlphaFold有些可信度低的預測結構,有部份區域正是與生物學家懷疑是固有無序區域相符。

DeepMind及學者預期,AlphaFold和人工智能(AI)將會改變生物醫學研究方法,大幅加快研究進度,並開啟更多研究新可能。(DeepMind圖片)

「重設」生物科研

即使有這些瑕疵,不少科學家認為AlphaFold之類的AI出現後,科研將會從此不一樣。美國哥倫比亞大學(Columbia University)計算生物學家Mohammed AlQuraishi形容,能取得這樣多蛋白質結構,標誌着生物學的「範式轉移」。一方面,在短期內,AI將會成為實驗檢測方式的輔助工具。Baek指出,有時X光晶體繞射學或冷凍電子顯微鏡的數據可能難以解釋,因此可以借助AI預測模型。她預測,「在短期內它將會大力支援結構確認工作。」

另一方面,長遠而言,AI有可能成為結構生物學界更加普遍的研究技術。馬克斯普朗克發育生物學研究所所長及CASP評審員Andrei Lupas預計:「到今年年底,將會有幾個高性能的蛋白質結構預測系統可以使用。」例如,華盛頓大學蛋白質設計研究所所長David Baker團隊受AlphaFold啟發,建立了蛋白質結構預測程式RoseTTAFold,上月中於期刊《科學》(Science)發表。

這樣,AlphaFold和AI更可能從根本上改變生物醫學研究。Baek預期:「假以時日,這科技也將會慢慢取代實驗性的結構判定工作。」若真的發生的話,結構生物學家也就不會從此失業,反而會帶來更宏觀的改變。Baker指出,實驗和計算科學家已經開始將工作轉向更複雜的挑戰,例如更確切了解那些蛋白質之間的互動,以及在過程中的分子變化:「這將會重置整個研究領域。」Hassabis也認為AlphaFold將會令研究領域有新的突破:「結構生物學家還不習慣,可以在幾秒鐘內查找一件事,毋須再花數以年計用實驗來確認。這對於往後可以進行什麼實驗,或者可以提出什麼問題,應該會帶來全新的角度。」

DeepMind行政總裁Demis Hassabis(前排左一)認為,AlphaFold終於證明了人工智能(AI)對現實世界有重要用途。圖為DeepMind AI AlphaGo擊敗韓國圍棋棋手李世乭(前排右二)。(Getty Images)

除了對生物研究的影響以外,AlphaFold的成果在AI研究上也有其重要意義,終於真正證明AI有實際重要用途。Hassabis回想:「我認為這是DeepMind成立十年來的頂峰。我們從一開始就打算這樣做:先在AI取得突破,在圍棋和Atari電玩等遊戲上測試,再應用到現實世界的問題,看看可否加速科學突破以造福人類。」

因此他自信地評價AlphaFold的成果:「我們相信這是至今最完整、最準確的人類蛋白質組。這是一個很好的例證,顯示AI可以為社會帶來福祉。這是AI至今在推進科學進步上最大的貢獻,我覺得這樣說也不為過。」Hassabis寄望,AlphaFold引發的各種新研究,只是一個重要起步:「這只是結構生物信息學革命的開端。」