從首個蛋白的一級結(jié)構(gòu)被公布,到如今DeepMind打造的AlphaFold系統(tǒng)開始破解人類蛋白組幾乎所有蛋白的空間結(jié)構(gòu),已經(jīng)過去了超過70年的時間。AI在結(jié)構(gòu)生物學領(lǐng)域取得的重大突破,不僅提升了我們對蛋白質(zhì)的理解,還將改變我們對幾乎所有生理過程和人類疾病的認識。
撰文 | 石云雷
審校 | 吳非
去年年末,人工智能研究實驗室DeepMind的AlphaFold在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP)上一騎絕塵,首次將蛋白三維結(jié)構(gòu)預(yù)測的分數(shù)提升至90分。不到8個月后,DeepMind又為生物學界帶來了兩個重磅消息。7月15日,他們在《自然》雜志上發(fā)布了關(guān)于AlphaFold算法的新論文,實現(xiàn)了原子層面上的蛋白質(zhì)結(jié)構(gòu)精確預(yù)測。僅僅一周之后,他們又和歐洲生物信息學研究所(EMBL-EBI)合作發(fā)表了一篇《自然》論文。這次,他們想要完成的是一個更大的目標——破解人類蛋白組中所有蛋白質(zhì)的三維結(jié)構(gòu)。
氨基酸,蛋白質(zhì)
從人類首次解析出構(gòu)成蛋白質(zhì)的氨基酸序列,到如今可以模擬和解析人體蛋白組中絕大多數(shù)蛋白的三維結(jié)果,科學家已努力了超過70年。1949年,英國生物化學家弗雷德里克·桑格(Frederick Sanger)通過水解胰島素,首次確定了組成牛胰島素的氨基酸序列,這也是人類確定的首個蛋白質(zhì)的氨基酸序列。這些氨基酸序列是牛胰島素的一級結(jié)構(gòu),如果我們只按照這個序列合成胰島素,得到的產(chǎn)物不會有活性。氨基酸序列需要通過數(shù)步折疊過程,形成復(fù)雜的3級結(jié)構(gòu)后,才能成為具有功能的蛋白質(zhì)。
1965年,中國科學家首次解析出胰島素的精確結(jié)構(gòu),人工合成出了具有活性的胰島素。在人類的蛋白組中,胰島素是一種結(jié)構(gòu)簡單的小型蛋白質(zhì),它含有兩條肽鏈,有51個氨基酸。對人類等真核生物來說,一個蛋白質(zhì)中平均含有400多個氨基酸殘基,其中絕大部分蛋白質(zhì)的空間結(jié)構(gòu)遠比胰島素復(fù)雜。
人類基因組草圖公布后,科學界對蛋白質(zhì)的研究進入了快車道。經(jīng)過數(shù)十年的努力,研究人員通過解析蛋白質(zhì)的氨基酸序列、提取純凈和高質(zhì)量的蛋白質(zhì),再加上冷凍電子顯微鏡的應(yīng)用,至今已經(jīng)解析出了超過5萬個人源蛋白質(zhì)的三維結(jié)構(gòu)。無疑,我們獲得蛋白三維結(jié)構(gòu)的速度正在不斷變快。
不過,實驗解析蛋白質(zhì)也受到諸多限制。由于這一過程過于繁瑣,且稍有不慎就無法獲得較好的蛋白質(zhì)空間結(jié)構(gòu),因此仍有大量人源蛋白質(zhì)結(jié)構(gòu)有待破解。與此同時,一些科學家開始嘗試另一種工具——借助人工智能(AI)技術(shù)來預(yù)測蛋白的空間結(jié)構(gòu)。
1994年,計算生物學家約翰·莫爾特(John Moult)等人創(chuàng)立了CASP比賽,讓AI加入到蛋白質(zhì)三維結(jié)構(gòu)的研究中。不過在此之后的20多年中,各個AI實驗室在這項比賽中的始終缺乏實質(zhì)性突破。直到DeepMind的加入,徹底改變了這一局面。
2020年,DeepMind開發(fā)的一款蛋白質(zhì)三維結(jié)構(gòu)預(yù)測算法“AlphaFold”一舉奪得了當年CASP比賽的最高分(GDT分數(shù)為90分),比第二名的分數(shù)高出了15%。GDT分數(shù)主要用來評估算法預(yù)測三維結(jié)構(gòu)中氨基酸的位置與實際空間結(jié)構(gòu)的差距,分數(shù)越高,預(yù)測越準。當時AlphaFold就像是一枚投在生物學界的炸彈,當時《自然》《科學》等相繼發(fā)文,強調(diào)了這是人工智能的一次重大勝利。
從實驗解析到AI預(yù)測
在細胞中,蛋白質(zhì)的折疊過程需要分子蛋白或輔助蛋白的幫助。而我們能看到的是,一些氨基酸序列通過一系列變化,形成了一個具有三維結(jié)構(gòu)和活性的蛋白質(zhì)。在蛋白質(zhì)中,具有相同特性的氨基酸通過特殊的共價鍵(例如二硫鍵)聚集到一起,形成一些特定的螺旋結(jié)構(gòu),比化學鍵更加微弱的分子間作用力維系著蛋白質(zhì)的三維結(jié)構(gòu)。
但是,依靠這些理論還遠遠不足以準確預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),這也是很多參與CASP比賽的算法分數(shù)不高的原因。在今年7月15日一項公布于《自然》的論文中,DeepMind的研究團隊詳細介紹了AlphaFold成功的原因。這一算法采取了多序列比對和一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),將重點放在一些關(guān)鍵的氨基酸上。此外,這一算法還納入了結(jié)構(gòu)模塊(Structure Module),用于評估預(yù)測的蛋白質(zhì)結(jié)構(gòu)的每個氨基酸殘基與其真實位點的差異。DeepMind的研究團隊還強調(diào),AlphaFold是首個在不知道相似蛋白的結(jié)構(gòu)時,也可以在原子層面上精確預(yù)測蛋白質(zhì)結(jié)構(gòu)的算法。
昨日,在發(fā)表于《自然》期刊的一項研究中,他們和EMBL-EBI合作利用AlphaFold做出了一項更有突破性和實用性的研究——直接對人類蛋白組中98.5%的蛋白質(zhì)完整三維的結(jié)構(gòu)進行了預(yù)測。根據(jù)他們的估計,雖然蛋白質(zhì)資料庫(PDB)中公布的人源蛋白質(zhì)三維結(jié)構(gòu)占到了目前人類蛋白組的35%,但是很多蛋白質(zhì)的空間結(jié)構(gòu)并不完整。實際上,完整的三維蛋白質(zhì)結(jié)構(gòu)只占17%。#p#分頁標題#e#
類似于CASP比賽中的GDT分數(shù),研究人員也為AlphaFold設(shè)置了一個可以評估預(yù)測可信度的數(shù)值——pLDDT(每個殘基位點的可信度測評,per-residue confidence metric)。當pLDDT值大于90,表示對蛋白質(zhì)中某個氨基酸殘基位置的預(yù)測具有很高的可信度;當pLDDT值大于70,表明預(yù)測結(jié)果是基本準確的。
在對人體蛋白質(zhì)組三維結(jié)構(gòu)的預(yù)測中,AlphaFold精確預(yù)測了35.7%的氨基酸殘基的位點,基本準確地預(yù)測了58.0%的氨基酸的位點。在蛋白質(zhì)水平上,這一算法也能較為準確地預(yù)測人類蛋白組中43.8%的蛋白質(zhì)至少3/4序列的空間結(jié)構(gòu)。在1290個沒有沒有參考結(jié)構(gòu)的蛋白質(zhì)中,AlphaFold能較為準確預(yù)測每個蛋白中近200個氨基酸殘基的空間結(jié)構(gòu)(pLDDT≥70)。
一種由WFS1基因編碼的蛋白,突變會導(dǎo)致WFS綜合征。(圖片來源于論文)
在這次實驗中,AlphaFold還準確預(yù)測出由于許多和藥物靶點相關(guān)的酶和膜蛋白的三維結(jié)構(gòu)。由于膜蛋白的結(jié)構(gòu)復(fù)雜,一直以來,通過實驗方法來解析這類蛋白的結(jié)構(gòu)都極具挑戰(zhàn)性。除此之外,AlphaFold還能較為準確地預(yù)測出此前沒有接受過訓練或不熟悉的蛋白質(zhì)的三維結(jié)構(gòu)。
除了人源的蛋白質(zhì),他們還利用AlphaFold對其他20種模式生物(包括小鼠、玉米和瘧原蟲)蛋白組中的蛋白進行了預(yù)測。根據(jù)《自然》官網(wǎng)的消息,這些預(yù)測的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)已通過EMBL-EBI托管的公用數(shù)據(jù)庫免費向公眾開放,目前有近36.5萬個蛋白質(zhì)結(jié)構(gòu)已在該數(shù)據(jù)庫中發(fā)布,而到今年年底,這一數(shù)值有望增長到1.3億。DeepMind和EMBL-EBI的研究人員強調(diào),目前這部分工作還只是一個開始。他們想要進一步驗證這些預(yù)測的結(jié)果,更重要的是,將它們應(yīng)用到迄今為止不可能實現(xiàn)的實驗中。
重大意義
近70年來,解析蛋白質(zhì)的空間結(jié)構(gòu)一直是一項極具科學意義的難題。如果基因組是一個“指令官”,那么蛋白質(zhì)就是基因功能的“執(zhí)行者”,可以說蛋白質(zhì)幾乎參與人體內(nèi)所有的生理過程和疾病過程。如果我們能掌握蛋白質(zhì)的精確結(jié)構(gòu),就像解析了一把精密的鎖的內(nèi)部結(jié)構(gòu)。對于人類來說,也更容易開發(fā)出一把甚至多把能打開這些“鎖”的鑰匙,而這將會改變我們在分子水平上對自身的認知,治療現(xiàn)今絕大多數(shù)的人類疾病。
DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官杰米斯·哈薩比斯(Demis Hassabis)認為,這是人工智能系統(tǒng)迄今為止對推進科學發(fā)展作出的最大貢獻。此外,對于一些AlphaFold無法準確預(yù)測的蛋白結(jié)構(gòu),一些科學家也發(fā)表了自己的見解。一部分人認為,在人類等真核生物中,相當一部分蛋白質(zhì)區(qū)域本身就是無序的,這或許是為了與其他的蛋白分子相互作用,也可能還有一些我們還不知道的作用。
值得一提的是,在《自然》于上周發(fā)表AlphaFold論文的次日,《科學》雜志也公布了另一項蛋白質(zhì)預(yù)測算法——RoseTTAFold。這個算法由華盛頓大學醫(yī)學院蛋白質(zhì)設(shè)計研究所和哈佛大學、劍橋大學等機構(gòu)聯(lián)合開發(fā)。它采用和AlphaFold2不同的深度學習算法,但具有AlphaFold2可媲美的超高準確率,而且速度更快、對計算機處理能力的需求也較少,能在短短的10分鐘內(nèi)計算出一個蛋白的結(jié)構(gòu)。目前,研究人員正在用這一算法研究一些和人類健康直接相關(guān)的蛋白質(zhì)的結(jié)構(gòu)。
這兩項算法的出現(xiàn)無疑標志著在結(jié)構(gòu)生物學領(lǐng)域,AI的時代已經(jīng)到來。
封面圖來源:PROTEIN DATA BANK
參考鏈接:
https://www.nature.com/articles/s41586-021-03828-1
https://www.nature.com/articles/d41586-021-02025-4
https://www.nature.com/articles/s41586-021-03819-2
本文轉(zhuǎn)自環(huán)球科學