|
意義堪比人類(lèi)基因組圖譜!AlphaFold預(yù)測(cè)出98.5%人“這是自人類(lèi)基因組圖譜發(fā)布以來(lái)最重要的數(shù)據(jù)庫(kù)之一!” 今日,谷歌旗下DeepMind團(tuán)隊(duì)和歐洲生物信息研究所(EMBL-EBI)合作,發(fā)布由人工智能系統(tǒng)AlphaFold預(yù)測(cè)的蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)(AlphaFold Protein Structure Database)。這一數(shù)據(jù)庫(kù)將免費(fèi)提供給全球的科研人員開(kāi)放使用。新聞稿指出,如同人類(lèi)基因組圖譜的公布代表著基因組學(xué)革命的起點(diǎn),這一數(shù)據(jù)庫(kù)的發(fā)布也有望為生命科學(xué)帶來(lái)革命性的變化。歐洲生物信息研究所主任Ewan Birney博士將它稱(chēng)之為人類(lèi)基因組圖譜發(fā)布以來(lái)最重要的數(shù)據(jù)庫(kù)之一。 截圖來(lái)源:DeepMind博客 一周前,DeepMind團(tuán)隊(duì)剛剛在《自然》雜志上發(fā)表論文,公開(kāi)了優(yōu)化的AlphaFold人工智能系統(tǒng)的源代碼并且詳細(xì)描述了它的設(shè)計(jì)框架和訓(xùn)練方法。這一系統(tǒng)在2020年的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上表現(xiàn)驚艷,在接受檢驗(yàn)的近100個(gè)蛋白靶點(diǎn)中,AI系統(tǒng)對(duì)三分之二的蛋白靶點(diǎn)給出的預(yù)測(cè)結(jié)構(gòu)與實(shí)驗(yàn)手段獲得的結(jié)構(gòu)相差無(wú)幾。 今日公布的蛋白3D結(jié)構(gòu)數(shù)據(jù)庫(kù)包含了AlphaFold人工智能系統(tǒng)預(yù)測(cè)的約35萬(wàn)個(gè)蛋白結(jié)構(gòu),覆蓋包括人類(lèi)以及20種生物學(xué)研究中常用模式生物(大腸桿菌、果蠅、斑馬魚(yú)、小鼠…)。在人類(lèi)蛋白質(zhì)組方面,AI對(duì)98.5%的人類(lèi)蛋白的結(jié)構(gòu)做出了預(yù)測(cè)。此前,科學(xué)家們?cè)跀?shù)十年的努力之后,解析的蛋白結(jié)構(gòu)只覆蓋了人類(lèi)蛋白序列中17%的氨基酸。 今日在《自然》發(fā)表的論文中,研究人員指出,AlphaFold能夠?qū)θ祟?lèi)蛋白質(zhì)組中58%的氨基酸的結(jié)構(gòu)位置做出可信預(yù)測(cè)(confident prediction),對(duì)36%的氨基酸的結(jié)構(gòu)預(yù)測(cè)達(dá)到很高的置信度(very high confidence)。 DeepMind和EMBL-EBI同時(shí)表示,雙方將不斷為這一數(shù)據(jù)庫(kù)添加新的蛋白3D預(yù)測(cè)結(jié)構(gòu)。到今年年底,數(shù)據(jù)庫(kù)可能包含1.3億個(gè)蛋白結(jié)構(gòu)。DeepMind團(tuán)隊(duì)的目標(biāo)是為所有具有已知序列的蛋白提供預(yù)測(cè)結(jié)構(gòu)。 AlphaFold預(yù)測(cè)的結(jié)構(gòu)仍然有很多局限性。研究人員指出,很多蛋白通過(guò)與其它蛋白、核苷酸或配體結(jié)合來(lái)行使功能,AlphaFold尚且不能預(yù)測(cè)復(fù)雜復(fù)合體的3D結(jié)構(gòu)。而且,蛋白構(gòu)象很多情況下是個(gè)動(dòng)態(tài)過(guò)程,同一個(gè)蛋白可能根據(jù)環(huán)境和其它因素,變換成不同的構(gòu)像并且具有不同的功能。而AlphaFold通常只能預(yù)測(cè)出一個(gè)構(gòu)象。對(duì)于不產(chǎn)生特定結(jié)構(gòu)的氨基酸序列,AlphaFold也無(wú)法做出可信的結(jié)構(gòu)預(yù)測(cè)。 即便如此,大規(guī)模的準(zhǔn)確結(jié)構(gòu)預(yù)測(cè)將給科學(xué)家們提供一個(gè)重要工具。EMBL-EBI發(fā)表的評(píng)論文章指出,這一數(shù)據(jù)庫(kù)將對(duì)分子結(jié)構(gòu)生物學(xué)研究產(chǎn)生“立竿見(jiàn)影”的影響,啟動(dòng)此前認(rèn)為不可能或不實(shí)際的研究項(xiàng)目,加快復(fù)雜蛋白復(fù)合體的模型建立。對(duì)于廣泛的生命科學(xué)界來(lái)說(shuō),高質(zhì)量的3D蛋白模型能夠幫助研究人員解釋觀察到的實(shí)驗(yàn)現(xiàn)象,促進(jìn)新藥靶點(diǎn)和候選藥物的開(kāi)發(fā)。 作者表示,隨著AlphaFold數(shù)據(jù)庫(kù)的公布,“結(jié)構(gòu)生物學(xué),以及廣泛的生物學(xué),將永遠(yuǎn)和以前不再相同,我們迫不及待地想看到這些新發(fā)展的影響——這將是一次令人振奮的體驗(yàn)!” 參考資料: [1] Putting the power of AlphaFold into the world’s hands.Retrieved July 22, 2021, from https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands [2] DeepMind and EMBL release the most complete database ofpredicted 3D structures of human proteins. Retrieved July 22, 2021, from https://www.ebi.ac.uk/about/news/press-releases/alphafold-database-launch [3] Great expectations – the potential impacts of AlphaFoldDB. Retrieved July 22, 2021, from https://www.ebi.ac.uk/about/news/opinion/alphafold-potential-impacts [4] DeepMind’s AI predicts structures for a vast trove ofproteins. Retrieved July 22, 2021, from https://www.nature.com/articles/d41586-021-02025-4 [5] Tunyasuvunakool et al., (2021). Highly accurate proteinstructure prediction for the human proteome. Nature, https://doi.org/10.1038/s41586-021-03828-1 本文轉(zhuǎn)載自其他網(wǎng)站,不代表健康界觀點(diǎn)和立場(chǎng)。如有內(nèi)容和圖片的著作權(quán)異議,請(qǐng)及時(shí)聯(lián)系我們 |