在生物技術(shù)的前沿領(lǐng)域,AI 正在掀起一場(chǎng)蛋白質(zhì)研究的革命。AI 幫助科學(xué)家以前所未有的精度預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)和功能、從頭設(shè)計(jì)新型蛋白質(zhì)、解開(kāi)生命分子層面的奧秘。蛋白質(zhì)生產(chǎn)技術(shù)的進(jìn)步,如AlphaFold 和人工智能驅(qū)動(dòng)技術(shù),不僅改寫(xiě)了蛋白質(zhì)研究的規(guī)則,也為從藥物開(kāi)發(fā)到疾病診斷和合成生物學(xué)等各個(gè)領(lǐng)域帶來(lái)了許多可能性。
人工智能在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的作用
蛋白質(zhì)研究一直是生物技術(shù)領(lǐng)域中的核心難題,其復(fù)雜性源于蛋白質(zhì)多樣的三維結(jié)構(gòu)和動(dòng)態(tài)特性。長(zhǎng)期以來(lái),科學(xué)家們一直使用X射線晶體學(xué)、核磁共振(NMR)和冷凍電子顯微鏡等傳統(tǒng)工具來(lái)解析蛋白質(zhì)結(jié)構(gòu)。然而,這些方法往往成本高昂、耗時(shí),并對(duì)特定蛋白質(zhì)類型的解析存在局限性。這些傳統(tǒng)技術(shù)在應(yīng)對(duì)蛋白質(zhì)的動(dòng)態(tài)性和環(huán)境依賴性方面也有較大挑戰(zhàn),導(dǎo)致實(shí)際解析的結(jié)構(gòu)可能無(wú)法準(zhǔn)確反映蛋白質(zhì)在生理?xiàng)l件下的狀態(tài)。科學(xué)家們亟需新的工具,能夠更快速、高效、低成本地完成復(fù)雜蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)與解析,以滿足現(xiàn)代生命科學(xué)研究的需求。
AI如何突破蛋白質(zhì)研究困境?
隨著計(jì)算機(jī)技術(shù)和算法的不斷進(jìn)步,科學(xué)家們開(kāi)始探索使用人工智能和機(jī)器學(xué)習(xí)方法來(lái)解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。
2020年,DeepMind 團(tuán)隊(duì)推出了突破性工具 AlphaFold,并經(jīng)歷了不斷的發(fā)展和完善。該模型利用深度學(xué)習(xí)精確預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu),顯著提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性和速度,為生物學(xué)研究帶來(lái)了革命性進(jìn)展。AlphaFold 使用深度學(xué)習(xí)模型,通過(guò)分析多序列比對(duì) (MSA) 中的進(jìn)化協(xié)變數(shù)據(jù),預(yù)測(cè)氨基酸殘基之間的距離,從而揭示蛋白質(zhì)結(jié)構(gòu)的空間構(gòu)造。。神經(jīng)網(wǎng)絡(luò)會(huì)預(yù)測(cè)一個(gè) “距離圖 ”或殘基-殘基距離的概率圖,為折疊過(guò)程提供指導(dǎo)。利用這些距離信息,該模型會(huì)進(jìn)行優(yōu)化(如梯度下降),以確定蛋白質(zhì)的最終三維結(jié)構(gòu)。
2020年,AlphaFold 2.0 在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽 CASP14 上一鳴驚人,獲得了98.5%的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)率。作為 Alphafold 的升級(jí)版本,它能在幾分鐘內(nèi)預(yù)測(cè)出典型蛋白質(zhì)的結(jié)構(gòu),精度通常在 1 ? 以內(nèi),接近碳原子寬度(約 1.4 ?)。這種精確度代表了計(jì)算生物學(xué)的重大飛躍,為了解蛋白質(zhì)折疊的復(fù)雜性提供了強(qiáng)有力的工具。
AlphaFold 2.0 引入了一種名為 Evoformer 的先進(jìn)神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)利用進(jìn)化和空間關(guān)系處理多序列比對(duì)(MSA)和成對(duì)殘基信息。通過(guò)三角更新和注意力機(jī)制,幫助模型捕捉遠(yuǎn)程依賴性和空間關(guān)系,這對(duì)準(zhǔn)確預(yù)測(cè)蛋白質(zhì)折疊至關(guān)重要。它還包括一個(gè)結(jié)構(gòu)模塊,直接預(yù)測(cè)三維原子坐標(biāo),并采用循環(huán)機(jī)制進(jìn)行迭代優(yōu)化。通過(guò)端到端訓(xùn)練和獨(dú)特的自蒸餾過(guò)程,AlphaFold 2達(dá)到了接近實(shí)驗(yàn)的精度,能夠預(yù)測(cè)以前具有挑戰(zhàn)性的復(fù)雜和新型結(jié)構(gòu)。
AlphaFold 2.0 模型架構(gòu)
2021年, David Baker的團(tuán)隊(duì)推出了革命性工具 RoseTTAFold。這一開(kāi)源蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具采用了獨(dú)特的三軌網(wǎng)絡(luò)架構(gòu),能夠同時(shí)處理序列、距離和坐標(biāo)信息,使得預(yù)測(cè)的精準(zhǔn)度和速度顯著提高。
? 序列軌道:處理氨基酸序列信息。
? 距離軌道:處理氨基酸對(duì)之間相互作用的信息。
? 坐標(biāo)軌道:處理局部結(jié)構(gòu)特征,如二級(jí)結(jié)構(gòu)和溶劑可及性。
RoseTTAFold 的三維軌道架構(gòu)
該模型在不同通道中同時(shí)處理序列、距離和坐標(biāo)信息,通過(guò)通道間的信息不斷交換來(lái)迭代完善蛋白質(zhì)結(jié)構(gòu)。RoseTTAFold 的設(shè)計(jì)實(shí)現(xiàn)了一種多任務(wù)學(xué)習(xí)方法,可以同時(shí)優(yōu)化多個(gè)相關(guān)任務(wù),如距離圖預(yù)測(cè)、角度圖預(yù)測(cè)和接觸圖預(yù)測(cè),有助于提高整體預(yù)測(cè)精度。
人工智能在蛋白質(zhì)功能預(yù)測(cè)中的作用
蛋白質(zhì)的功能是在基因本體(GO)中被定義的,其依據(jù)分子功能(MFO)、在生物過(guò)程里的作用(BPO)以及在細(xì)胞成分中的位置(CCO)來(lái)對(duì)蛋白質(zhì)實(shí)施分類。借助對(duì)同源蛋白質(zhì)的注釋,諸如UniProtKB/Swiss - Prot這類數(shù)據(jù)庫(kù),為數(shù)千種生物以及超過(guò)55萬(wàn)種蛋白質(zhì)提供了經(jīng)過(guò)整理的GO數(shù)據(jù)。
然而,數(shù)據(jù)庫(kù)中大部分蛋白質(zhì)缺少功能注釋,現(xiàn)有的注釋大多源于耗時(shí)的實(shí)驗(yàn)?;贏I的預(yù)測(cè)方法,融合了氨基酸序列、結(jié)構(gòu)信息以及蛋白質(zhì) - 蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),使得蛋白質(zhì)功能預(yù)測(cè)更加高效,顯著提高了預(yù)測(cè)準(zhǔn)確性和速度。這為填補(bǔ)蛋白質(zhì)功能注釋的空白提供了可擴(kuò)展的解決方案。。通過(guò)運(yùn)用深度學(xué)習(xí)和文獻(xiàn)知識(shí),這些工具能夠更高效且更精準(zhǔn)地進(jìn)行功能預(yù)測(cè),從而加深我們對(duì)蛋白質(zhì)在健康和疾病中所起作用的理解。
DeepGO 是第一個(gè)基于深度學(xué)習(xí)的預(yù)測(cè)模型,它通過(guò)將深度學(xué)習(xí)應(yīng)用于蛋白質(zhì)序列和相互作用數(shù)據(jù)來(lái)預(yù)測(cè)蛋白質(zhì)功能。該模型以蛋白質(zhì)的氨基酸序列作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從中提取特征。DeepGO 還結(jié)合了蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),使模型能夠利用蛋白質(zhì)之間的功能關(guān)系。通過(guò)這種方法,DeepGO 分配基因本體(GO)術(shù)語(yǔ),根據(jù)分子功能、生物過(guò)程和細(xì)胞成分對(duì)蛋白質(zhì)功能進(jìn)行分類,這對(duì)全面的蛋白質(zhì)功能預(yù)測(cè)很有效果。
DeepGO-SE 是一種用于蛋白質(zhì)功能預(yù)測(cè)的高級(jí)模型,它通過(guò)一種稱為近似語(yǔ)義蘊(yùn)含的過(guò)程,將基因本體(GO) 中的知識(shí)納入其中。該模型的運(yùn)行分為三個(gè)關(guān)鍵步驟:
1. 構(gòu)建近似模型:利用GO的公理和蛋白質(zhì)功能斷言創(chuàng)建近似模型,其中ELEmbeddings以幾何表示法捕捉GO 中的語(yǔ)義關(guān)系。
2. 蛋白質(zhì)嵌入和優(yōu)化:蛋白質(zhì)序列用預(yù)訓(xùn)練的ESM2模型的嵌入表示。然后在近似模型中對(duì)這些嵌入進(jìn)行定位,以最大限度地提高“蛋白質(zhì)具有C功能 ”這樣的語(yǔ)句的可能性,從而指導(dǎo)精確的功能預(yù)測(cè)。
3. 多模型聚合:重復(fù)這個(gè)過(guò)程以生成多個(gè)模型,最終預(yù)測(cè)基于所有模型中都成立的真值,有效地捕捉蘊(yùn)含關(guān)系。
DeepGO-SE模型
人工智能在蛋白質(zhì)設(shè)計(jì)中的應(yīng)用
蛋白質(zhì)設(shè)計(jì)已經(jīng)有了顯著的發(fā)展,從最初通過(guò)PCR的誘變引入特定突變來(lái)調(diào)控蛋白質(zhì)結(jié)構(gòu),到應(yīng)用先進(jìn)計(jì)算方法構(gòu)建具有所需特性的新型蛋白質(zhì)。如今,隨著結(jié)構(gòu)生物學(xué)、計(jì)算建模的快速發(fā)展,AI蛋白質(zhì)設(shè)計(jì)比以往任何時(shí)候都更加精確,也更容易獲得。AI驅(qū)動(dòng)的設(shè)計(jì)技術(shù)既能優(yōu)化蛋白質(zhì),增強(qiáng)蛋白質(zhì)的天然功能(如親和力和穩(wěn)定性),還具備從頭構(gòu)建全新蛋白質(zhì)的能力,以實(shí)現(xiàn)特定的功能、結(jié)構(gòu)和應(yīng)用,為藥物發(fā)現(xiàn)、工業(yè)酶工程等領(lǐng)域帶來(lái)前所未有的創(chuàng)新可能性。
ProteinMPNN 是一種用于高效蛋白質(zhì)序列設(shè)計(jì)的深度學(xué)習(xí)模型,它繞過(guò)了傳統(tǒng)基于物理的方法(如Rosetta)的計(jì)算需求。通過(guò)直接從結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)并編碼空間關(guān)系, ProteinMPNN 能準(zhǔn)確預(yù)測(cè)折疊成目標(biāo)結(jié)構(gòu)的序列。該模型在設(shè)計(jì)復(fù)雜的組裝(如四面體納米粒子)和保持結(jié)合親和力(即使發(fā)生點(diǎn)突變)方面表現(xiàn)出色。該模型能夠創(chuàng)建各種類型的蛋白質(zhì),包括單體、組裝體和納米顆粒,是提高蛋白質(zhì)溶解度、穩(wěn)定性和功能性的強(qiáng)大工具。
RFdiffusion 采用創(chuàng)新方法,利用擴(kuò)散模型,通過(guò)迭代去噪,將蛋白質(zhì)骨架從最初的噪音細(xì)化為現(xiàn)實(shí)結(jié)構(gòu)。通過(guò)結(jié)合特定的結(jié)構(gòu)基序,它創(chuàng)造出多樣化、復(fù)雜的蛋白質(zhì),以滿足特定需求,如對(duì)稱組裝體和功能基序。RFdiffusion在生成新型拓?fù)浣Y(jié)構(gòu)方面的精確性使其能夠應(yīng)用于前沿領(lǐng)域,從治療支架到復(fù)雜結(jié)構(gòu)設(shè)計(jì)。
利用RFdiffusion設(shè)計(jì)蛋白質(zhì)
ProGen 借鑒NLP的語(yǔ)言模型技術(shù),生成反映進(jìn)化模式和生化特性的蛋白質(zhì)序列,從而能夠創(chuàng)建具有特定功能的序列。ProGen使用轉(zhuǎn)換器來(lái)模擬驅(qū)動(dòng)穩(wěn)定性和功能性的序列特征,使其高度適用于各種應(yīng)用,從酶設(shè)計(jì)到生成具有特定結(jié)合親和力的序列。
利用條件語(yǔ)言建模生成人工蛋白質(zhì)
AlphaProteo 專注于創(chuàng)建高親和力蛋白質(zhì)結(jié)合劑,利用結(jié)構(gòu)引導(dǎo)序列生成技術(shù)開(kāi)發(fā)針對(duì)精確蛋白質(zhì)位點(diǎn)的結(jié)合劑。通過(guò)將生成模型與高級(jí)過(guò)濾器相結(jié)合。AlphaProteo在生產(chǎn)針對(duì)具有挑戰(zhàn)性的目標(biāo)(如病毒和癌癥相關(guān)蛋白質(zhì))的結(jié)合劑方面表現(xiàn)出色,在許多情況下實(shí)現(xiàn)了亞納摩爾親和力。它能夠簡(jiǎn)化粘合劑設(shè)計(jì),減少優(yōu)化次數(shù),為治療開(kāi)發(fā)開(kāi)辟了新的可能性。
AlphaProteo 在測(cè)試的七種目標(biāo)蛋白質(zhì)上都有較高的實(shí)驗(yàn)成功率。在濕實(shí)驗(yàn)室測(cè)試中,9% 到 88% 的候選分子成功結(jié)合,比其他方法高 5 到 100 倍;比現(xiàn)有最佳方法的結(jié)合親和力高 3 到 300 倍。
從AI蛋白設(shè)計(jì)到濕實(shí)驗(yàn)驗(yàn)證
研究人員現(xiàn)在能夠直接從序列和結(jié)構(gòu)數(shù)據(jù)中生成針對(duì)特定功能(如結(jié)合親和力、穩(wěn)定性和催化活性)優(yōu)化的蛋白質(zhì)。然而,將這些計(jì)算設(shè)計(jì)轉(zhuǎn)化為功能性、可靠的蛋白質(zhì)需要嚴(yán)格的濕實(shí)驗(yàn)驗(yàn)證,以確保結(jié)合親和力、穩(wěn)定性和生物活性等特性。在濕實(shí)驗(yàn)驗(yàn)證過(guò)程中,科學(xué)家面臨許多挑戰(zhàn),復(fù)雜蛋白質(zhì)的結(jié)構(gòu)和性質(zhì)可能導(dǎo)致其在表達(dá)過(guò)程中出現(xiàn)折疊異?;蛐纬蔁o(wú)活性的聚集體,極大地降低表達(dá)效率。濕實(shí)驗(yàn)的數(shù)據(jù)反饋至關(guān)重要,可用于進(jìn)一步優(yōu)化AI模型,從而提高模型對(duì)未來(lái)設(shè)計(jì)的精準(zhǔn)度和有效性。
泓迅生物為研究人員提供了一站式解決方案,簡(jiǎn)化了從數(shù)字序列到經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)產(chǎn)品的過(guò)程。與我們合作,您只需提供蛋白質(zhì)序列,我們會(huì)處理從密碼子優(yōu)化和基因合成到表達(dá)系統(tǒng)選擇、蛋白質(zhì)純化和功能驗(yàn)證的每一個(gè)細(xì)節(jié)。
- 密碼子優(yōu)化:我們的NG Codon技術(shù)提高表達(dá),針對(duì)您的特定表達(dá)系統(tǒng)進(jìn)行了優(yōu)化。
- 基因合成與克隆:高保真基因合成并克隆到任何指定的載體中。
- 表達(dá)系統(tǒng)篩選:可使用細(xì)菌、酵母、昆蟲(chóng)和哺乳動(dòng)物宿主進(jìn)行定制表達(dá)。
- 重組抗體表達(dá):通過(guò)整合抗體基因序列、從頭抗體設(shè)計(jì)、抗體人化、抗體基因合成、重組抗體表達(dá)、單克隆抗體制備和多克隆抗體制備,涵蓋抗體發(fā)現(xiàn)的所有階段。
- 大規(guī)模蛋白質(zhì)生產(chǎn):靈活的生產(chǎn)規(guī)格,從微克到克,以支持任何規(guī)模的項(xiàng)目。
- 質(zhì)量與功能驗(yàn)證:全面的測(cè)試確保最終蛋白質(zhì)或抗體產(chǎn)品的可靠性、活性和功能性。
全球AI蛋白質(zhì)公司
部分公司,聯(lián)系我們申請(qǐng)完整版本
AI在蛋白質(zhì)科學(xué)中的應(yīng)用多樣性已經(jīng)在重塑藥物發(fā)現(xiàn)、精準(zhǔn)醫(yī)學(xué)和合成生物學(xué)。由David Baker等先驅(qū)孵化的公司正在使用深度學(xué)習(xí)來(lái)解決關(guān)鍵的生物學(xué)挑戰(zhàn),包括藥物開(kāi)發(fā)、多肽設(shè)計(jì)、小分子結(jié)合蛋白質(zhì)工程和新型材料合成。隨著AI加速和增強(qiáng)蛋白質(zhì)設(shè)計(jì)的能力得到證明,其在生物技術(shù)中的作用預(yù)計(jì)將不斷增長(zhǎng),為定制療法和創(chuàng)新生物材料開(kāi)辟新的可能性,并推動(dòng)生命科學(xué)領(lǐng)域的邊界不斷拓展。
References
[1] Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.
[2] Baek, Minkyung, et al. "Accurate prediction of protein structures and interactions using a three-track neural network." Science 373.6557 (2021): 871-876.
[3] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106.
[4] Senior, Andrew W., et al. "Improved protein structure prediction using potentials from deep learning." Nature 577.7792 (2020): 706-710.
[5] Zambaldi, Vinicius, et al. "De novo design of high-affinity protein binders with AlphaProteo." arXiv preprint arXiv:2409.08022 (2024).
[6] Kulmanov, Maxat, et al. "Protein function prediction as approximate semantic entailment." Nature Machine Intelligence 6.2 (2024): 220-228.
[7] Watson, Joseph L., et al. "De novo design of protein structure and function with RFdiffusion." Nature 620.7976 (2023): 1089-1100.