首頁(yè) > 活動(dòng)資源中心 > 服務(wù)產(chǎn)品技術(shù)分享 > AI賦能型蛋白質(zhì)生產(chǎn)需要哪些技術(shù)?
AI賦能型蛋白質(zhì)生產(chǎn)需要哪些技術(shù)?
發(fā)布時(shí)間:2024-12-25

在生物技術(shù)的前沿領(lǐng)域,AI 正在掀起一場(chǎng)蛋白質(zhì)研究的革命。AI 幫助科學(xué)家以前所未有的精度預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)和功能、從頭設(shè)計(jì)新型蛋白質(zhì)、解開(kāi)生命分子層面的奧秘。蛋白質(zhì)生產(chǎn)技術(shù)的進(jìn)步,如AlphaFold 和人工智能驅(qū)動(dòng)技術(shù),不僅改寫(xiě)了蛋白質(zhì)研究的規(guī)則,也為從藥物開(kāi)發(fā)到疾病診斷和合成生物學(xué)等各個(gè)領(lǐng)域帶來(lái)了許多可能性。


人工智能在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的作用


蛋白質(zhì)研究一直是生物技術(shù)領(lǐng)域中的核心難題,其復(fù)雜性源于蛋白質(zhì)多樣的三維結(jié)構(gòu)和動(dòng)態(tài)特性。長(zhǎng)期以來(lái),科學(xué)家們一直使用X射線晶體學(xué)、核磁共振(NMR)和冷凍電子顯微鏡等傳統(tǒng)工具來(lái)解析蛋白質(zhì)結(jié)構(gòu)。然而,這些方法往往成本高昂、耗時(shí),并對(duì)特定蛋白質(zhì)類型的解析存在局限性。這些傳統(tǒng)技術(shù)在應(yīng)對(duì)蛋白質(zhì)的動(dòng)態(tài)性和環(huán)境依賴性方面也有較大挑戰(zhàn),導(dǎo)致實(shí)際解析的結(jié)構(gòu)可能無(wú)法準(zhǔn)確反映蛋白質(zhì)在生理?xiàng)l件下的狀態(tài)。科學(xué)家們亟需新的工具,能夠更快速、高效、低成本地完成復(fù)雜蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)與解析,以滿足現(xiàn)代生命科學(xué)研究的需求。


AI如何突破蛋白質(zhì)研究困境?

隨著計(jì)算機(jī)技術(shù)和算法的不斷進(jìn)步,科學(xué)家們開(kāi)始探索使用人工智能和機(jī)器學(xué)習(xí)方法來(lái)解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。


2020年,DeepMind 團(tuán)隊(duì)推出了突破性工具 AlphaFold,并經(jīng)歷了不斷的發(fā)展和完善。該模型利用深度學(xué)習(xí)精確預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu),顯著提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性和速度,為生物學(xué)研究帶來(lái)了革命性進(jìn)展。AlphaFold 使用深度學(xué)習(xí)模型,通過(guò)分析多序列比對(duì) (MSA) 中的進(jìn)化協(xié)變數(shù)據(jù),預(yù)測(cè)氨基酸殘基之間的距離,從而揭示蛋白質(zhì)結(jié)構(gòu)的空間構(gòu)造。。神經(jīng)網(wǎng)絡(luò)會(huì)預(yù)測(cè)一個(gè) “距離圖 ”或殘基-殘基距離的概率圖,為折疊過(guò)程提供指導(dǎo)。利用這些距離信息,該模型會(huì)進(jìn)行優(yōu)化(如梯度下降),以確定蛋白質(zhì)的最終三維結(jié)構(gòu)。


2020年,AlphaFold 2.0 在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽 CASP14 上一鳴驚人,獲得了98.5%的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)率。作為 Alphafold 的升級(jí)版本,它能在幾分鐘內(nèi)預(yù)測(cè)出典型蛋白質(zhì)的結(jié)構(gòu),精度通常在 1 ? 以內(nèi),接近碳原子寬度(約 1.4 ?)。這種精確度代表了計(jì)算生物學(xué)的重大飛躍,為了解蛋白質(zhì)折疊的復(fù)雜性提供了強(qiáng)有力的工具。


AlphaFold 2.0 引入了一種名為 Evoformer 的先進(jìn)神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)利用進(jìn)化和空間關(guān)系處理多序列比對(duì)(MSA)和成對(duì)殘基信息。通過(guò)三角更新和注意力機(jī)制,幫助模型捕捉遠(yuǎn)程依賴性和空間關(guān)系,這對(duì)準(zhǔn)確預(yù)測(cè)蛋白質(zhì)折疊至關(guān)重要。它還包括一個(gè)結(jié)構(gòu)模塊,直接預(yù)測(cè)三維原子坐標(biāo),并采用循環(huán)機(jī)制進(jìn)行迭代優(yōu)化。通過(guò)端到端訓(xùn)練和獨(dú)特的自蒸餾過(guò)程,AlphaFold 2達(dá)到了接近實(shí)驗(yàn)的精度,能夠預(yù)測(cè)以前具有挑戰(zhàn)性的復(fù)雜和新型結(jié)構(gòu)。

AlphaFold 2.0 模型架構(gòu)

AlphaFold 2.0 模型架構(gòu)


2021年, David Baker的團(tuán)隊(duì)推出了革命性工具 RoseTTAFold。這一開(kāi)源蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具采用了獨(dú)特的三軌網(wǎng)絡(luò)架構(gòu),能夠同時(shí)處理序列、距離和坐標(biāo)信息,使得預(yù)測(cè)的精準(zhǔn)度和速度顯著提高。

? 序列軌道:處理氨基酸序列信息。

? 距離軌道:處理氨基酸對(duì)之間相互作用的信息。

? 坐標(biāo)軌道:處理局部結(jié)構(gòu)特征,如二級(jí)結(jié)構(gòu)和溶劑可及性。

RoseTTAFold 的三維軌道架構(gòu)

RoseTTAFold 的三維軌道架構(gòu)


該模型在不同通道中同時(shí)處理序列、距離和坐標(biāo)信息,通過(guò)通道間的信息不斷交換來(lái)迭代完善蛋白質(zhì)結(jié)構(gòu)。RoseTTAFold 的設(shè)計(jì)實(shí)現(xiàn)了一種多任務(wù)學(xué)習(xí)方法,可以同時(shí)優(yōu)化多個(gè)相關(guān)任務(wù),如距離圖預(yù)測(cè)、角度圖預(yù)測(cè)和接觸圖預(yù)測(cè),有助于提高整體預(yù)測(cè)精度。



人工智能在蛋白質(zhì)功能預(yù)測(cè)中的作用


蛋白質(zhì)的功能是在基因本體(GO)中被定義的,其依據(jù)分子功能(MFO)、在生物過(guò)程里的作用(BPO)以及在細(xì)胞成分中的位置(CCO)來(lái)對(duì)蛋白質(zhì)實(shí)施分類。借助對(duì)同源蛋白質(zhì)的注釋,諸如UniProtKB/Swiss - Prot這類數(shù)據(jù)庫(kù),為數(shù)千種生物以及超過(guò)55萬(wàn)種蛋白質(zhì)提供了經(jīng)過(guò)整理的GO數(shù)據(jù)。


然而,數(shù)據(jù)庫(kù)中大部分蛋白質(zhì)缺少功能注釋,現(xiàn)有的注釋大多源于耗時(shí)的實(shí)驗(yàn)?;贏I的預(yù)測(cè)方法,融合了氨基酸序列、結(jié)構(gòu)信息以及蛋白質(zhì) - 蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),使得蛋白質(zhì)功能預(yù)測(cè)更加高效,顯著提高了預(yù)測(cè)準(zhǔn)確性和速度。這為填補(bǔ)蛋白質(zhì)功能注釋的空白提供了可擴(kuò)展的解決方案。。通過(guò)運(yùn)用深度學(xué)習(xí)和文獻(xiàn)知識(shí),這些工具能夠更高效且更精準(zhǔn)地進(jìn)行功能預(yù)測(cè),從而加深我們對(duì)蛋白質(zhì)在健康和疾病中所起作用的理解。


DeepGO 是第一個(gè)基于深度學(xué)習(xí)的預(yù)測(cè)模型,它通過(guò)將深度學(xué)習(xí)應(yīng)用于蛋白質(zhì)序列和相互作用數(shù)據(jù)來(lái)預(yù)測(cè)蛋白質(zhì)功能。該模型以蛋白質(zhì)的氨基酸序列作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從中提取特征。DeepGO 還結(jié)合了蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),使模型能夠利用蛋白質(zhì)之間的功能關(guān)系。通過(guò)這種方法,DeepGO 分配基因本體(GO)術(shù)語(yǔ),根據(jù)分子功能、生物過(guò)程和細(xì)胞成分對(duì)蛋白質(zhì)功能進(jìn)行分類,這對(duì)全面的蛋白質(zhì)功能預(yù)測(cè)很有效果。


DeepGO-SE 是一種用于蛋白質(zhì)功能預(yù)測(cè)的高級(jí)模型,它通過(guò)一種稱為近似語(yǔ)義蘊(yùn)含的過(guò)程,將基因本體(GO) 中的知識(shí)納入其中。該模型的運(yùn)行分為三個(gè)關(guān)鍵步驟:

1. 構(gòu)建近似模型:利用GO的公理和蛋白質(zhì)功能斷言創(chuàng)建近似模型,其中ELEmbeddings以幾何表示法捕捉GO 中的語(yǔ)義關(guān)系。

2. 蛋白質(zhì)嵌入和優(yōu)化:蛋白質(zhì)序列用預(yù)訓(xùn)練的ESM2模型的嵌入表示。然后在近似模型中對(duì)這些嵌入進(jìn)行定位,以最大限度地提高“蛋白質(zhì)具有C功能 ”這樣的語(yǔ)句的可能性,從而指導(dǎo)精確的功能預(yù)測(cè)。

3. 多模型聚合:重復(fù)這個(gè)過(guò)程以生成多個(gè)模型,最終預(yù)測(cè)基于所有模型中都成立的真值,有效地捕捉蘊(yùn)含關(guān)系。

DeepGO-SE模型

DeepGO-SE模型



人工智能在蛋白質(zhì)設(shè)計(jì)中的應(yīng)用


蛋白質(zhì)設(shè)計(jì)已經(jīng)有了顯著的發(fā)展,從最初通過(guò)PCR的誘變引入特定突變來(lái)調(diào)控蛋白質(zhì)結(jié)構(gòu),到應(yīng)用先進(jìn)計(jì)算方法構(gòu)建具有所需特性的新型蛋白質(zhì)。如今,隨著結(jié)構(gòu)生物學(xué)、計(jì)算建模的快速發(fā)展,AI蛋白質(zhì)設(shè)計(jì)比以往任何時(shí)候都更加精確,也更容易獲得。AI驅(qū)動(dòng)的設(shè)計(jì)技術(shù)既能優(yōu)化蛋白質(zhì),增強(qiáng)蛋白質(zhì)的天然功能(如親和力和穩(wěn)定性),還具備從頭構(gòu)建全新蛋白質(zhì)的能力,以實(shí)現(xiàn)特定的功能、結(jié)構(gòu)和應(yīng)用,為藥物發(fā)現(xiàn)、工業(yè)酶工程等領(lǐng)域帶來(lái)前所未有的創(chuàng)新可能性。


ProteinMPNN 是一種用于高效蛋白質(zhì)序列設(shè)計(jì)的深度學(xué)習(xí)模型,它繞過(guò)了傳統(tǒng)基于物理的方法(如Rosetta)的計(jì)算需求。通過(guò)直接從結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)并編碼空間關(guān)系, ProteinMPNN 能準(zhǔn)確預(yù)測(cè)折疊成目標(biāo)結(jié)構(gòu)的序列。該模型在設(shè)計(jì)復(fù)雜的組裝(如四面體納米粒子)和保持結(jié)合親和力(即使發(fā)生點(diǎn)突變)方面表現(xiàn)出色。該模型能夠創(chuàng)建各種類型的蛋白質(zhì),包括單體、組裝體和納米顆粒,是提高蛋白質(zhì)溶解度、穩(wěn)定性和功能性的強(qiáng)大工具。


RFdiffusion 采用創(chuàng)新方法,利用擴(kuò)散模型,通過(guò)迭代去噪,將蛋白質(zhì)骨架從最初的噪音細(xì)化為現(xiàn)實(shí)結(jié)構(gòu)。通過(guò)結(jié)合特定的結(jié)構(gòu)基序,它創(chuàng)造出多樣化、復(fù)雜的蛋白質(zhì),以滿足特定需求,如對(duì)稱組裝體和功能基序。RFdiffusion在生成新型拓?fù)浣Y(jié)構(gòu)方面的精確性使其能夠應(yīng)用于前沿領(lǐng)域,從治療支架到復(fù)雜結(jié)構(gòu)設(shè)計(jì)。

利用RFdiffusion設(shè)計(jì)蛋白質(zhì)

利用RFdiffusion設(shè)計(jì)蛋白質(zhì)


ProGen 借鑒NLP的語(yǔ)言模型技術(shù),生成反映進(jìn)化模式和生化特性的蛋白質(zhì)序列,從而能夠創(chuàng)建具有特定功能的序。ProGen使用轉(zhuǎn)換器來(lái)模擬驅(qū)動(dòng)穩(wěn)定性和功能性的序列特征,使其高度適用于各種應(yīng)用,從酶設(shè)計(jì)到生成具有特定結(jié)合親和力的序列。

利用條件語(yǔ)言建模生成人工蛋白質(zhì)

利用條件語(yǔ)言建模生成人工蛋白質(zhì)


AlphaProteo 專注于創(chuàng)建高親和力蛋白質(zhì)結(jié)合劑,利用結(jié)構(gòu)引導(dǎo)序列生成技術(shù)開(kāi)發(fā)針對(duì)精確蛋白質(zhì)位點(diǎn)的結(jié)合劑。通過(guò)將生成模型與高級(jí)過(guò)濾器相結(jié)合。AlphaProteo在生產(chǎn)針對(duì)具有挑戰(zhàn)性的目標(biāo)(如病毒和癌癥相關(guān)蛋白質(zhì))的結(jié)合劑方面表現(xiàn)出色,在許多情況下實(shí)現(xiàn)了亞納摩爾親和力。它能夠簡(jiǎn)化粘合劑設(shè)計(jì),減少優(yōu)化次數(shù),為治療開(kāi)發(fā)開(kāi)辟了新的可能性。

AlphaProteo 在測(cè)試的七種目標(biāo)蛋白質(zhì)上都有較高的實(shí)驗(yàn)成功率。在濕實(shí)驗(yàn)室測(cè)試中,9% 到 88% 的候選分子成功結(jié)合,比其他方法高 5 到 100 倍;比現(xiàn)有最佳方法的結(jié)合親和力高 3 到 300 倍。

從AI蛋白設(shè)計(jì)到濕實(shí)驗(yàn)驗(yàn)證



從AI蛋白設(shè)計(jì)到濕實(shí)驗(yàn)驗(yàn)證


研究人員現(xiàn)在能夠直接從序列和結(jié)構(gòu)數(shù)據(jù)中生成針對(duì)特定功能(如結(jié)合親和力、穩(wěn)定性和催化活性)優(yōu)化的蛋白質(zhì)。然而,將這些計(jì)算設(shè)計(jì)轉(zhuǎn)化為功能性、可靠的蛋白質(zhì)需要嚴(yán)格的濕實(shí)驗(yàn)驗(yàn)證,以確保結(jié)合親和力、穩(wěn)定性和生物活性等特性。在濕實(shí)驗(yàn)驗(yàn)證過(guò)程中,科學(xué)家面臨許多挑戰(zhàn),復(fù)雜蛋白質(zhì)的結(jié)構(gòu)和性質(zhì)可能導(dǎo)致其在表達(dá)過(guò)程中出現(xiàn)折疊異?;蛐纬蔁o(wú)活性的聚集體,極大地降低表達(dá)效率。濕實(shí)驗(yàn)的數(shù)據(jù)反饋至關(guān)重要,可用于進(jìn)一步優(yōu)化AI模型,從而提高模型對(duì)未來(lái)設(shè)計(jì)的精準(zhǔn)度和有效性。


泓迅生物為研究人員提供了一站式解決方案,簡(jiǎn)化了從數(shù)字序列到經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)產(chǎn)品的過(guò)程。與我們合作,您只需提供蛋白質(zhì)序列,我們會(huì)處理從密碼子優(yōu)化和基因合成到表達(dá)系統(tǒng)選擇、蛋白質(zhì)純化和功能驗(yàn)證的每一個(gè)細(xì)節(jié)。

- 密碼子優(yōu)化:我們的NG Codon技術(shù)提高表達(dá),針對(duì)您的特定表達(dá)系統(tǒng)進(jìn)行了優(yōu)化。

- 基因合成與克隆高保真基因合成并克隆到任何指定的載體中。

- 表達(dá)系統(tǒng)篩選可使用細(xì)菌、酵母、昆蟲(chóng)和哺乳動(dòng)物宿主進(jìn)行定制表達(dá)。

- 重組抗體表達(dá)通過(guò)整合抗體基因序列、從頭抗體設(shè)計(jì)、抗體人化、抗體基因合成、重組抗體表達(dá)、單克隆抗體制備和多克隆抗體制備,涵蓋抗體發(fā)現(xiàn)的所有階段。

大規(guī)模蛋白質(zhì)生產(chǎn):靈活的生產(chǎn)規(guī)格,從微克到克,以支持任何規(guī)模的項(xiàng)目。

- 質(zhì)量與功能驗(yàn)證:全面的測(cè)試確保最終蛋白質(zhì)或抗體產(chǎn)品的可靠性、活性和功能性。



全球AI蛋白質(zhì)公司


部分公司,聯(lián)系我們申請(qǐng)完整版本


AI在蛋白質(zhì)科學(xué)中的應(yīng)用多樣性已經(jīng)在重塑藥物發(fā)現(xiàn)、精準(zhǔn)醫(yī)學(xué)和合成生物學(xué)。由David Baker等先驅(qū)孵化的公司正在使用深度學(xué)習(xí)來(lái)解決關(guān)鍵的生物學(xué)挑戰(zhàn),包括藥物開(kāi)發(fā)、多肽設(shè)計(jì)、小分子結(jié)合蛋白質(zhì)工程和新型材料合成。隨著AI加速和增強(qiáng)蛋白質(zhì)設(shè)計(jì)的能力得到證明,其在生物技術(shù)中的作用預(yù)計(jì)將不斷增長(zhǎng),為定制療法和創(chuàng)新生物材料開(kāi)辟新的可能性,并推動(dòng)生命科學(xué)領(lǐng)域的邊界不斷拓展。


References

[1] Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.

[2] Baek, Minkyung, et al. "Accurate prediction of protein structures and interactions using a three-track neural network." Science 373.6557 (2021): 871-876.

[3] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106.

[4] Senior, Andrew W., et al. "Improved protein structure prediction using potentials from deep learning." Nature 577.7792 (2020): 706-710.

[5] Zambaldi, Vinicius, et al. "De novo design of high-affinity protein binders with AlphaProteo." arXiv preprint arXiv:2409.08022 (2024).

[6] Kulmanov, Maxat, et al. "Protein function prediction as approximate semantic entailment." Nature Machine Intelligence 6.2 (2024): 220-228.

[7] Watson, Joseph L., et al. "De novo design of protein structure and function with RFdiffusion." Nature 620.7976 (2023): 1089-1100.

上一篇無(wú)
全國(guó)服務(wù)熱線:4000-973-630
項(xiàng)目咨詢:support@synbio-tech.com
商業(yè)合作:marketing@synbio-tech.com
質(zhì)量投訴:qc@synbio-tech.com
加入泓迅:hr@synbio-tech.com
技術(shù)服務(wù)
Syno?C 引物合成
Syno?GS 基因合成
載體構(gòu)建
高通量及DNA文庫(kù)構(gòu)建
RNA合成
mRNA合成
病毒包裝
多肽服務(wù)
重組蛋白表達(dá)平臺(tái)
抗體工程平臺(tái)
CRISPR基因編輯平臺(tái)
基因測(cè)序及分析
生物信息學(xué)分析與設(shè)計(jì)
產(chǎn)品中心
CRISPR文庫(kù)
CRISPR 質(zhì)粒
引物成品
ProXpress蛋白快速檢測(cè)
一站式解決方案
人全長(zhǎng)重組膠原蛋白
小核酸原料一站式解決方案
重組蛋白表達(dá)一站式解決方案
CRISPR基因編輯篩選一站式服務(wù)
活動(dòng)資源中心
促銷活動(dòng)
訂單模板下載
宣傳資料下載
在線輔助工具
服務(wù)產(chǎn)品技術(shù)分享
產(chǎn)品服務(wù)視頻
常見(jiàn)問(wèn)題FAQ
客戶發(fā)表文獻(xiàn)
關(guān)于泓迅
企業(yè)簡(jiǎn)介
聯(lián)系我們
招賢納士
泓迅新聞
物流政策
隱私政策
版權(quán)所有 © 2024 蘇州泓迅生物科技股份有限公司 | 蘇ICP備14032156號(hào)-1
我們非常重視您的個(gè)人隱私,當(dāng)您訪問(wèn)我們的網(wǎng)站時(shí),請(qǐng)同意使用的所有cookie。有關(guān)個(gè)人數(shù)據(jù)處理的更多信息可訪問(wèn)《隱私政策》接受