首頁 > 活動資源中心 > 服務(wù)產(chǎn)品技術(shù)分享 > AI賦能型蛋白質(zhì)生產(chǎn)需要哪些技術(shù)?
AI賦能型蛋白質(zhì)生產(chǎn)需要哪些技術(shù)?
發(fā)布時間:2024-12-25

在生物技術(shù)的前沿領(lǐng)域,AI 正在掀起一場蛋白質(zhì)研究的革命。AI 幫助科學(xué)家以前所未有的精度預(yù)測蛋白質(zhì)結(jié)構(gòu)和功能、從頭設(shè)計新型蛋白質(zhì)、解開生命分子層面的奧秘。蛋白質(zhì)生產(chǎn)技術(shù)的進步,如AlphaFold 和人工智能驅(qū)動技術(shù),不僅改寫了蛋白質(zhì)研究的規(guī)則,也為從藥物開發(fā)到疾病診斷和合成生物學(xué)等各個領(lǐng)域帶來了許多可能性。


人工智能在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的作用


蛋白質(zhì)研究一直是生物技術(shù)領(lǐng)域中的核心難題,其復(fù)雜性源于蛋白質(zhì)多樣的三維結(jié)構(gòu)和動態(tài)特性。長期以來,科學(xué)家們一直使用X射線晶體學(xué)、核磁共振(NMR)和冷凍電子顯微鏡等傳統(tǒng)工具來解析蛋白質(zhì)結(jié)構(gòu)。然而,這些方法往往成本高昂、耗時,并對特定蛋白質(zhì)類型的解析存在局限性。這些傳統(tǒng)技術(shù)在應(yīng)對蛋白質(zhì)的動態(tài)性和環(huán)境依賴性方面也有較大挑戰(zhàn),導(dǎo)致實際解析的結(jié)構(gòu)可能無法準(zhǔn)確反映蛋白質(zhì)在生理條件下的狀態(tài)??茖W(xué)家們亟需新的工具,能夠更快速、高效、低成本地完成復(fù)雜蛋白質(zhì)結(jié)構(gòu)的預(yù)測與解析,以滿足現(xiàn)代生命科學(xué)研究的需求。


AI如何突破蛋白質(zhì)研究困境?

隨著計算機技術(shù)和算法的不斷進步,科學(xué)家們開始探索使用人工智能和機器學(xué)習(xí)方法來解決蛋白質(zhì)結(jié)構(gòu)預(yù)測問題。


2020年,DeepMind 團隊推出了突破性工具 AlphaFold,并經(jīng)歷了不斷的發(fā)展和完善。該模型利用深度學(xué)習(xí)精確預(yù)測蛋白質(zhì)三維結(jié)構(gòu),顯著提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性和速度,為生物學(xué)研究帶來了革命性進展。AlphaFold 使用深度學(xué)習(xí)模型,通過分析多序列比對 (MSA) 中的進化協(xié)變數(shù)據(jù),預(yù)測氨基酸殘基之間的距離,從而揭示蛋白質(zhì)結(jié)構(gòu)的空間構(gòu)造。。神經(jīng)網(wǎng)絡(luò)會預(yù)測一個 “距離圖 ”或殘基-殘基距離的概率圖,為折疊過程提供指導(dǎo)。利用這些距離信息,該模型會進行優(yōu)化(如梯度下降),以確定蛋白質(zhì)的最終三維結(jié)構(gòu)。


2020年,AlphaFold 2.0 在蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽 CASP14 上一鳴驚人,獲得了98.5%的蛋白質(zhì)結(jié)構(gòu)預(yù)測率。作為 Alphafold 的升級版本,它能在幾分鐘內(nèi)預(yù)測出典型蛋白質(zhì)的結(jié)構(gòu),精度通常在 1 ? 以內(nèi),接近碳原子寬度(約 1.4 ?)。這種精確度代表了計算生物學(xué)的重大飛躍,為了解蛋白質(zhì)折疊的復(fù)雜性提供了強有力的工具。


AlphaFold 2.0 引入了一種名為 Evoformer 的先進神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)利用進化和空間關(guān)系處理多序列比對(MSA)和成對殘基信息。通過三角更新和注意力機制,幫助模型捕捉遠程依賴性和空間關(guān)系,這對準(zhǔn)確預(yù)測蛋白質(zhì)折疊至關(guān)重要。它還包括一個結(jié)構(gòu)模塊,直接預(yù)測三維原子坐標(biāo),并采用循環(huán)機制進行迭代優(yōu)化。通過端到端訓(xùn)練和獨特的自蒸餾過程,AlphaFold 2達到了接近實驗的精度,能夠預(yù)測以前具有挑戰(zhàn)性的復(fù)雜和新型結(jié)構(gòu)。

AlphaFold 2.0 模型架構(gòu)

AlphaFold 2.0 模型架構(gòu)


2021年, David Baker的團隊推出了革命性工具 RoseTTAFold。這一開源蛋白質(zhì)結(jié)構(gòu)預(yù)測工具采用了獨特的三軌網(wǎng)絡(luò)架構(gòu),能夠同時處理序列、距離和坐標(biāo)信息,使得預(yù)測的精準(zhǔn)度和速度顯著提高。

? 序列軌道:處理氨基酸序列信息。

? 距離軌道:處理氨基酸對之間相互作用的信息。

? 坐標(biāo)軌道:處理局部結(jié)構(gòu)特征,如二級結(jié)構(gòu)和溶劑可及性。

RoseTTAFold 的三維軌道架構(gòu)

RoseTTAFold 的三維軌道架構(gòu)


該模型在不同通道中同時處理序列、距離和坐標(biāo)信息,通過通道間的信息不斷交換來迭代完善蛋白質(zhì)結(jié)構(gòu)。RoseTTAFold 的設(shè)計實現(xiàn)了一種多任務(wù)學(xué)習(xí)方法,可以同時優(yōu)化多個相關(guān)任務(wù),如距離圖預(yù)測、角度圖預(yù)測和接觸圖預(yù)測,有助于提高整體預(yù)測精度。



人工智能在蛋白質(zhì)功能預(yù)測中的作用


蛋白質(zhì)的功能是在基因本體(GO)中被定義的,其依據(jù)分子功能(MFO)、在生物過程里的作用(BPO)以及在細(xì)胞成分中的位置(CCO)來對蛋白質(zhì)實施分類。借助對同源蛋白質(zhì)的注釋,諸如UniProtKB/Swiss - Prot這類數(shù)據(jù)庫,為數(shù)千種生物以及超過55萬種蛋白質(zhì)提供了經(jīng)過整理的GO數(shù)據(jù)。


然而,數(shù)據(jù)庫中大部分蛋白質(zhì)缺少功能注釋,現(xiàn)有的注釋大多源于耗時的實驗?;贏I的預(yù)測方法,融合了氨基酸序列、結(jié)構(gòu)信息以及蛋白質(zhì) - 蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),使得蛋白質(zhì)功能預(yù)測更加高效,顯著提高了預(yù)測準(zhǔn)確性和速度。這為填補蛋白質(zhì)功能注釋的空白提供了可擴展的解決方案。。通過運用深度學(xué)習(xí)和文獻知識,這些工具能夠更高效且更精準(zhǔn)地進行功能預(yù)測,從而加深我們對蛋白質(zhì)在健康和疾病中所起作用的理解。


DeepGO 是第一個基于深度學(xué)習(xí)的預(yù)測模型,它通過將深度學(xué)習(xí)應(yīng)用于蛋白質(zhì)序列和相互作用數(shù)據(jù)來預(yù)測蛋白質(zhì)功能。該模型以蛋白質(zhì)的氨基酸序列作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從中提取特征。DeepGO 還結(jié)合了蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),使模型能夠利用蛋白質(zhì)之間的功能關(guān)系。通過這種方法,DeepGO 分配基因本體(GO)術(shù)語,根據(jù)分子功能、生物過程和細(xì)胞成分對蛋白質(zhì)功能進行分類,這對全面的蛋白質(zhì)功能預(yù)測很有效果。


DeepGO-SE 是一種用于蛋白質(zhì)功能預(yù)測的高級模型,它通過一種稱為近似語義蘊含的過程,將基因本體(GO) 中的知識納入其中。該模型的運行分為三個關(guān)鍵步驟:

1. 構(gòu)建近似模型:利用GO的公理和蛋白質(zhì)功能斷言創(chuàng)建近似模型,其中ELEmbeddings以幾何表示法捕捉GO 中的語義關(guān)系。

2. 蛋白質(zhì)嵌入和優(yōu)化:蛋白質(zhì)序列用預(yù)訓(xùn)練的ESM2模型的嵌入表示。然后在近似模型中對這些嵌入進行定位,以最大限度地提高“蛋白質(zhì)具有C功能 ”這樣的語句的可能性,從而指導(dǎo)精確的功能預(yù)測。

3. 多模型聚合:重復(fù)這個過程以生成多個模型,最終預(yù)測基于所有模型中都成立的真值,有效地捕捉蘊含關(guān)系。

DeepGO-SE模型

DeepGO-SE模型



人工智能在蛋白質(zhì)設(shè)計中的應(yīng)用


蛋白質(zhì)設(shè)計已經(jīng)有了顯著的發(fā)展,從最初通過PCR的誘變引入特定突變來調(diào)控蛋白質(zhì)結(jié)構(gòu),到應(yīng)用先進計算方法構(gòu)建具有所需特性的新型蛋白質(zhì)。如今,隨著結(jié)構(gòu)生物學(xué)、計算建模的快速發(fā)展,AI蛋白質(zhì)設(shè)計比以往任何時候都更加精確,也更容易獲得。AI驅(qū)動的設(shè)計技術(shù)既能優(yōu)化蛋白質(zhì),增強蛋白質(zhì)的天然功能(如親和力和穩(wěn)定性),還具備從頭構(gòu)建全新蛋白質(zhì)的能力,以實現(xiàn)特定的功能、結(jié)構(gòu)和應(yīng)用,為藥物發(fā)現(xiàn)、工業(yè)酶工程等領(lǐng)域帶來前所未有的創(chuàng)新可能性。


ProteinMPNN 是一種用于高效蛋白質(zhì)序列設(shè)計的深度學(xué)習(xí)模型,它繞過了傳統(tǒng)基于物理的方法(如Rosetta)的計算需求。通過直接從結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)并編碼空間關(guān)系, ProteinMPNN 能準(zhǔn)確預(yù)測折疊成目標(biāo)結(jié)構(gòu)的序列。該模型在設(shè)計復(fù)雜的組裝(如四面體納米粒子)和保持結(jié)合親和力(即使發(fā)生點突變)方面表現(xiàn)出色。該模型能夠創(chuàng)建各種類型的蛋白質(zhì),包括單體、組裝體和納米顆粒,是提高蛋白質(zhì)溶解度、穩(wěn)定性和功能性的強大工具。


RFdiffusion 采用創(chuàng)新方法,利用擴散模型,通過迭代去噪,將蛋白質(zhì)骨架從最初的噪音細(xì)化為現(xiàn)實結(jié)構(gòu)。通過結(jié)合特定的結(jié)構(gòu)基序,它創(chuàng)造出多樣化、復(fù)雜的蛋白質(zhì),以滿足特定需求,如對稱組裝體和功能基序。RFdiffusion在生成新型拓?fù)浣Y(jié)構(gòu)方面的精確性使其能夠應(yīng)用于前沿領(lǐng)域,從治療支架到復(fù)雜結(jié)構(gòu)設(shè)計。

利用RFdiffusion設(shè)計蛋白質(zhì)

利用RFdiffusion設(shè)計蛋白質(zhì)


ProGen 借鑒NLP的語言模型技術(shù),生成反映進化模式和生化特性的蛋白質(zhì)序列,從而能夠創(chuàng)建具有特定功能的序。ProGen使用轉(zhuǎn)換器來模擬驅(qū)動穩(wěn)定性和功能性的序列特征,使其高度適用于各種應(yīng)用,從酶設(shè)計到生成具有特定結(jié)合親和力的序列。

利用條件語言建模生成人工蛋白質(zhì)

利用條件語言建模生成人工蛋白質(zhì)


AlphaProteo 專注于創(chuàng)建高親和力蛋白質(zhì)結(jié)合劑,利用結(jié)構(gòu)引導(dǎo)序列生成技術(shù)開發(fā)針對精確蛋白質(zhì)位點的結(jié)合劑。通過將生成模型與高級過濾器相結(jié)合。AlphaProteo在生產(chǎn)針對具有挑戰(zhàn)性的目標(biāo)(如病毒和癌癥相關(guān)蛋白質(zhì))的結(jié)合劑方面表現(xiàn)出色,在許多情況下實現(xiàn)了亞納摩爾親和力。它能夠簡化粘合劑設(shè)計,減少優(yōu)化次數(shù),為治療開發(fā)開辟了新的可能性。

AlphaProteo 在測試的七種目標(biāo)蛋白質(zhì)上都有較高的實驗成功率。在濕實驗室測試中,9% 到 88% 的候選分子成功結(jié)合,比其他方法高 5 到 100 倍;比現(xiàn)有最佳方法的結(jié)合親和力高 3 到 300 倍。

從AI蛋白設(shè)計到濕實驗驗證



從AI蛋白設(shè)計到濕實驗驗證


研究人員現(xiàn)在能夠直接從序列和結(jié)構(gòu)數(shù)據(jù)中生成針對特定功能(如結(jié)合親和力、穩(wěn)定性和催化活性)優(yōu)化的蛋白質(zhì)。然而,將這些計算設(shè)計轉(zhuǎn)化為功能性、可靠的蛋白質(zhì)需要嚴(yán)格的濕實驗驗證,以確保結(jié)合親和力、穩(wěn)定性和生物活性等特性。在濕實驗驗證過程中,科學(xué)家面臨許多挑戰(zhàn),復(fù)雜蛋白質(zhì)的結(jié)構(gòu)和性質(zhì)可能導(dǎo)致其在表達過程中出現(xiàn)折疊異?;蛐纬蔁o活性的聚集體,極大地降低表達效率。濕實驗的數(shù)據(jù)反饋至關(guān)重要,可用于進一步優(yōu)化AI模型,從而提高模型對未來設(shè)計的精準(zhǔn)度和有效性。


泓迅生物為研究人員提供了一站式解決方案,簡化了從數(shù)字序列到經(jīng)過實驗驗證的蛋白質(zhì)產(chǎn)品的過程。與我們合作,您只需提供蛋白質(zhì)序列,我們會處理從密碼子優(yōu)化和基因合成到表達系統(tǒng)選擇、蛋白質(zhì)純化和功能驗證的每一個細(xì)節(jié)。

- 密碼子優(yōu)化:我們的NG Codon技術(shù)提高表達,針對您的特定表達系統(tǒng)進行了優(yōu)化。

- 基因合成與克隆高保真基因合成并克隆到任何指定的載體中。

- 表達系統(tǒng)篩選可使用細(xì)菌、酵母、昆蟲和哺乳動物宿主進行定制表達。

- 重組抗體表達通過整合抗體基因序列、從頭抗體設(shè)計、抗體人化、抗體基因合成、重組抗體表達、單克隆抗體制備和多克隆抗體制備,涵蓋抗體發(fā)現(xiàn)的所有階段。

大規(guī)模蛋白質(zhì)生產(chǎn):靈活的生產(chǎn)規(guī)格,從微克到克,以支持任何規(guī)模的項目。

- 質(zhì)量與功能驗證:全面的測試確保最終蛋白質(zhì)或抗體產(chǎn)品的可靠性、活性和功能性。



全球AI蛋白質(zhì)公司


部分公司,聯(lián)系我們申請完整版本


AI在蛋白質(zhì)科學(xué)中的應(yīng)用多樣性已經(jīng)在重塑藥物發(fā)現(xiàn)、精準(zhǔn)醫(yī)學(xué)和合成生物學(xué)。由David Baker等先驅(qū)孵化的公司正在使用深度學(xué)習(xí)來解決關(guān)鍵的生物學(xué)挑戰(zhàn),包括藥物開發(fā)、多肽設(shè)計、小分子結(jié)合蛋白質(zhì)工程和新型材料合成。隨著AI加速和增強蛋白質(zhì)設(shè)計的能力得到證明,其在生物技術(shù)中的作用預(yù)計將不斷增長,為定制療法和創(chuàng)新生物材料開辟新的可能性,并推動生命科學(xué)領(lǐng)域的邊界不斷拓展。


References

[1] Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.

[2] Baek, Minkyung, et al. "Accurate prediction of protein structures and interactions using a three-track neural network." Science 373.6557 (2021): 871-876.

[3] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106.

[4] Senior, Andrew W., et al. "Improved protein structure prediction using potentials from deep learning." Nature 577.7792 (2020): 706-710.

[5] Zambaldi, Vinicius, et al. "De novo design of high-affinity protein binders with AlphaProteo." arXiv preprint arXiv:2409.08022 (2024).

[6] Kulmanov, Maxat, et al. "Protein function prediction as approximate semantic entailment." Nature Machine Intelligence 6.2 (2024): 220-228.

[7] Watson, Joseph L., et al. "De novo design of protein structure and function with RFdiffusion." Nature 620.7976 (2023): 1089-1100.

上一篇
全國服務(wù)熱線:4000-973-630
項目咨詢:support@synbio-tech.com
商業(yè)合作:marketing@synbio-tech.com
質(zhì)量投訴:qc@synbio-tech.com
加入泓迅:hr@synbio-tech.com
技術(shù)服務(wù)
Syno?C 引物合成
Syno?GS 基因合成
載體構(gòu)建
高通量及DNA文庫構(gòu)建
RNA合成
mRNA合成
病毒包裝
多肽服務(wù)
重組蛋白表達平臺
抗體工程平臺
CRISPR基因編輯平臺
基因測序及分析
生物信息學(xué)分析與設(shè)計
產(chǎn)品中心
CRISPR文庫
CRISPR 質(zhì)粒
引物成品
ProXpress蛋白快速檢測
一站式解決方案
人全長重組膠原蛋白
小核酸原料一站式解決方案
重組蛋白表達一站式解決方案
CRISPR基因編輯篩選一站式服務(wù)
活動資源中心
促銷活動
訂單模板下載
宣傳資料下載
在線輔助工具
服務(wù)產(chǎn)品技術(shù)分享
產(chǎn)品服務(wù)視頻
常見問題FAQ
客戶發(fā)表文獻
關(guān)于泓迅
企業(yè)簡介
聯(lián)系我們
招賢納士
泓迅新聞
物流政策
隱私政策
版權(quán)所有 © 2024 蘇州泓迅生物科技股份有限公司 | 蘇ICP備14032156號-1
我們非常重視您的個人隱私,當(dāng)您訪問我們的網(wǎng)站時,請同意使用的所有cookie。有關(guān)個人數(shù)據(jù)處理的更多信息可訪問《隱私政策》接受