首頁 > 活動資源中心 > 服務產(chǎn)品技術分享 > AI賦能型蛋白質(zhì)生產(chǎn)需要哪些技術?
AI賦能型蛋白質(zhì)生產(chǎn)需要哪些技術?
發(fā)布時間:2024-12-25

在生物技術的前沿領域,AI 正在掀起一場蛋白質(zhì)研究的革命。AI 幫助科學家以前所未有的精度預測蛋白質(zhì)結構和功能、從頭設計新型蛋白質(zhì)、解開生命分子層面的奧秘。蛋白質(zhì)生產(chǎn)技術的進步,如AlphaFold 和人工智能驅(qū)動技術,不僅改寫了蛋白質(zhì)研究的規(guī)則,也為從藥物開發(fā)到疾病診斷和合成生物學等各個領域帶來了許多可能性。


人工智能在蛋白質(zhì)結構預測中的作用


蛋白質(zhì)研究一直是生物技術領域中的核心難題,其復雜性源于蛋白質(zhì)多樣的三維結構和動態(tài)特性。長期以來,科學家們一直使用X射線晶體學、核磁共振(NMR)和冷凍電子顯微鏡等傳統(tǒng)工具來解析蛋白質(zhì)結構。然而,這些方法往往成本高昂、耗時,并對特定蛋白質(zhì)類型的解析存在局限性。這些傳統(tǒng)技術在應對蛋白質(zhì)的動態(tài)性和環(huán)境依賴性方面也有較大挑戰(zhàn),導致實際解析的結構可能無法準確反映蛋白質(zhì)在生理條件下的狀態(tài)??茖W家們亟需新的工具,能夠更快速、高效、低成本地完成復雜蛋白質(zhì)結構的預測與解析,以滿足現(xiàn)代生命科學研究的需求。


AI如何突破蛋白質(zhì)研究困境?

隨著計算機技術和算法的不斷進步,科學家們開始探索使用人工智能和機器學習方法來解決蛋白質(zhì)結構預測問題。


2020年,DeepMind 團隊推出了突破性工具 AlphaFold,并經(jīng)歷了不斷的發(fā)展和完善。該模型利用深度學習精確預測蛋白質(zhì)三維結構,顯著提升了蛋白質(zhì)結構預測的準確性和速度,為生物學研究帶來了革命性進展。AlphaFold 使用深度學習模型,通過分析多序列比對 (MSA) 中的進化協(xié)變數(shù)據(jù),預測氨基酸殘基之間的距離,從而揭示蛋白質(zhì)結構的空間構造。。神經(jīng)網(wǎng)絡會預測一個 “距離圖 ”或殘基-殘基距離的概率圖,為折疊過程提供指導。利用這些距離信息,該模型會進行優(yōu)化(如梯度下降),以確定蛋白質(zhì)的最終三維結構。


2020年,AlphaFold 2.0 在蛋白質(zhì)結構預測競賽 CASP14 上一鳴驚人,獲得了98.5%的蛋白質(zhì)結構預測率。作為 Alphafold 的升級版本,它能在幾分鐘內(nèi)預測出典型蛋白質(zhì)的結構,精度通常在 1 ? 以內(nèi),接近碳原子寬度(約 1.4 ?)。這種精確度代表了計算生物學的重大飛躍,為了解蛋白質(zhì)折疊的復雜性提供了強有力的工具。


AlphaFold 2.0 引入了一種名為 Evoformer 的先進神經(jīng)網(wǎng)絡架構。該架構利用進化和空間關系處理多序列比對(MSA)和成對殘基信息。通過三角更新和注意力機制,幫助模型捕捉遠程依賴性和空間關系,這對準確預測蛋白質(zhì)折疊至關重要。它還包括一個結構模塊,直接預測三維原子坐標,并采用循環(huán)機制進行迭代優(yōu)化。通過端到端訓練和獨特的自蒸餾過程,AlphaFold 2達到了接近實驗的精度,能夠預測以前具有挑戰(zhàn)性的復雜和新型結構。

AlphaFold 2.0 模型架構

AlphaFold 2.0 模型架構


2021年, David Baker的團隊推出了革命性工具 RoseTTAFold。這一開源蛋白質(zhì)結構預測工具采用了獨特的三軌網(wǎng)絡架構,能夠同時處理序列、距離和坐標信息,使得預測的精準度和速度顯著提高。

? 序列軌道:處理氨基酸序列信息。

? 距離軌道:處理氨基酸對之間相互作用的信息。

? 坐標軌道:處理局部結構特征,如二級結構和溶劑可及性。

RoseTTAFold 的三維軌道架構

RoseTTAFold 的三維軌道架構


該模型在不同通道中同時處理序列、距離和坐標信息,通過通道間的信息不斷交換來迭代完善蛋白質(zhì)結構。RoseTTAFold 的設計實現(xiàn)了一種多任務學習方法,可以同時優(yōu)化多個相關任務,如距離圖預測、角度圖預測和接觸圖預測,有助于提高整體預測精度。



人工智能在蛋白質(zhì)功能預測中的作用


蛋白質(zhì)的功能是在基因本體(GO)中被定義的,其依據(jù)分子功能(MFO)、在生物過程里的作用(BPO)以及在細胞成分中的位置(CCO)來對蛋白質(zhì)實施分類。借助對同源蛋白質(zhì)的注釋,諸如UniProtKB/Swiss - Prot這類數(shù)據(jù)庫,為數(shù)千種生物以及超過55萬種蛋白質(zhì)提供了經(jīng)過整理的GO數(shù)據(jù)。


然而,數(shù)據(jù)庫中大部分蛋白質(zhì)缺少功能注釋,現(xiàn)有的注釋大多源于耗時的實驗?;贏I的預測方法,融合了氨基酸序列、結構信息以及蛋白質(zhì) - 蛋白質(zhì)相互作用(PPI)網(wǎng)絡,使得蛋白質(zhì)功能預測更加高效,顯著提高了預測準確性和速度。這為填補蛋白質(zhì)功能注釋的空白提供了可擴展的解決方案。。通過運用深度學習和文獻知識,這些工具能夠更高效且更精準地進行功能預測,從而加深我們對蛋白質(zhì)在健康和疾病中所起作用的理解。


DeepGO 是第一個基于深度學習的預測模型,它通過將深度學習應用于蛋白質(zhì)序列和相互作用數(shù)據(jù)來預測蛋白質(zhì)功能。該模型以蛋白質(zhì)的氨基酸序列作為輸入,使用卷積神經(jīng)網(wǎng)絡(CNNs)從中提取特征。DeepGO 還結合了蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡,使模型能夠利用蛋白質(zhì)之間的功能關系。通過這種方法,DeepGO 分配基因本體(GO)術語,根據(jù)分子功能、生物過程和細胞成分對蛋白質(zhì)功能進行分類,這對全面的蛋白質(zhì)功能預測很有效果。


DeepGO-SE 是一種用于蛋白質(zhì)功能預測的高級模型,它通過一種稱為近似語義蘊含的過程,將基因本體(GO) 中的知識納入其中。該模型的運行分為三個關鍵步驟:

1. 構建近似模型:利用GO的公理和蛋白質(zhì)功能斷言創(chuàng)建近似模型,其中ELEmbeddings以幾何表示法捕捉GO 中的語義關系。

2. 蛋白質(zhì)嵌入和優(yōu)化:蛋白質(zhì)序列用預訓練的ESM2模型的嵌入表示。然后在近似模型中對這些嵌入進行定位,以最大限度地提高“蛋白質(zhì)具有C功能 ”這樣的語句的可能性,從而指導精確的功能預測。

3. 多模型聚合:重復這個過程以生成多個模型,最終預測基于所有模型中都成立的真值,有效地捕捉蘊含關系。

DeepGO-SE模型

DeepGO-SE模型



人工智能在蛋白質(zhì)設計中的應用


蛋白質(zhì)設計已經(jīng)有了顯著的發(fā)展,從最初通過PCR的誘變引入特定突變來調(diào)控蛋白質(zhì)結構,到應用先進計算方法構建具有所需特性的新型蛋白質(zhì)。如今,隨著結構生物學、計算建模的快速發(fā)展,AI蛋白質(zhì)設計比以往任何時候都更加精確,也更容易獲得。AI驅(qū)動的設計技術既能優(yōu)化蛋白質(zhì),增強蛋白質(zhì)的天然功能(如親和力和穩(wěn)定性),還具備從頭構建全新蛋白質(zhì)的能力,以實現(xiàn)特定的功能、結構和應用,為藥物發(fā)現(xiàn)、工業(yè)酶工程等領域帶來前所未有的創(chuàng)新可能性。


ProteinMPNN 是一種用于高效蛋白質(zhì)序列設計的深度學習模型,它繞過了傳統(tǒng)基于物理的方法(如Rosetta)的計算需求。通過直接從結構數(shù)據(jù)中學習并編碼空間關系, ProteinMPNN 能準確預測折疊成目標結構的序列。該模型在設計復雜的組裝(如四面體納米粒子)和保持結合親和力(即使發(fā)生點突變)方面表現(xiàn)出色。該模型能夠創(chuàng)建各種類型的蛋白質(zhì),包括單體、組裝體和納米顆粒,是提高蛋白質(zhì)溶解度、穩(wěn)定性和功能性的強大工具。


RFdiffusion 采用創(chuàng)新方法,利用擴散模型,通過迭代去噪,將蛋白質(zhì)骨架從最初的噪音細化為現(xiàn)實結構。通過結合特定的結構基序,它創(chuàng)造出多樣化、復雜的蛋白質(zhì),以滿足特定需求,如對稱組裝體和功能基序。RFdiffusion在生成新型拓撲結構方面的精確性使其能夠應用于前沿領域,從治療支架到復雜結構設計。

利用RFdiffusion設計蛋白質(zhì)

利用RFdiffusion設計蛋白質(zhì)


ProGen 借鑒NLP的語言模型技術,生成反映進化模式和生化特性的蛋白質(zhì)序列,從而能夠創(chuàng)建具有特定功能的序。ProGen使用轉(zhuǎn)換器來模擬驅(qū)動穩(wěn)定性和功能性的序列特征,使其高度適用于各種應用,從酶設計到生成具有特定結合親和力的序列。

利用條件語言建模生成人工蛋白質(zhì)

利用條件語言建模生成人工蛋白質(zhì)


AlphaProteo 專注于創(chuàng)建高親和力蛋白質(zhì)結合劑,利用結構引導序列生成技術開發(fā)針對精確蛋白質(zhì)位點的結合劑。通過將生成模型與高級過濾器相結合。AlphaProteo在生產(chǎn)針對具有挑戰(zhàn)性的目標(如病毒和癌癥相關蛋白質(zhì))的結合劑方面表現(xiàn)出色,在許多情況下實現(xiàn)了亞納摩爾親和力。它能夠簡化粘合劑設計,減少優(yōu)化次數(shù),為治療開發(fā)開辟了新的可能性。

AlphaProteo 在測試的七種目標蛋白質(zhì)上都有較高的實驗成功率。在濕實驗室測試中,9% 到 88% 的候選分子成功結合,比其他方法高 5 到 100 倍;比現(xiàn)有最佳方法的結合親和力高 3 到 300 倍。

從AI蛋白設計到濕實驗驗證



從AI蛋白設計到濕實驗驗證


研究人員現(xiàn)在能夠直接從序列和結構數(shù)據(jù)中生成針對特定功能(如結合親和力、穩(wěn)定性和催化活性)優(yōu)化的蛋白質(zhì)。然而,將這些計算設計轉(zhuǎn)化為功能性、可靠的蛋白質(zhì)需要嚴格的濕實驗驗證,以確保結合親和力、穩(wěn)定性和生物活性等特性。在濕實驗驗證過程中,科學家面臨許多挑戰(zhàn),復雜蛋白質(zhì)的結構和性質(zhì)可能導致其在表達過程中出現(xiàn)折疊異?;蛐纬蔁o活性的聚集體,極大地降低表達效率。濕實驗的數(shù)據(jù)反饋至關重要,可用于進一步優(yōu)化AI模型,從而提高模型對未來設計的精準度和有效性。


泓迅生物為研究人員提供了一站式解決方案,簡化了從數(shù)字序列到經(jīng)過實驗驗證的蛋白質(zhì)產(chǎn)品的過程。與我們合作,您只需提供蛋白質(zhì)序列,我們會處理從密碼子優(yōu)化和基因合成到表達系統(tǒng)選擇、蛋白質(zhì)純化和功能驗證的每一個細節(jié)。

- 密碼子優(yōu)化:我們的NG Codon技術提高表達,針對您的特定表達系統(tǒng)進行了優(yōu)化。

- 基因合成與克隆高保真基因合成并克隆到任何指定的載體中。

- 表達系統(tǒng)篩選可使用細菌、酵母、昆蟲和哺乳動物宿主進行定制表達。

- 重組抗體表達通過整合抗體基因序列、從頭抗體設計、抗體人化、抗體基因合成、重組抗體表達、單克隆抗體制備和多克隆抗體制備,涵蓋抗體發(fā)現(xiàn)的所有階段。

大規(guī)模蛋白質(zhì)生產(chǎn):靈活的生產(chǎn)規(guī)格,從微克到克,以支持任何規(guī)模的項目。

- 質(zhì)量與功能驗證:全面的測試確保最終蛋白質(zhì)或抗體產(chǎn)品的可靠性、活性和功能性。



全球AI蛋白質(zhì)公司


部分公司,聯(lián)系我們申請完整版本


AI在蛋白質(zhì)科學中的應用多樣性已經(jīng)在重塑藥物發(fā)現(xiàn)、精準醫(yī)學和合成生物學。由David Baker等先驅(qū)孵化的公司正在使用深度學習來解決關鍵的生物學挑戰(zhàn),包括藥物開發(fā)、多肽設計、小分子結合蛋白質(zhì)工程和新型材料合成。隨著AI加速和增強蛋白質(zhì)設計的能力得到證明,其在生物技術中的作用預計將不斷增長,為定制療法和創(chuàng)新生物材料開辟新的可能性,并推動生命科學領域的邊界不斷拓展。


References

[1] Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.

[2] Baek, Minkyung, et al. "Accurate prediction of protein structures and interactions using a three-track neural network." Science 373.6557 (2021): 871-876.

[3] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106.

[4] Senior, Andrew W., et al. "Improved protein structure prediction using potentials from deep learning." Nature 577.7792 (2020): 706-710.

[5] Zambaldi, Vinicius, et al. "De novo design of high-affinity protein binders with AlphaProteo." arXiv preprint arXiv:2409.08022 (2024).

[6] Kulmanov, Maxat, et al. "Protein function prediction as approximate semantic entailment." Nature Machine Intelligence 6.2 (2024): 220-228.

[7] Watson, Joseph L., et al. "De novo design of protein structure and function with RFdiffusion." Nature 620.7976 (2023): 1089-1100.

上一篇
全國服務熱線:4000-973-630
項目咨詢:support@synbio-tech.com
商業(yè)合作:marketing@synbio-tech.com
質(zhì)量投訴:qc@synbio-tech.com
加入泓迅:hr@synbio-tech.com
技術服務
Syno?C 引物合成
Syno?GS 基因合成
載體構建
高通量及DNA文庫構建
RNA合成
mRNA合成
病毒包裝
多肽服務
重組蛋白表達平臺
抗體工程平臺
CRISPR基因編輯平臺
基因測序及分析
生物信息學分析與設計
產(chǎn)品中心
CRISPR文庫
CRISPR 質(zhì)粒
引物成品
ProXpress蛋白快速檢測
一站式解決方案
人全長重組膠原蛋白
小核酸原料一站式解決方案
重組蛋白表達一站式解決方案
CRISPR基因編輯篩選一站式服務
活動資源中心
促銷活動
訂單模板下載
宣傳資料下載
在線輔助工具
服務產(chǎn)品技術分享
產(chǎn)品服務視頻
常見問題FAQ
客戶發(fā)表文獻
關于泓迅
企業(yè)簡介
聯(lián)系我們
招賢納士
泓迅新聞
物流政策
隱私政策
版權所有 © 2024 蘇州泓迅生物科技股份有限公司 | 蘇ICP備14032156號-1
我們非常重視您的個人隱私,當您訪問我們的網(wǎng)站時,請同意使用的所有cookie。有關個人數(shù)據(jù)處理的更多信息可訪問《隱私政策》接受