在生物技術的前沿領域,AI 正在掀起一場蛋白質(zhì)研究的革命。AI 幫助科學家以前所未有的精度預測蛋白質(zhì)結構和功能、從頭設計新型蛋白質(zhì)、解開生命分子層面的奧秘。蛋白質(zhì)生產(chǎn)技術的進步,如AlphaFold 和人工智能驅(qū)動技術,不僅改寫了蛋白質(zhì)研究的規(guī)則,也為從藥物開發(fā)到疾病診斷和合成生物學等各個領域帶來了許多可能性。
人工智能在蛋白質(zhì)結構預測中的作用
蛋白質(zhì)研究一直是生物技術領域中的核心難題,其復雜性源于蛋白質(zhì)多樣的三維結構和動態(tài)特性。長期以來,科學家們一直使用X射線晶體學、核磁共振(NMR)和冷凍電子顯微鏡等傳統(tǒng)工具來解析蛋白質(zhì)結構。然而,這些方法往往成本高昂、耗時,并對特定蛋白質(zhì)類型的解析存在局限性。這些傳統(tǒng)技術在應對蛋白質(zhì)的動態(tài)性和環(huán)境依賴性方面也有較大挑戰(zhàn),導致實際解析的結構可能無法準確反映蛋白質(zhì)在生理條件下的狀態(tài)??茖W家們亟需新的工具,能夠更快速、高效、低成本地完成復雜蛋白質(zhì)結構的預測與解析,以滿足現(xiàn)代生命科學研究的需求。
AI如何突破蛋白質(zhì)研究困境?
隨著計算機技術和算法的不斷進步,科學家們開始探索使用人工智能和機器學習方法來解決蛋白質(zhì)結構預測問題。
2020年,DeepMind 團隊推出了突破性工具 AlphaFold,并經(jīng)歷了不斷的發(fā)展和完善。該模型利用深度學習精確預測蛋白質(zhì)三維結構,顯著提升了蛋白質(zhì)結構預測的準確性和速度,為生物學研究帶來了革命性進展。AlphaFold 使用深度學習模型,通過分析多序列比對 (MSA) 中的進化協(xié)變數(shù)據(jù),預測氨基酸殘基之間的距離,從而揭示蛋白質(zhì)結構的空間構造。。神經(jīng)網(wǎng)絡會預測一個 “距離圖 ”或殘基-殘基距離的概率圖,為折疊過程提供指導。利用這些距離信息,該模型會進行優(yōu)化(如梯度下降),以確定蛋白質(zhì)的最終三維結構。
2020年,AlphaFold 2.0 在蛋白質(zhì)結構預測競賽 CASP14 上一鳴驚人,獲得了98.5%的蛋白質(zhì)結構預測率。作為 Alphafold 的升級版本,它能在幾分鐘內(nèi)預測出典型蛋白質(zhì)的結構,精度通常在 1 ? 以內(nèi),接近碳原子寬度(約 1.4 ?)。這種精確度代表了計算生物學的重大飛躍,為了解蛋白質(zhì)折疊的復雜性提供了強有力的工具。
AlphaFold 2.0 引入了一種名為 Evoformer 的先進神經(jīng)網(wǎng)絡架構。該架構利用進化和空間關系處理多序列比對(MSA)和成對殘基信息。通過三角更新和注意力機制,幫助模型捕捉遠程依賴性和空間關系,這對準確預測蛋白質(zhì)折疊至關重要。它還包括一個結構模塊,直接預測三維原子坐標,并采用循環(huán)機制進行迭代優(yōu)化。通過端到端訓練和獨特的自蒸餾過程,AlphaFold 2達到了接近實驗的精度,能夠預測以前具有挑戰(zhàn)性的復雜和新型結構。
AlphaFold 2.0 模型架構
2021年, David Baker的團隊推出了革命性工具 RoseTTAFold。這一開源蛋白質(zhì)結構預測工具采用了獨特的三軌網(wǎng)絡架構,能夠同時處理序列、距離和坐標信息,使得預測的精準度和速度顯著提高。
? 序列軌道:處理氨基酸序列信息。
? 距離軌道:處理氨基酸對之間相互作用的信息。
? 坐標軌道:處理局部結構特征,如二級結構和溶劑可及性。
RoseTTAFold 的三維軌道架構
該模型在不同通道中同時處理序列、距離和坐標信息,通過通道間的信息不斷交換來迭代完善蛋白質(zhì)結構。RoseTTAFold 的設計實現(xiàn)了一種多任務學習方法,可以同時優(yōu)化多個相關任務,如距離圖預測、角度圖預測和接觸圖預測,有助于提高整體預測精度。
人工智能在蛋白質(zhì)功能預測中的作用
蛋白質(zhì)的功能是在基因本體(GO)中被定義的,其依據(jù)分子功能(MFO)、在生物過程里的作用(BPO)以及在細胞成分中的位置(CCO)來對蛋白質(zhì)實施分類。借助對同源蛋白質(zhì)的注釋,諸如UniProtKB/Swiss - Prot這類數(shù)據(jù)庫,為數(shù)千種生物以及超過55萬種蛋白質(zhì)提供了經(jīng)過整理的GO數(shù)據(jù)。
然而,數(shù)據(jù)庫中大部分蛋白質(zhì)缺少功能注釋,現(xiàn)有的注釋大多源于耗時的實驗?;贏I的預測方法,融合了氨基酸序列、結構信息以及蛋白質(zhì) - 蛋白質(zhì)相互作用(PPI)網(wǎng)絡,使得蛋白質(zhì)功能預測更加高效,顯著提高了預測準確性和速度。這為填補蛋白質(zhì)功能注釋的空白提供了可擴展的解決方案。。通過運用深度學習和文獻知識,這些工具能夠更高效且更精準地進行功能預測,從而加深我們對蛋白質(zhì)在健康和疾病中所起作用的理解。
DeepGO 是第一個基于深度學習的預測模型,它通過將深度學習應用于蛋白質(zhì)序列和相互作用數(shù)據(jù)來預測蛋白質(zhì)功能。該模型以蛋白質(zhì)的氨基酸序列作為輸入,使用卷積神經(jīng)網(wǎng)絡(CNNs)從中提取特征。DeepGO 還結合了蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡,使模型能夠利用蛋白質(zhì)之間的功能關系。通過這種方法,DeepGO 分配基因本體(GO)術語,根據(jù)分子功能、生物過程和細胞成分對蛋白質(zhì)功能進行分類,這對全面的蛋白質(zhì)功能預測很有效果。
DeepGO-SE 是一種用于蛋白質(zhì)功能預測的高級模型,它通過一種稱為近似語義蘊含的過程,將基因本體(GO) 中的知識納入其中。該模型的運行分為三個關鍵步驟:
1. 構建近似模型:利用GO的公理和蛋白質(zhì)功能斷言創(chuàng)建近似模型,其中ELEmbeddings以幾何表示法捕捉GO 中的語義關系。
2. 蛋白質(zhì)嵌入和優(yōu)化:蛋白質(zhì)序列用預訓練的ESM2模型的嵌入表示。然后在近似模型中對這些嵌入進行定位,以最大限度地提高“蛋白質(zhì)具有C功能 ”這樣的語句的可能性,從而指導精確的功能預測。
3. 多模型聚合:重復這個過程以生成多個模型,最終預測基于所有模型中都成立的真值,有效地捕捉蘊含關系。
DeepGO-SE模型
人工智能在蛋白質(zhì)設計中的應用
蛋白質(zhì)設計已經(jīng)有了顯著的發(fā)展,從最初通過PCR的誘變引入特定突變來調(diào)控蛋白質(zhì)結構,到應用先進計算方法構建具有所需特性的新型蛋白質(zhì)。如今,隨著結構生物學、計算建模的快速發(fā)展,AI蛋白質(zhì)設計比以往任何時候都更加精確,也更容易獲得。AI驅(qū)動的設計技術既能優(yōu)化蛋白質(zhì),增強蛋白質(zhì)的天然功能(如親和力和穩(wěn)定性),還具備從頭構建全新蛋白質(zhì)的能力,以實現(xiàn)特定的功能、結構和應用,為藥物發(fā)現(xiàn)、工業(yè)酶工程等領域帶來前所未有的創(chuàng)新可能性。
ProteinMPNN 是一種用于高效蛋白質(zhì)序列設計的深度學習模型,它繞過了傳統(tǒng)基于物理的方法(如Rosetta)的計算需求。通過直接從結構數(shù)據(jù)中學習并編碼空間關系, ProteinMPNN 能準確預測折疊成目標結構的序列。該模型在設計復雜的組裝(如四面體納米粒子)和保持結合親和力(即使發(fā)生點突變)方面表現(xiàn)出色。該模型能夠創(chuàng)建各種類型的蛋白質(zhì),包括單體、組裝體和納米顆粒,是提高蛋白質(zhì)溶解度、穩(wěn)定性和功能性的強大工具。
RFdiffusion 采用創(chuàng)新方法,利用擴散模型,通過迭代去噪,將蛋白質(zhì)骨架從最初的噪音細化為現(xiàn)實結構。通過結合特定的結構基序,它創(chuàng)造出多樣化、復雜的蛋白質(zhì),以滿足特定需求,如對稱組裝體和功能基序。RFdiffusion在生成新型拓撲結構方面的精確性使其能夠應用于前沿領域,從治療支架到復雜結構設計。
利用RFdiffusion設計蛋白質(zhì)
ProGen 借鑒NLP的語言模型技術,生成反映進化模式和生化特性的蛋白質(zhì)序列,從而能夠創(chuàng)建具有特定功能的序列。ProGen使用轉(zhuǎn)換器來模擬驅(qū)動穩(wěn)定性和功能性的序列特征,使其高度適用于各種應用,從酶設計到生成具有特定結合親和力的序列。
利用條件語言建模生成人工蛋白質(zhì)
AlphaProteo 專注于創(chuàng)建高親和力蛋白質(zhì)結合劑,利用結構引導序列生成技術開發(fā)針對精確蛋白質(zhì)位點的結合劑。通過將生成模型與高級過濾器相結合。AlphaProteo在生產(chǎn)針對具有挑戰(zhàn)性的目標(如病毒和癌癥相關蛋白質(zhì))的結合劑方面表現(xiàn)出色,在許多情況下實現(xiàn)了亞納摩爾親和力。它能夠簡化粘合劑設計,減少優(yōu)化次數(shù),為治療開發(fā)開辟了新的可能性。
AlphaProteo 在測試的七種目標蛋白質(zhì)上都有較高的實驗成功率。在濕實驗室測試中,9% 到 88% 的候選分子成功結合,比其他方法高 5 到 100 倍;比現(xiàn)有最佳方法的結合親和力高 3 到 300 倍。
從AI蛋白設計到濕實驗驗證
研究人員現(xiàn)在能夠直接從序列和結構數(shù)據(jù)中生成針對特定功能(如結合親和力、穩(wěn)定性和催化活性)優(yōu)化的蛋白質(zhì)。然而,將這些計算設計轉(zhuǎn)化為功能性、可靠的蛋白質(zhì)需要嚴格的濕實驗驗證,以確保結合親和力、穩(wěn)定性和生物活性等特性。在濕實驗驗證過程中,科學家面臨許多挑戰(zhàn),復雜蛋白質(zhì)的結構和性質(zhì)可能導致其在表達過程中出現(xiàn)折疊異?;蛐纬蔁o活性的聚集體,極大地降低表達效率。濕實驗的數(shù)據(jù)反饋至關重要,可用于進一步優(yōu)化AI模型,從而提高模型對未來設計的精準度和有效性。
泓迅生物為研究人員提供了一站式解決方案,簡化了從數(shù)字序列到經(jīng)過實驗驗證的蛋白質(zhì)產(chǎn)品的過程。與我們合作,您只需提供蛋白質(zhì)序列,我們會處理從密碼子優(yōu)化和基因合成到表達系統(tǒng)選擇、蛋白質(zhì)純化和功能驗證的每一個細節(jié)。
- 密碼子優(yōu)化:我們的NG Codon技術提高表達,針對您的特定表達系統(tǒng)進行了優(yōu)化。
- 基因合成與克隆:高保真基因合成并克隆到任何指定的載體中。
- 表達系統(tǒng)篩選:可使用細菌、酵母、昆蟲和哺乳動物宿主進行定制表達。
- 重組抗體表達:通過整合抗體基因序列、從頭抗體設計、抗體人化、抗體基因合成、重組抗體表達、單克隆抗體制備和多克隆抗體制備,涵蓋抗體發(fā)現(xiàn)的所有階段。
- 大規(guī)模蛋白質(zhì)生產(chǎn):靈活的生產(chǎn)規(guī)格,從微克到克,以支持任何規(guī)模的項目。
- 質(zhì)量與功能驗證:全面的測試確保最終蛋白質(zhì)或抗體產(chǎn)品的可靠性、活性和功能性。
全球AI蛋白質(zhì)公司
部分公司,聯(lián)系我們申請完整版本
AI在蛋白質(zhì)科學中的應用多樣性已經(jīng)在重塑藥物發(fā)現(xiàn)、精準醫(yī)學和合成生物學。由David Baker等先驅(qū)孵化的公司正在使用深度學習來解決關鍵的生物學挑戰(zhàn),包括藥物開發(fā)、多肽設計、小分子結合蛋白質(zhì)工程和新型材料合成。隨著AI加速和增強蛋白質(zhì)設計的能力得到證明,其在生物技術中的作用預計將不斷增長,為定制療法和創(chuàng)新生物材料開辟新的可能性,并推動生命科學領域的邊界不斷拓展。
References
[1] Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.
[2] Baek, Minkyung, et al. "Accurate prediction of protein structures and interactions using a three-track neural network." Science 373.6557 (2021): 871-876.
[3] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106.
[4] Senior, Andrew W., et al. "Improved protein structure prediction using potentials from deep learning." Nature 577.7792 (2020): 706-710.
[5] Zambaldi, Vinicius, et al. "De novo design of high-affinity protein binders with AlphaProteo." arXiv preprint arXiv:2409.08022 (2024).
[6] Kulmanov, Maxat, et al. "Protein function prediction as approximate semantic entailment." Nature Machine Intelligence 6.2 (2024): 220-228.
[7] Watson, Joseph L., et al. "De novo design of protein structure and function with RFdiffusion." Nature 620.7976 (2023): 1089-1100.