來源:人民日報 時間:2025-05-17 21:09:32 熱度:278
在上海張江科學城的實驗室里,科學家正見證一場生命極限的突破——90攝氏度的密閉罐里,酶正在快速“瓦解”塑料。這款耐高溫的塑料降解酶,是上海交通大學洪亮教授團隊用AI設計改造的“新品”蛋白質。
當傳統(tǒng)生物學家還在實驗室用移液槍逐個測試蛋白質功能、組裝“理想型”蛋白質時,洪亮團隊的AI大模型“啟明星”已構建出億級蛋白質的“功能圖譜”,能夠精準、高效地設計出耐熱、耐堿、耐酸等“超能”蛋白質,滿足“定制”蛋白質的需求。
蛋白質是生命活動的物質基礎,自然界中參與構成蛋白質的氨基酸有20種,一個蛋白質分子通常由幾十個至上千個數量不等的氨基酸按照特定順序排列而成。排序的細微差別,可能讓蛋白質表現出截然不同的功能特性,比如穩(wěn)定性、活性、親和力等。過去數十年間,生物學家只能依靠實驗方法來測定蛋白質的結構,揭示復雜的蛋白質結構會耗費生物學家大量時間。2018年,谷歌DeepMind團隊發(fā)布了AI大模型AlphaFold,它能精準地解析蛋白質的三維構造,為科研人員更高效、更精準地進行藥物開發(fā)、疫苗設計奠定基礎。
“使用AI設計蛋白質時,我們就在思考,設計的目的是滿足某些功能需求,為何不訓練AI模型,把滿足功能需求的蛋白質直接設計出來?”洪亮團隊決定訓練一個與AlphaFold不同的AI大模型,挑戰(zhàn)蛋白質功能設計的難關。
“我們利用AI技術學習不同自然環(huán)境下,各種生物體內蛋白質鏈條中氨基酸的排列規(guī)則。更重要的是,我們從溫度、酸堿度、壓強這3個維度,為5億個蛋白質打上功能標簽,然后把這海量的功能標簽‘投喂’給AI大模型,使之能快速、精準地設計出耐熱、耐酸、耐堿的‘皮實’蛋白產品?!焙榱琳f。
如果把一個蛋白質看作一塊模具,那么整個數據集就是裝滿90億塊模具的超級工具箱,這是迄今為止全球最大的蛋白質數據集。由36.2億條陸地微生物蛋白質序列、26.4億條海洋微生物蛋白質序列、24.3億條抗體蛋白質序列、0.6億條病毒蛋白質序列等組成的蛋白質數據集中,蘊藏著從地表到極地冰川、深海溝壑的“適者生存法則”。
“比如這款耐熱的塑料降解酶,我們先從‘啟明星’中挑出幾個具備耐熱功能的蛋白質‘模具’,再使用AI技術修飾改造這些蛋白質‘模具’的氨基酸序列,提高它的耐熱性,同步進行實驗驗證,從而避免了過去的高通量篩選,提升了蛋白質設計與改造的效率?!焙榱琳f。
在上海交通大學張江校區(qū)的自動化實驗室里,機械臂正飛快地驗證著AI設計的蛋白質。這里每天產生的實驗數據,又會回流到AI系統(tǒng)中持續(xù)優(yōu)化蛋白質模具,形成“數據—模型—實驗”的增強循環(huán),洪亮形象地稱之為“蛋白質的自動駕駛模式”?!拔覀兊哪康木褪亲屧O計AI化、實驗自動化,把復雜的蛋白質科學變成簡單的工程過程。”洪亮說。
截至目前,已有8個產業(yè)項目使用“啟明星”大模型設計蛋白質,成功率達70%。這種突破正在改寫產業(yè)規(guī)則:某生物醫(yī)藥企業(yè)利用“啟明星”設計的極度耐堿的蛋白質,使用壽命提高一倍多,每年可為企業(yè)節(jié)省上千萬元的成本。
談及未來圖景,洪亮這樣描繪:生物學家只需在電腦上輸入需求,AI就能自動生成候選蛋白質“模具”,自動化平臺完成驗證優(yōu)化。這不僅能夠將科研人員從重復實驗中解放,更可能催生“定制化合成生物”的全新產業(yè)形態(tài)。
由中國科研團隊建立的蛋白質大模型及部分數據集已于日前發(fā)布,并在軟件托管平臺GitHub上開源,供全世界的科研機構接入。
站在合成生物產業(yè)的新賽道,洪亮說,當AI開始理解生命的“設計邏輯”,我們或許正在見證新的產業(yè)革命——在這個蛋白質可以被精準“編程”的時代,從醫(yī)藥研發(fā)到環(huán)境保護,生命科學將向前邁出更大的步伐。(記者 黃曉慧)
(責任編輯:秋彤)
2025-07-02
2025-07-02
2025-07-01
2025-07-01
2025-07-01
2025-07-01