科學家創建了一個能夠從頭開始生成人造酶的人工智能(AI)系統。在實驗室測試中,儘管人工生成的氨基酸序列與任何已知的天然蛋白質存在顯著差異,但其中一些酶與自然界中發現的酶一樣有效。相關研究成果1月26日發表於《自然-生物技術》。
該實驗表明,雖然自然語言處理是為讀寫語言文本開發的,但至少可以學習一些生物學的基本原理。 Salesforce Research公司開發了名為ProGen的AI程序,使用下一代標記預測將氨基酸序列組裝成人造蛋白質。
科學家表示,這項新技術可能比獲得諾貝爾獎的蛋白質設計技術——定向進化更為強大,它將加速新蛋白質的開發,為已有50年曆史的蛋白質工程領域注入活力。這些新蛋白質幾乎可以用於從疾病治療到降解塑料的任何領域。
“人工設計的性能比受進化過程啟發的設計表現得更好。”該研究作者之一、美國加州大學舊金山分校藥學院生物工程和治療科學教授James Fraser表示,語言模型正在學習進化的各個方面,但它不同於正常的進化過程。 “我們現在能夠針對特定效果調整這些屬性的生成,例如非常耐熱或喜歡酸性環境,不會與其他蛋白質相互作用的酶。”
為了創建這個模型,科學家只需將2.8億種不同蛋白質的氨基酸序列輸入機器學習模型,並讓它在幾週內消化信息。然後,他們使用來自5個溶菌酶家族的56000個序列,以及有關這些蛋白質的上下文信息對模型進行微調。
該模型迅速生成了100萬個序列。研究團隊根據它們與天然蛋白質序列的相似程度,以及AI蛋白質的潛在氨基酸“語法”和“語義”的自然程度,選擇了100個序列進行測試。
在第一批由Tierra生物科學公司體外篩選的100種蛋白質中,該團隊製作了5種人工蛋白質用於細胞測試,並將其活性與雞蛋清中發現的一種酶(雞蛋清溶菌酶,HEWL)進行了比較。在人類的眼淚、唾液和牛奶中也發現了類似的溶菌酶,它們可以抵禦細菌和真菌。
其中兩種人工酶能夠分解細菌的細胞壁,其活性與HEWL相當。但它們的序列只有約18%相同,這兩個序列與任何已知蛋白質的相似性分別為90%和70%。
天然蛋白質中的一個突變就能使其停止工作。但在另一輪篩選中,研究小組發現,即使只有31.4%的序列與任何已知的天然蛋白質相似,AI生成的酶仍顯示出活性。
AI甚至能夠通過研究原始序列數據了解酶如何形成。 X射線晶體學測量顯示,人造蛋白質的原子結構看起來和它們應該有的樣子一樣,儘管這些序列是前所未有的。
2020年,Salesforce Research基於研究人員最初開髮用於生成英語文本的一種自然語言編程開發了ProGen。他們從之前的工作了解到,人工智能係統可以自學語法和單詞的含義,以及其他使寫作井井有條的基本規則。
“當你用大量數據訓練基於序列的模型時,它們在學習結構和規則方面確實非常強大,能夠了解哪些詞可以同時出現,以及組合性。”該研究通訊作者之一、Salesforce Research人工智能研究主管Nikhil Naik說。
對於蛋白質,設計選擇幾乎是無限的。溶菌酶和蛋白質一樣小,最多約有300個氨基酸。但是有20種可能的氨基酸,這樣就有20300種可能的組合。鑑於無限的可能性,該模型能夠如此輕鬆地產生酶是非常了不起的。
該研究第一作者、Profluent Bio創始人Ali Madani說:“從頭開始生成功能性蛋白質的能力表明,我們正在進入蛋白質設計的新時代。對於蛋白質工程師來說,這是可用的多功能新工具,我們期待看到它的治療應用。”