復旦學者提出蛋白解析新算法,相關代碼已在GitHub開源

2023-12-04     DeepTech深科技

原標題:復旦學者提出蛋白解析新算法,相關代碼已在GitHub開源

近日,復旦大學複雜體系多尺度研究院院長馬劍鵬和團隊,研發出一款名為 OPUS-DSD(OPUS deep structural disentanglement)的算法。它能大大提升蛋白質結構測試精度,並能測出以往方法所無法測出的部分。

圖 | 馬劍鵬(來源:馬劍鵬)

針對相關論文審稿人表示:「OPUS-DSD 是對現有冷凍電鏡工具箱的一個有價值且及時的補充。」

(來源:Nature Methods)

馬劍鵬表示:「針對幾乎所有需要由冷凍電鏡測定的生物分子結構、尤其是超大規模復合體,OPUS-DSD 都能起到重要作用。

具體來講:

其一,在動態生物分子研究上:OPUS-DSD 可以提取冷凍電鏡數據中存在的結構動態信息,從而揭示生物大分子可能存在的各種不同組合、構象、甚至是構象間的動態變化過程等信息,進而幫助分子生物學家理解生物大分子作用機理。

同時,針對冷凍電鏡數據,OPUS-DSD 還能依據其構象、組分等進行分類,有望起到減少數據異質性,幫助提高實驗所測結構的精度。

其二,在藥物設計上:OPUS-DSD 能為藥物設計提供動態的結構信息,有助於發現和優化與動態靶標相互作用的分子。

蛋白質結構測定的最終目的之一在於實現藥物設計,而測出更精確的蛋白結構,將能有效降低新藥研發中因蛋白結構測定不准而導致的研發失敗機率。

從蛋白質結構解析的兩種測定方法說起

據了解,蛋白質結構解析——分為實驗蛋白測定和計算蛋白預測。

實驗蛋白測定,顧名思義就是在實驗室里通過精密操作來測定蛋白質的結構情況,這一工作涉及到使用實驗儀器。

冷凍電子顯微鏡就是一種重要的儀器,通過它的極低溫環境,可以將蛋白質冷凍,從而進行觀察並收集數據。目前,它也是測定蛋白結構的一種重要手段。

計算機蛋白結構預測,這一領域已經發展了幾十年,Alphafold2 的問世讓該領域得以被更多人了解,也催生了 AI for Science 的誕生。

近些年來,人工智慧技術的加入,極大推動了結構生物學的發展。智能算法的影響,不僅體現在計算蛋白結構預測水平的提升上,也正在影響著實驗蛋白測定。

其中一個重要方面便是通過開發先進算法,來提升冷凍電鏡的結構測定準確率,尤其是針對蛋白質結構柔性的問題。

所謂結構柔性,是指蛋白質因為其功能所需,其結構處於不斷的動態變化中。運動中的蛋白質很難被觀測清楚,而忽視它的運動又會影響到對其功能的理解。

所以,如何針對運動中的蛋白實現更高精度的結構測定,一直是困擾結構生物學界的重大問題。受此影響,此前使用冷凍電鏡測定出來的蛋白質結構,在運動較大的區域的精度往往比較有限。

在馬劍鵬的整個職業生涯過程中,他一直專注於如下方向的研究:針對柔性生物大分子的實驗,如何改善其結構測定的精度。計算方法,則是他經常用到的一項「法寶」。

在本次 OPUS-DSD 的工作之中,他所要解決的是一個已經存在多年、全球學界孜孜以求期望突破的難題。

事實上,在早期主流的 X 光晶體衍射技術,以及當下十分流行的冷凍電鏡技術中,上述問題一直存在,且並未完全被攻克。

在馬劍鵬尚未回國之前,羅鎮威博士——是馬劍鵬在美國萊斯大學任職期間培養的一名優秀學生。

當時,羅鎮威的研究內容主要是優化三維重構算法,從而在動態冷凍電鏡數據中獲取更高解析度的三維模型,這時主要基於的是 Relion 的三維重構。

所以,馬劍鵬和羅鎮威打算繼續在上述基礎之上,使用 C++ 編程實現神經網絡,並將類似功能整合到 Relion 中。

由於 C++ 編程的難度較大,這讓調試環節變得十分困難,即使調用 Pytorch 的 C++ 庫來構建神經網絡,進展仍然極為緩慢。

後來,隨著 cryoDRGN 冷凍電鏡成像技術的出現,他們決定將開發遷移至 Python 和 cryoDRGN 上。

同時,一種用於學習、渲染和驅動動態對象的方法——Neural Volumes 的出現,也給他們帶來了靈感。

通過借鑑 Neural Volumes 並將程序遷移至 cryoDRGN 後,課題組終於得以使用神經網絡來進行三維重構。

然而,距離解析數據異質性仍然存在一些距離。不同於 cryoDRGN 在倒空間擬合數據的思路,他們發現在實空間構造一些先驗再進行三維重構,可以得到更精準的結果。

於是,馬劍鵬和羅鎮威開始將研究重點放到如何在實空間之中擬合結構異質性。但是,由於冷凍電鏡的數據和當前深度學習著重研究的圖片數據並不相同,這讓本次工作一度陷入瓶頸。

具體來說,當前深度學習算法處理的圖片數據可被認為是無噪聲的,圖片集內物體存在較大的多樣性。

而冷凍電鏡的數據噪聲極大,並且還會受到對比度傳遞函數(contrast transfer function)的影響,以至於會出現對焦模糊的問題。

因此,當把神經網絡架構用於冷凍電鏡數據的時候,仍需進行一定的調整。而由於冷凍電鏡數據的信噪比極低,訓練變分自編碼器(VAE,Variational AutoEncoder)時常會遇到模式坍塌(Mode Collapse)的問題。

「我們對此進行了一些調整,最終收穫了在冷凍電鏡數據上穩定訓練 VAE 的方法。接著,我們開始在真實數據上進行廣泛測試,並不斷優化方法,這時課題組才開始出現了理想進展。」馬劍鵬表示。

(來源:Nature Methods)

論文一作為全身心投入基礎研究,放棄業界高薪職位

而對於算法開發來說,歷來是一個緩慢且艱巨的任務。尤其是本次算法的開發,難度尤其之大。

在馬劍鵬的科研生涯早期,他和團隊主要研究 X 射線晶體學。當時,他曾投入大量精力希望提高 X 射線解析大分子蛋白質的精度。

儘管當時也曾做出不錯的突破,不過恰逢冷凍電鏡方法的崛起,導致他們之前的工作似乎陷入了重要性降低的局面。

這在當時給課題組的研究帶來了一定挑戰,但實際上也為他們接下來從事冷凍電鏡的研究奠定了良好的技術積累。因為在這兩個領域之中,本質的問題基本是相通的。

而本次 OPUS-DSD 的課題前後累計跨越兩三年時間,算上更早之前的積累,馬劍鵬和羅鎮威已經投入了四五年。

「期間,羅鎮威博士還放棄了來自工業界的高薪職位機會,全身心投入在基礎科學研究當中。儘管我們最初幾版成品的解析效果並不理想,但我們從未放棄尋找新的突破角度,就這樣我倆持續地思考問題所在,讓算法參數得到了不斷優化。」馬劍鵬說。

研究中,羅鎮威博士發揮了自己的獨立工作能力,很多重要算法都是由他自主建立。「儘管我們在組會討論時,經常為了一個問題爭論得面紅耳赤,但是團隊成員之間的交流討論,也為課題組的進一步發展提供了靈感和方向。」馬劍鵬說。

最終,相關論文以《OPUS-DSD:用於冷凍電鏡單粒子分析的深層結構解纏結》(OPUS-DSD: deep structural disentanglement for cryo-EM single-particle analysis)為題發在 Nature Methods(IF 48),羅鎮威是第一作者,馬劍鵬擔任通訊作者。

圖 | 相關論文(來源:Nature Methods)

整體來看,OPUS-DSD 代表著三維重構的一種不同思路。在傳統冷凍電鏡成像之中,三維重構都是在倒格子空間完成的。包括 cryoDRGN 在內的方法儘管可以節約內存和計算,不過很多實空間的先驗和約束都無法用在其上。

但是隨著 GPU 的出現以及計算性能的大爆發,即便在實空間中進行三維重構,也能以相當快的速度完成。比如 Nerf 和 Neural Volumes 這類算法,都是定義在實空間之中。

馬劍鵬表示:「因此,我們相信實空間中的冷凍電鏡數據處理依然有廣闊的前景。」

基於此,他和團隊一方面將繼續優化 OPUS-DSD 的重構質量,提高神經網絡直接輸出的三維模型的解析度,從而讓 OPUS-DSD 重構的結果中包含更高解析度的動態信息。

另一方面則打算將 OPUS-DSD 拓展到冷凍電子斷層掃描數據上。目前這一功能已經開發完成,接下來他們將結合實際數據對其加以進一步優化。

(來源:Nature Methods)

個人的三十年,時代的三十年

在本次論文正式發表之際,馬劍鵬回國發展已有五年之久。1990 年,馬劍鵬赴美留學。2018 年,他全職回國加入復旦大學並創辦複雜體系多尺度研究院(MRICS,Multiscale Research Institute for Complex Systems)。

在這將近三十年的時間裡,不僅是他個人在計算結構生物學領域積累與發展的三十年,也是中國提出並深化科技強國理念的三十年。

他說:「我們這一批人見證並經歷了科技人才出國深造與歸國建設的浪潮。就我所從事的計算結構生物學領域而言,美國方面的發展始於 20 世紀中期,隨著 X 射線晶體學和核磁共振技術的發展,學界開始解析蛋白質和核酸的三維結構。」

美國一些研究機構和大學,比如馬劍鵬做博士後時所在的哈佛大學團隊,曾在這一領域取得過重要突破。

現年已經 93 歲的計算生物奠基人、美國理論化學家馬丁·卡普拉斯(Martin Karplus)教授、以及已故的北美實驗結構生物學鼻祖威廉·利普斯科姆(William Lipscomb)教授,曾先後獲得諾貝尓獎。馬劍鵬在美國留學期間,有幸成為這兩位教授的學生。

這讓當時的馬劍鵬有機會接受最先進的理念,並能和最優秀的團隊一起從事科研工作。

中國在計算結構生物學領域的發展相對較晚,在三十年前的實力還比較薄弱。後來,國內有識之士開始關注到這一領域的重要性。

21 世紀初至今,國內相關部門逐漸增加對於計算結構生物學研究的投入,支持建設了一系列研究項目和實驗室,並積極引進全球優秀科學家參與建設,推動中國在這一領域快速發展,迅速縮小了與國際水平之間的差距。

2018 年,馬劍鵬與團隊獲得上海市「高峰人才計劃」項目支持,隨後他開始著手建設復旦大學複雜體系多尺度研究院,該院坐落於復旦大學張江校區。

(來源:資料圖)

由於他和團隊已在該領域深耕多年,因此他的率隊回國不僅能帶回最先進的理念和優秀的人才團隊,也可以獲得更好的科研支持。

目前,他所帶領的 MRICS 研究院旨在面向國際前沿問題,利用人工智慧、大數據等方法結合傳統實驗手段,展開分子與結構生物學、化學、物理學等交叉領域的研究。

同時,其也正採用國際前沿的多組學聯合分析和生物信息學等技術解決生物學問題,利用計算和實驗相結合的方法揭示疾病的發生和發展過程,以及疾病對藥物響應的系統性變化。

成立至今,MRICS 研究院已經建立了具備乾濕結合、基於蛋白質結構的全鏈條 AI 賦能新藥創新的一體化研發平台。在該平台上,馬劍鵬和團隊打通了從全新目標蛋白髮現、計算結構預測、實驗結構測定、專用模擬算法開發、到顛覆性大分子藥物研發的整個通路的研究。

他表示:「在我看來,如今中國對科技的支持和重視,是吸引人才集聚和回歸的重要因素。近年來,中國的研究團隊逐漸在蛋白質結構預測、分子模擬、藥物設計等領域取得了一些重要的研究成果。」

「也正是在國家和上海市的支持下,我們才能取得類似於本次成果的突破性科學進展。這是時代的大勢所趨,」馬劍鵬總結稱。

參考資料:

1.Luo, Z., Ni, F., Wang, Q.et al. OPUS-DSD: deep structural disentanglement for cryo-EM single-particle analysis. Nat Methods 20, 1729–1738 (2023). https://doi.org/10.1038/s41592-023-02031-6

文章來源: https://twgreatdaily.com/zh-sg/7ac2f6e53d14d51a0e847a5105985879.html