《科學》:迄今為止樣本規模最大的癌症全基因組測序研究成果發布!

2022-05-19   奇點網

原標題:《科學》:迄今為止樣本規模最大的癌症全基因組測序研究成果發布!

腫瘤細胞的基因組是高度變異的,自癌症發生以來,各種環境因素均會對其基因組產生直接影響。如今, 全基因組測序(WGS)技術日趨成熟,這為癌症基因組信息的分析提供了極大的便利。除了能對少數的腫瘤驅動基因突變進行檢測外,WGS還能提供腫瘤發生髮展過程中各種「乘客突變」(passenger mutations)的全局景觀 (「乘客突變」指的是癌症基因組中存在的諸多非驅動突變,乘客突變中的許多突變對癌症發展不起主導作用,但積累起來卻能產生顯著影響[1])

不同突變類型 (既包括驅動基因突變也包括乘客突變)經過組合會形成一定的模式(pattern),這就是所謂的突變標記(mutation signature)。突變標記包含由多個單一鹼基替換組合而成的單鹼基替換( SBS)標記和由多個雙鹼基替換組合而成的雙鹼基替換標記(DBS)標記。 對突變標記的鑑定不僅有助於加深對癌症發展過程中環境或內源性因素的理解,也可以為癌症治療提供一些潛在的通路靶點

最近,來自英國劍橋大學的Serena Nik-Zainal團隊在國際知名學術期刊 Science 發表了一項重要研究[2], 通過對多種腫瘤類型的全基因組測序結果進行分析,研究團隊發現了眾多在此前研究中未被鑑定的突變信號,另外,本研究還按照器官類型對同種器官中常見(廣泛存在於不同腫瘤樣本中)的突變標記(common mutation signature)和罕見(只存在於不到1%的腫瘤患者中)的突變標記(rare mutation signature)進行了歸類。值得注意的是, 該項研究也是迄今為止樣本規模最大的癌症全基因組測序研究

論文首頁截圖

近些年來,包括癌症基因組圖譜(TCGA)、國際癌症基因組聯盟(ICGC)、哈特維格醫學基金會( HMF)等癌症WGS資料庫的建立極大地促進了腫瘤醫學的研究與發展。另一方面,全球多個國家也相繼建立起成熟的腫瘤大數據分析平台。這樣,通過對收集來的新鮮腫瘤組織樣本的高質量WGS信息進行分析,再將分析結果與上述已建立的資料庫信息進行比對印證,就可對腫瘤患者的治療提供實際的指導意義。

本項研究的數據樣本來自於英國基因組學公司(GEL)此前推出的「10萬基因組計劃」(100kGP), 這是一個在英國範圍內開展的大規模臨床研究項目,收集了大約85000名罕見病或癌症患者的WGS數據。在這裡,研究人員首先對來自10kGP的從11585個腫瘤患者上收集的12222份冷凍腫瘤組織樣本的WGS結果進行了突變標記分析。

分析過程主要包括兩輪數據提取,簡單來說,第一輪提取會忽略掉所有偶發性的罕見突變標記 (後稱罕見標記),而只對在多個腫瘤樣本中廣泛存在的突變標記 (後稱常見標記)進行分析,這樣就首先得出了一組高度準確的突變標記。之後再通過將第一輪得到的突變標記擬合回相應樣本,如樣本中產生額外的不能用常見標記解釋的突變模式,就從這些樣本中提取額外的突變標記 (即罕見標記)。經過分析, 最終在19種腫瘤類型中共鑑定出135個常見SBS標記和180個罕見SBS標記

圖1 突變標記的提取流程

為了對分析得到的突變標記結果進行驗證,研究團隊進一步對來自ICGC的3001個原發性腫瘤樣本(19種腫瘤類型)和來自HMF的3417份轉移性腫瘤樣本(18種腫瘤類型)的WGS數據進行了突變標記分析。最終,來自ICGC資料庫的樣本分析得到135個常見標記和58個罕見標記,來自HMF的樣本得到135個常見標記和114個罕見標記。

對不同資料庫來源樣本的分析得到了相同數量的常見標記數(均為135個,與樣本大小無關),而罕見標記數則與樣本數相關,樣本越大,越容易被檢測到。此外,通過比較分析也發現, 不同資料庫中相同組織分析結果的相似性比同一資料庫中不同組織間的相似性高,這說明突變標記具有極高的組織特異性。

圖2 不同器官中常見簽名與罕見簽名的分布特徵

進一步實驗中,研究人員將三個資料庫中所有類型腫瘤樣本(共計18640個)的WGS數據進行統合與聚類分析,希望推導出一組參考標記(Reference signature)(參考標記允許不同器官和資料庫間數據的比較,因為不同器官中可能發生同樣的生物學過程並產生相同的突變標記)

首先,研究人員將腫瘤中高度相似的模式集群定義為獨特模式(Distinct Patterns),這些獨特模式又被分為了三類:

(1)在不同器官不同資料庫的腫瘤樣本中均可被觀察到的模式,被稱為重複模式。

(2)其他各種標誌混合組成的模式,被稱為混合模式 (這種模式並非樣本中實際出現的模式,而是通過排列組合模擬出的模式)

(3)僅在單個樣本中提取到的模式,被稱為單例模式。

通過對各種模式進行質量控制(quality control, QC)分類,該次提取共得到82個高質量 (即下圖中的QC green SBS signatures)的SBS和27個DBS參考標記。

圖3 參考標記的篩選流程

之後,通過與腫瘤體細胞突變(COSMIC)資料庫中的數據結果(即此前研究中已被鑑定的突變標記)進行比對,發現本次鑑定出的突變標記中有42個SBS和9個DBS是此前已被鑑定過的(如下圖中藍色條),也就是說, 本次分析結果中新發現了此前未被鑑定的40個SBS和18個DBS突變標記(如下圖中橙色條)

圖4 篩選得到的參考標記(橙色條為本研究中新發現的,藍色條為此前被報道的)

之後,研究人員還基於上述工作流程(即兩輪提取突變標記的方法)開發了名為FitMS的算法即配套的軟體工具,該款工具可以對患者腫瘤樣本的WGS結果進行突變標記提取。下圖為研究人員使用FitMS對乳腺癌、中樞神經系統腫瘤和結直腸癌三種腫瘤類型的樣本進行分析的結果,最終可以得出以下結論:

(1) 每個患者都可能有不同數量的(部分或全部)常見標記。在少數情況下,病人也會攜帶一種罕見標記。

(2) 一些常見標記廣泛存在於幾乎所有腫瘤類型中(如下圖中淺灰色點同時存在於三種腫瘤類型中),而其他常見標記則只特異存在於某種腫瘤中 (如深綠、淺綠色點只存在於乳腺癌中)

(3)同樣地, 罕見標記可能是獨特的(橙色點只存在於乳腺癌中)也可能發生在多種腫瘤類型中(紅色點既存在於乳腺癌又存在於中樞神經系統腫瘤中)

圖5 三種腫瘤類型常見標記和罕見標記分布及FitMS工作流程

總得來說,這項研究通過對大規模數據樣本的挖掘以及多個資料庫間信息的比對分析確定了多種此前未被報道的突變標記類型。而對常見標記和罕見標記的定義,也使研究人員確定了腫瘤器官特異性突變標記分布的普遍特徵。

同時,相應算法(FitMS)的開發也為腫瘤診治提供了實用的工具。相信今後對突變標記信息,尤其是對環境或內源性因素與突變標記形成間因果關係的闡明能夠為廣大腫瘤患者提供更加個性化的治療方案。

參考文獻:

1. Kumar S, Warrell J, Li S, et al. Passenger Mutations in More Than 2,500 Cancer Genomes: Overall Molecular Functional Impact and Consequences. Cell. 2020;180(5):915-927.e16. doi:10.1016/j.cell.2020.01.032

2. Andrea Degasperi et al. Substitution mutational signatures in whole-genome-sequenced cancers of the UK national health service. Science, 2022, doi:10.1126/science.abl9283.