《科學》:最新全基因組研究,全面解碼體細胞突變與癌症的那些事兒!

2022-05-13     奇點網

原標題:《科學》:最新全基因組研究,全面解碼體細胞突變與癌症的那些事兒!

眾所周知,癌細胞中會積累大量在正常細胞中沒有的體細胞變異,正是這些變異導致了癌症的發生,但其中只有少部分屬於致癌的驅動變異[1]。

一直以來,科學家們對癌基因組中的驅動體細胞變異的解讀都集中於編碼區,發現了許多可成藥靶點[2],但 很少有研究關注占據了基因組98%的非編碼區中的體細胞變異,限制因素一方面是大量的腫瘤測序數據都是全外顯子測序,另一方面則是沒有合適的統計學算法來檢測非編碼區體細胞變異[3]。

近日,來自哈佛醫學院的Eliezer M. Van Allen團隊在《科學》期刊上發表重要研究成果。 他們開發了一套可以在全基因組範圍檢測體細胞變異的方法,並且將其應用於包含19種癌型3949例患者隊列的全基因組測序數據中,建立了一個泛癌體細胞全基因組突變譜[4]。

對於編碼區的體細胞變異一般通過相應蛋白質胺基酸序列的變化就可以初步得到其對於基因表達的影響,但非編碼區變異的解讀則要複雜的多,因為基因組非編碼區包括了從活性調控元件到封閉的異染色質等多種具有不同功能的區域[5]。而且已有研究證明非編碼區不同元件上的突變能影響不同的生物學過程[6]。

並且在非編碼區定義突變事件(在突變率、突變位點明顯不同於其他突變的變異集合)也比編碼區困難,以往應用於編碼區的方法可以通過將同義變異作為背景參考,從而得出哪些變異是與疾病有顯著關聯的,而非編碼區沒有所謂的同義變異[7]。

為此,Eliezer M. Van Allen團隊設計了一套統計檢驗方法用於癌細胞全基因組體細胞變異的發現和分類。他們首先將基因組以三種不同區間長度分成了三組片段集合,分別是1kb、10kb以及100kb。隨後在每一個集合中都應用了三個有著不同目的的統計學檢驗,分別是:

1) 比較每一個片段上一個特定基因組區域內觀察到的體細胞突變數量與基於表觀組學得到的理論突變數量,以此確定哪些基因組區域突變率明顯升高,這裡研究人員還考慮了異染色質和常染色質之間本身突變率的差異。

2) 比較不同癌型之間在同一個基因組區域上突變數量的差異,從而得到不同癌型在體細胞突變率上的異質性。

3) 檢查在一些特定位點上是否更容易發生突變,即突變位點是否有聚類傾向,這可以幫助對體細胞變異進行分類。

然後研究人員對上述統計檢驗的顯著結果進行校正合併,即得到了關於所有基因組區域的突變率、癌型之間突變率異質性以及變異富集位點的綜合性數據。

最後他們還根據有顯著性結果的變異所處的基因組位置將它們分成了四大類:編碼區變異、調控區變異、組織特異性基因相關變異(下文稱為組織特異性變異)以及不符合質控和前面三種類型條件的其他變異

研究設計的統計學檢驗方法以及後續整合方法

接著依據前述的四大類分類方式,研究人員一共發現每個大類中突變事件的數量分別為: 編碼區142個(平均每種癌症7.5個)、調控區73個(平均每種癌症3.8個)、組織特異性70個(平均每種癌症3.7個)、其他87個(平均每種癌症4.6個)

所有突變事件在基因組以及不同癌型中的分布,其中突變事件以靠最近的基因表示

並且由於編碼區和非編碼區用的是同一種方法,因此研究人員認為非編碼區的結果也是可靠的。他們發現 調控區突變事件富集於經典癌症基因(p<0.001),有27(37%)個突變事件是位於經典癌症基因調控區的,遠高於癌症基因占所有基因的比例(4.1%)。

考慮到調控區變異對基因表達的調控作用,因此這其中很可能存在著驅動突變,例如在膀胱癌、腦癌、頭頸癌、腎癌、肝癌、以及甲狀腺癌中發現的位於 TERT 啟動子上的突變被認為是驅動突變,因為 TERT 參與端粒調控。

然而與編碼區和調控區不同的是,組織特異性突變事件則基本上與癌症基因無關,研究人員發現這些突變事件相關的基因大部分是起到維持正常組織特定生理功能的基因,例如 KLK3 ,這是一個前列腺特異表達的基因,稱為前列腺特異性抗原,是前列腺癌變的標誌物。

至於屬於其他這一類的突變事件,其中許多都是功能尚不明確的。例如研究人員在乳腺癌、膀胱癌、食管癌、腎癌以及肝癌中的 NEAT1 和 NEAT2 附近發現的突變事件,他們覺得可能具有調控這兩個基因的功能,但是PCAWG中認為這些變異可能只是轉錄相關突變過程產生的,甚至有其他的研究認為這些變異是與腫瘤信號通路有關。

四類突變事件在癌症基因上的富集情況

他們結合染色質三維結構以及表觀組學數據,發現突變事件富集於(i)存在於腫瘤組織但在正常組織中不存在的ATAC-seq信號峰;(ii)與最近基因表達有關的ATAC-seq信號峰;(iii)與基因表達成負相關的甲基化標記;(iv)GWAS信號。

但是如果將突變事件的探查區域限定在這些信號附近,那麼便會丟失掉許多原本可以被檢測到的突變事件,甚至包括一些和癌症基因相關的突變事件也會丟失。這在一定程度上證明 全基因組範圍的檢測方法是可以探查到更多可靠的突變事件的

但值得一提的是,這項研究的方法在不同癌型之間的表現有著較大的差異,這取決於樣本量和癌症本身的背景突變率,這些因素會影響統計學方法的統計力。同時研究人員認為最主要的因素仍然是WGS數據量明顯不足 (與癌症WES數據相比),因此可能還有一些非編碼區突變事件沒有被發現。

然後研究人員開始對兩種非編碼區突變事件——調控區突變事件和組織特異性突變事件進行深入的特徵分析。

首先是組織特異性突變事件,研究人員發現這些突變事件中插入和刪除變異(indel)的比例更高,並且這些indel變異比基因組其他區域的indel更長,還傾向於出現在富含A/T的序列環境中,同時它們的突變率與相關基因的表達量成正相關,而在基因組的其他區域是負相關。

與基因組其他區域的突變事件相比,組織特異性基因附近的突變事件indel變異比例更高(左);其中的indel變異長度更長(右)

組織特異性突變事件也並不會出現在所有組織特異性基因附近,大部分癌症的發病組織都有超過100個組織特異性基因,但卻只有5個甚至更少的組織特異性突變事 件,而且不同癌型之間也有著很大的差異。

前文提到出現組織特異性突變事件的基因大都不是癌症相關基因,而是一些與特定組織生理功能有關的基因,通過結合其他研究的單細胞表達數據,研究人員發現 這些組織特異性基因在同一組織內部不同類型細胞之間存在差異表達,利用這一點可以對腫瘤細胞的來源進行溯源。

利用單細胞表達數據可以發現肝臟中組織特異性基因在肝細胞和內皮細胞中存在差異表達

比如研究人員發現在腎臟中,所有組織特異性突變事件相關的基因都在腎小管細胞中表達,而帶有這些基因的組織特異性突變事件的透明細胞乳頭狀腎細胞癌就是來源於腎小管細胞,這可能有助於癌症診斷。

接下來研究人員分析了調控區突變事件對轉錄因子結合、基因表達、基因互作、患者預後的影響。

他們結合JASPAR資料庫發現 有15.1%(11/73)的調控區突變事件造成了轉錄因子結合motif的改變,其中81.8%(9/11)的突變事件位於 TERT 啟動子區域的 ELK4 結合motif (造成結合位點多出一個)以及 BTG3 和 STAG1 (兩個基因都具有抑制惡性增殖功能)啟動子區域的 EGR1 結合motif (移除了結合位點)

由於分析調控區變異對基因表達的影響需要一個腫瘤樣本同時有RNA和DNA的數據,因此研究人員只評估了12種癌型中調控區變異對基因表達的影響。鑒於拷貝數變異、甲基化等也會影響基因表達,在去除這些因素的干擾之後,研究人員一共發現7個調控區突變事件會使得攜帶和不攜帶的患者的基因表達量存在差異。

許多調控區突變事件所關聯的基因是和癌症驅動基因有直接直接物理互作關係的,表明它們可能涉及相同的生物學通路。這在患者的生存分析中也有所體現, 研究人員比較了攜帶和不攜帶調控區突變事件的患者的生存期差異,發現了許多的差異信號,例如甲狀腺癌和腦癌中 TERT 相關的調控區變異(p=0.00003)、腎癌中 ARRDC3 相關的調控區變異(p=0.04)。

最後,由於許多的調控區變異並不位於像啟動子這樣的經典調控區,於是研究人員便想知道這些變異是否會對離它們最近的基因的表達量造成影響,但由於缺乏相匹配的表達數據,他們設計了兩個實驗來驗證。

他們選定 XBP1 作為例子,這是一個和乳腺癌有關的基因,有研究報道 XBP1 參與雌激素受體信號轉導[10,11],而研究人員在他們的數據中發現 XBP1 附近的變異並不位於啟動子上。並且與雌激素受體陰性的乳腺癌樣本相比,陽性樣本中 XBP1 附近的ATAC-seq信號更多,這表明在雌激素受體陽性乳腺癌中, XBP1 附近的調控區有較強活性。

因此,研究人員利用CRISPR和流式細胞以及螢光雜交技術,設計了2923條sgRNA,在乳腺癌細胞中發現了5個 XBP1 附近的調控區,其中4個位於 XBP1 上游,1個位於 XBP1 下游,這表明 一些具有調控作用的變異是有可能出現在經典調控區之外的。

利用CRISPR發現了 XBP1 附近有5個調控區

接著他們將 XBP1 附近10個變異周圍193bp的序列克隆轉導進質粒中,然後在乳腺癌細胞中利用螢光素酶報告實驗檢測這些變異對基因表達的影響。與轉導了不攜帶突變序列的細胞相比,有5個變異顯著增加了螢光素酶的活性(p<0.05),還有三個增加了1.5倍。

這個結果與PCAWG和CCLE兩個研究中的結果是一致的,表明 XBP1 附近的調控區變異能增加XBP1的表達量。

這項研究設計了一套可用於全基因組範圍突變事件檢測的統計學方法,實現了在非編碼區定義突變事件,克服了以往由於非編碼區複雜的元件組成的困難,並且利用包括19種癌型3949例患者的WGS數據建立了一個泛癌全基因組體細胞突變事件目錄。

參考資料:

[1] Stratton MR, Campbell PJ, Futreal PA. The cancer genome. Nature. 2009;458(7239):719-724. doi:10.1038/nature07943

[2] Bailey MH, Tokheim C, Porta-Pardo E, et al. Comprehensive Characterization of Cancer Driver Genes and Mutations [published correction appears in Cell. 2018 Aug 9;174(4):1034-1035]. Cell. 2018;173(2):371-385.e18. doi:10.1016/j.cell.2018.02.060

[4] Dietlein F, Wang AB, Fagre C, et al. Genome-wide analysis of somatic noncoding mutation patterns in cancer. Science. 2022;376(6589):eabg5601. doi:10.1126/science.abg5601

[5] Bernstein BE, Stamatoyannopoulos JA, Costello JF, et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat Biotechnol. 2010;28(10):1045-1048. doi:10.1038/nbt1010-1045

[7] Lawrence MS, Stojanov P, Polak P, et al. Mutational heterogeneity in cancer and the search for new cancer-associated genes. Nature. 2013;499(7457):214-218. doi:10.1038/nature12213

[9] Imielinski M, Guo G, Meyerson M. Insertions and Deletions Target Lineage-Defining Genes in Human Cancers. Cell. 2017;168(3):460-472.e14. doi:10.1016/j.cell.2016.12.025

[11] Sengupta S, Sharma CG, Jordan VC. Estrogen regulation of X-box binding protein-1 and its role in estrogen induced growth of breast and endometrial cancer cells. Horm Mol Biol Clin Investig. 2010;2(2):235-243. doi:10.1515/HMBCI.2010.025

文章來源: https://twgreatdaily.com/zh/11bb7109fbd446f66cc8ce9f7e8e885d.html