公共数据库+泛癌分析,全基因组DNA甲基化干系也能轻松6分+

藏宝库编辑 2024-10-11 14:38:14 3769 0 来自 中国
Genome-wide DNA methylation profiling and identification of potential pan-cancer and tumor-specific biomarkers


全基因组DNA甲基化分析和潜在的泛癌症和肿瘤特异性生物标记物的鉴定

发表期刊:Mol Oncol
发表日期:2022 Jan 2
DOI:  10.1002/1878-0261.13176
1.png 一、配景

        癌症是全世界第二大死因,乳腺癌、火线腺癌、肺癌、结肠直肠癌和胃癌是最常见的病因。异常的DNA甲基化被认为是癌症发展的一个标记,异常的 DNA 甲基化被认为是癌症发展的标记,并且已观察到整体低甲基化和位点特异性高甲基化。
        鉴于DNA甲基化在癌症中起着关键作用,一些研究概述了利用甲基化的DNA位点作为癌症检测标记,主要集中在基因启动子标记或单个CpG标记上。只管已经确定了几个这样的甲基化生物标记物,但此中只有少数被用于临床。这些检测方法仍然受到不同癌症阶段性能不一致的困扰,而且在检测残余疾病方面存在不足。
二、材料与方法

1.数据来源

1)DNA甲基化数据集是从TCGA下载的,选择了肿瘤与正常样本比例为10%或至少有10个肿瘤与正常样本对的数据集,总共有14种不同的肿瘤范例的数据集被用于分析:包罗6502个样本:5783个病例和719个对照
2)为了进行独立的外部验证,从GEO数据库下载了10个额外的Illumina450K甲基化数据集,汇总成一个更大的数据集,包罗8种不同范例的332个正常样本和1263个肿瘤样本,以代表泛癌症验证集。
2.实验流程

1)甲基化数据的预处理
2)差别性甲基化分析:差别甲基化分析主要利用champ软件包,清除了25%以上探针数据缺失的样本,过滤了别的有缺失值的探针,β值小于0的设为0,大于1的设为1;差别甲基化地区(DMRs)和差别甲基化区块(DMBs)是基因组的扩展地区,在两组之间体现出可量化的甲基化差别,利用ChAMP中Bumphunter算法的实施扩展来辨认,最小尺寸分别为50和500bp
3)泛癌症生物标记物鉴定:在对单个癌症数据集进行全基因组预筛选以确定肿瘤和正常样本之间甲基化差别最大的位点后,选择了全部14种范例共同的、对数|ΔβFC|≥2的DMPs用于后续分类器模子的创建;拟合二元逻辑回归模子来猜测构造范例
4)特定范例的生物标记物鉴定:接纳了1对1的方法来辨认14种肿瘤范例中的1种和其他13种归并的差别甲基化探针,利用的是包含14种肿瘤范例的5783个病例的集合数据集;利用多类矩阵交错的方法(类似于维恩图)来辨认每个肿瘤范例特有的DMPs,这些DMPs将作为模子猜测因子,然后进行筛选
三、实验结果

01 - 不同肿瘤范例的差别DNA甲基化的模式

        大多数肿瘤范例在正常和癌症样本中都体现出总体上的双峰β值密度分布,低端密度略高。食道癌体现两组的β值都在中心范围内巩固,而胰腺癌险些只在β值的低端范围内巩固(图1A)。为了在不同的肿瘤之间进行可扩展的比较,DMP计数报告为基于每个种别中分析的 CpGs 探针总数的标准化比例。差别甲基化在不同的肿瘤范例中显着不同;平均而言,在不同的肿瘤范例中观察到55%的差别甲基化,此中30%的低甲基化和25%的高甲基化(图1B)。食道癌、胰腺癌和甲状腺癌的差别甲基化比例最低,约为22%,而肾癌、肺癌和火线腺癌的比例最高,为70%或更高。肝癌、肺鳞癌和肾癌的低甲基化水平最高,约为40-48%,而甲状腺癌、食道癌和胰腺癌的低甲基化水平最小,约为10-15%。相反,乳腺癌、肺鳞癌和肾癌的高甲基化比例最高,为35-39%,而膀胱癌、食道癌和胰腺癌的高甲基化比例最低,为9-15%。有趣的是,在乳腺癌中,差别甲基化在高甲基化和低甲基化之间险些平均分配(图1B)。在DMPs的数量和数据集的样本数量之间没有观察到显着的干系性。整个肿瘤范例的DMPs平均被映射到17000个独特的基因上,每个基因有四个DMPs是最常见的,每个基因平均有八个DMPs。平均来说,35%的DMPs位于基因体,24%位于IGR,13%位于TSS1500,10%位于TSS200,9%位于5′UTR,4%位于3′UTR和第一外显子(图1C)。关于DMP与CpG岛的关系分布,最大比例的DMP映射到开放海区,平均37%,其次是CpG岛,平均31%。北部和南部海岸分别平均包含13%和10%的DMP,而北部和南部大陆架包含的DMP平均比例最低,分别为5%和4%(图1D)。
2.png         在不同的肿瘤范例中还发现了总共15260个DMRs,每个范例平均有1090个DMRs。DMRs是基因组的扩展片段(约10 bp - kb),在不同的生物样本中体现出DNA甲基化水平的定量改变。与DMPs类似,肾癌的DMRs最多,为2505个,而食道癌最少,为349个。DMRs的平均大小为750bp,平均包含12个CpG探针。每条染色体平均有726个DMRs,此中6号染色体最多,平均有1962个,21号染色体最少,平均有81个。DMRs在各肿瘤范例中的基因组分布总体上相似。6号染色体上的一段高DMR密度似乎存在于全部的肿瘤范例中,在3、11、17和19号染色体上可以看到类似的甲基化地区。令人注意的是,在任何一种癌症范例的9号染色体上都没有发现DMRs(图3)。在不同的肿瘤中共发现了29481个DMBs。
3.png         另一方面,DMBs是大规模的基因组地区(10 Kb-1 Mb),包含数百个基因间(开放海区)差别甲基化的CpGs。每个肿瘤平均有1785个DMBs被鉴定出来,在肾脏肾乳头瘤中观察到最多的是2543个DMBs,在肝癌中观察到最少的是1020个DMBs。由于比DMRs大,且含有更多的CpG探针,所鉴定的DMBs长度为750Kb,平均含有200个探针。每条染色体平均可以映射出1135个DMBs,此中2号染色体和18号染色体的DMBs数量分别最高和最低。从DMBs的基因组分布来看,它们似乎在各种癌症中体现出广泛的特征,这可以在1、8、9、18、19、21和22号染色体上清晰地观察到(图S3)。
4.png 02 - 甲基化作为泛癌检测生物标记物

        经过过滤步骤(图2),作者确定了28个泛癌DMPs,与全部癌症范例的正常人相比,这些DMPs在肿瘤样本中被高甲基化。此中12个可以被映射到12个不同的基因上,20个DMPs位于CpG岛地区,3个位于海岸地区,3个位于开放地区,2个位于架子地区。
        然后用二元逻辑回归来测试28个探针的组合,这些组合在对样本进行泛癌分类时结果最好。逻辑回归分类器模子是用1-4个探针的组合创建的,并在GEO数据集中进行了外部验证。总共测试了24157个猜测器组合,此中20475个由4个探针构成(图S4)。仅利用单个探针的平均曲线下面积(AUC)为0.84(图S4A),利用四个探针组合的平均曲线下面积上升到0.92(图S4D),1个和4个猜测器组合的平均误分类偏差分别为0.11和0.09。这些模子在验证数据集中体现精良,单个猜测因子的平均外部AUC为0.89,四个猜测因子为0.95(图S4A,D)。终极的模子是根据最高的AUC和最低的错误分类偏差以及这些丈量中最小的标准偏差选择的。
        终极的模子包罗四个探针,在发现集到达交错验证的AUC为0.95,在验证集到达AUC为0.96。误分类错误率为0.06,而敏感性和特异性为90%,总体准确性为92%。在验证数据集中也取得了相称的性能(图4)。无法测出临床癌症阶段或年龄对构造范例猜测的显着影响。阶段性的终极分层模子在全部四个阶段中产生了某种水平上的同一猜测结果,AUC高于0.90。正如预期的那样,I期体现出最低的指标,敏感性和特异性分别为85%和91%,而最准确的猜测结果出现在IV期,敏感性和特异性分别为97%和90%(图4)。
03 - 甲基化作为特定范例的检测生物标记物

        将类似的过滤步骤应用于单对单的差别性甲基化分析后,结直肠癌纪录的特定范例DMP数量最多,为5181个,其次是甲状腺癌,为4666个。食道癌和肺鳞癌的范例特异性DMP数量最少,分别为13和12个DMP(图S2)s。在对干系猜测因子进行特征选择后,还剩下586个探针,约莫是初始特征集的3%。随后,冗余过滤聚类步骤产生了20个CpG猜测因子,从10个产生的特征聚类中各选2个。由这20个猜测因子中的6个构成的组合被用来创建分类器模子;这是基于开端数据体现最高的平均AUC,猜测因子的数量最少,测试的组合总数最实用。利用PLSDA算法,利用14种范例的肿瘤集合数据集,共测试了38 760个组合。对14种肿瘤范例进行分类的平均交错验证AUC为0.85。大多数测试组合在分类癌症范例方面体现精良,甲状腺、尿道、火线腺、肾脏、结肠直肠、肝脏和头颈部癌症的局部AUC平均值高于0.90。胰腺癌、肺癌、食道癌、乳腺癌和膀胱癌的平均AUC较低,但其局部AUC最大值都在0.80以上。究竟上,只有食道癌的最大检测AUC低于0.90,为0.87,是研究的14种范例中最难辨别的。肝癌、火线腺癌、子宫癌和甲状腺癌的辨别能力最高,AUC为0.99,而结直肠癌的AUC为0.98。综合的终极模子包罗20个独特的CpG探针,在分类肿瘤范例方面体现非常好,与6个探针组合的单个模子相比,指标有显着的提高,特别是特异性(图5)。该模子在现有癌症范例的验证集中体现同样出色(图6)。甲状腺、子宫、火线腺、肝脏和结直肠肿瘤可以以近乎完美的灵敏度被辨认。在研究的14种癌症范例中,有12种可以以高于90%的敏感度和特异度进行辨别。只有食道癌和肺鳞状细胞癌的特异性分别为80%和87%(图5)。
8.png 9.png 四、结论

        研究利用癌症基因组图谱研究了14种不同癌症范例的全基因组甲基化谱,鉴定并验证了四种候选泛癌甲基化CpG生物标记物和20种候选癌症范例特异性标记物的组合。这突出了甲基组作为生物标记物的丰富来源,可用于新的微创癌症检测测定。
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-11-23 17:42, Processed in 0.209975 second(s), 35 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表