基于高维基因组学数据的皮肤黑色素瘤预后预测

发布时间:2025-09-18浏览量:

基于高维基因组学数据的皮肤黑色素瘤预后预测

随着高通量测序技术的发展,基因组学数据已被广泛应用于癌症预后研究。此类数据通常包括癌症患者的基因组、转录组和蛋白质组等多组学数据,并结合临床数据共同分析。基因组学数据不仅能够揭示癌症生成机制和信号通路特征,还可用于预测患者的预后指标,为药物研发及疾病预防提供重要的科学依据。

一、 数据及预处理

本数据来自TCGA数据库中的皮肤黑色素瘤数据,包括标准化后的mRNA基因表达数据及患者临床数据。研究中将基因表达数据作为预测变量,探索基因表达与癌症预后之间的关系,并对患者的预后情况进行预测。皮肤黑色素瘤的预后评估依赖于临床病理指标,其中布雷斯洛深度(Breslow Depth)是指从皮肤表面到黑色素瘤最深处的测量值。该指标与肿瘤的恶性程度密切相关,布雷斯洛深度越大,表明肿瘤侵袭性越强,发生转移的风险越高。其转移会显著影响患者的生存情况,因此生存时间也是黑色素瘤预后的直接衡量指标。本研究分别以布雷斯洛深度和生存时间为结局变量建立预测模型。

在用连续型数据布雷斯洛深度作为结局变量时,首先先对数据进行预处理。由于原始基因表达数据维数过高且存在大多数基因与结局变量无关,因此依据京都基因与基因组百科全书在线数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)中对于皮肤黑色素瘤的通路分析(通路编号“hsa05218”),仅选取通路中涉及到的65个基因纳入模型。该基因表达数据已通过Z-score标准化为零均值同量纲,选取部分基因绘制直方图如图 1中 所示。此外,去掉结局变量缺失的样本,保留358个样本的65个基因表达进入后续分析。

在用生存情况作为结局变量时,以变量Overall Survival Status作为删失指标,变量Overall Survival Time(Months)作为生存时间,去掉生存时间或者生存指标缺失的样本,保留460个样本,删失率为52.2%。仍然选取相关通路中的65个基因预测皮肤黑色素瘤患者的生存情况。

 

图1: 皮肤黑色素瘤基因表达数据直方图

二、 预测

为预测患者的布雷斯洛深度,评估黑色素瘤的进展程度,首先将数据分成70%的训练集和30%的测试集,在训练集中建立预测模型,并对测试集中的样本进行预测。其预测流程如图2中所示。本研究中分别用三种方法进行预测,第一,建立线性回归模型采用最小二乘法估计回归系数;第二,采用正则化Lasso估计在进行系数估计的同时在65个基因中选择对癌症预后有影响的基因;第三,对于选择出的基因,对其估计系数进行重拟合。为对三个模型的预测效果进行评估,本研究定义测试集的误差平方和为测试集中样本预测值与观测值之间差的平方和,误差平方和越小,表示模型的预测效果越好。

为预测患者的生存情况,评估患者的预后水平,本研究采用生存分析加速失效(Accelerated Failure Time, AFT)模型。生存数据的主要特点为存在右删失问题,即截止到随访时间结束,事件仍未发生。AFT模型关注基因表达与对数生存时间之间的关系,通过对该影响关系的刻画预测患者的生存时间。同样将样本划分为70%的训练集和30%的测试集,在训练集中基于Kaplan-Meier 权重训练模型,涉及的三种预测方法及其流程如图3所示。类似地,第一,采用Stute加权最小二乘估计AFT模型;第二,结合Lasso同时对影响生存时间的基因进行选择;第三,重拟合。在测试集中,利用一致性指数(Concordance Index, C-Index)评估预测效果。其计算方法为把测试集中所有样本随机两两成对,所有对子中预测结果与实际结果发生顺序一致的对子占所有可比对子的比例。C-Index的取值范围为[0,1],越接近1表示预测效果越好。

 

图2: 皮肤黑色素瘤数据预测流程(布雷斯洛深度)

 

图3: 皮肤黑色素瘤数据预测流程(生存时间)

三、 总结与讨论

预测问题的方法和流程整体上可以分为三个部分:数据预处理、预测方法、评估与优化。针对不同的数据类型可以考虑不同的预测模型及评估指标。然而,基因组学数据维数高样本量小的特点也给预测带来了挑战。预测问题关注预测变量与结局变量之间的关系,常与其他问题相辅相成,例如变量选择和参数估计,也会采用常用的统计分析方法,例如极大似然法、最小二乘法以及降维方法,但预测更关注模型的泛化能力,因此通常需要进行数据划分。在生物医学研究中,随着数据收集和数据分析前沿技术的发展,对预测模型的建立、预测算法的有效性以及预测结果的解释都不断带来新的挑战。