• 首页
  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们
CN EN

研究成果

  • 学术论文
  • 学术专著
  • 研究报告
  • 研究项目
  • 专利标准
首页 >  研究成果 >  学术论文

NEWCo-regularized optimal high-order graph embedding for multi-view clustering.

2026-03-09

多视图数据在现实场景中广泛存在,例如图像的多种特征表示以及来自不同传感器的多源信息。这类数据为揭示对象的潜在结构提供了更加全面的信息来源,与单一视图数据相比,多视图数据在结构表达上更加复杂,不同视图之间往往存在分布差异与结构不一致的问题。如何在保留各视图局部结构特征的同时,实现跨视图的有效协同与全局一致性约束,成为制约多视图聚类性能提升的关键因素。为了解决上述问题,本文提出了一种基于协同正则化的最优高阶图嵌入多视图聚类方法(Co-MSE)。该方法在统一框架下同时建模多视图数据的一阶与二阶相似性信息,通过构建高阶图结构以更充分地刻画数据的潜在流形特征。在此基础上,引入协同正则化机制,对不同视图的嵌入表示进行一致性约束,在保持各视图局部结构特性的同时,增强多视图之间的协同学习能力。本研究在多个真实数据集上对所提方法进行了系统实验验证。实验结果表明,与现有主流多视图聚类方法相比,Co-MSE能够更有效地刻画多视图数据中的高阶结构信息,在聚类准确率与结果稳定性方面均取得了显著提升,体现了其在复杂多源数据分析任务中的应用优势。

NEWJoint identification of spatially variable genes via a network-assisted Bayesian regularization approach

2026-01-26

在空间转录组学数据分析中,识别具有空间差异表达的基因(Spatially Variable genes, SV genes)对于理解基因表达的空间交互作用及其背后的复杂生物机制具有重要意义。然而,现有统计方法多基于边际分析,从而忽略了基因间的网络结构关系。针对这一问题,本文提出了一种全新的网络辅助贝叶斯正则化识别方法,创新性地提出了阈值化图拉普拉斯正则化先验,使基因识别过程能够融入网络先验信息,并有效校正因测序精度不足导致的细胞分布差异所引起的混杂效应。大量模拟实验及真实数据应用结果表明,该方法在空间变异基因识别的精准性和稳健性方面均表现出显著优势。

Effectiveness of Influenza Vaccines in Preventing Acute Cardiovascular Events within 1 Year in Beijing, China

2024-09-28

关于流感疫苗对急性心血管事件的保护作用仍存在争议。我们利用全北京市住院电子病历和流感疫苗接种数据,研究了2016年1月1日至2018年12月31日期间接种流感疫苗且在接种后两年内至少经历过一次急性心血管事件的个体。采用自身对照病例系列设计,计算了接种后一年内急性心血管事件的相对发生率(RI)及95%置信区间(CI)。在1647名参与者中(中位年龄:65岁,女性占38.43%),疫苗接种后29–365天内事件风险为基线水平的0.76倍(RI:0.76;95% CI:0.68–0.84)。这一保护作用在较年轻的参与者(P = 0.043)和无心血管病史的个体(P < 0.001)中更为明显,而急性呼吸道感染(P = 0.986)和接种频率(P = 0.272)不会影响流感疫苗对心血管事件的保护效果。本研究发现,流感疫苗对急性心血管事件的保护效果可持续至少一年,这提示其对心血管疾病的预防具有潜力。

Sparse Clustering for Customer Segmentation with High-Dimensional Mixed-Type Data

2024-09-01

客户细分在商业活动中有广泛的应用,如个性化营销和目标产品开发。为了实现客户细分,通常使用聚类方法。然而,现代客户细分面临着高维度和混合型变量(即连续变量和分类变量的混合)的挑战。这对客户细分带来了巨大的难题,因为大多数现有的聚类方法仅设计用于单一类型变量的数据。此外,噪声变量的存在凸显了同时进行变量选择和数据聚类的必要性。基于这些问题,我们开发了一种基于戴维斯-鲍丁指数的稀疏聚类(DBI-SC)方法,用于处理高维混合型数据的客户细分。在该方法中,我们分别为连续变量和分类变量定义了不相似度度量。然后,设计了一个调整后的DBI标准,用以衡量每个变量对聚类的贡献。对于变量选择,我们应用稀疏聚类框架,并为混合型变量引入不同的惩罚参数。DBI-SC方法的筛选一致性性质也得到了研究。大量的模拟研究表明,DBI-SC方法在聚类和变量选择方面均表现出令人满意的性能。最后,使用所提方法对指定的驾驶服务数据集进行了客户细分分析。

Variable Importance Based Interaction Modelling with an Application on Initial Spread of Covid-19 in China

2024-08-09

线性回归模型的交互项选择在现代科学的许多领域都发挥着重要作用,但非常具有挑战性,特别是当解释变量的维数相对较高时。现有方法侧重于选择一个最优模型。然而,对于高维数据它们在稳定性方面可能表现不佳,且通常无法处理分类变量。本文针对具有连续和分类解释变量的线性回归模型提出了基于变量重要性的交互项建模 (VIBIM) 方法。本文证明了在适当的条件下,VIBIM方法可以渐近地识别所有真实的主效应和相互作用。模拟结果表明该方法具有良好的有限样本表现。此外,本文将VIBIM方法应用于COVID-19数据。与传统的组变量选择方法相比,VIBIM方法在可解释性、稳定性、可靠性和预测精度方面表现更好。

Incorporating Prior Information in Gene Expression Network-Based Cancer Heterogeneity Analysis

2024-07-29

癌症在分子层面上具有异质性,表面上看似相似的患者实际上拥有不同的分子景观,并因此表现出不同的临床行为。最近的研究表明,基因表达网络在癌症异质性分析方面比一些更简单的度量方法更有效且信息量更大。基因之间的互联可以分为“直接”与“间接”,其中“间接”互联可能由共享的基因调控因子(如转录因子、微小RNA及其他调控分子)以及其他机制引起。已有研究建议,在网络分析中纳入基因表达的调控因子,并专注于直接的互联,可以更深入地理解更为关键的基因互联。然而,这种分析面临着大量参数(由网络分析、调控因子的纳入及异质性共同导致)和通常较弱信号的严重挑战。为有效应对这一问题,我们提出将已发表文献中包含的先验信息纳入分析。一个关键挑战在于这些先验信息可能是不完整的甚至是错误的。我们开发了一种两步程序,能够灵活地适应不同质量水平的先验信息。模拟结果证明了所提方法的有效性及其相对于相关竞争方法的优越性。在对一个乳腺癌数据集的分析中,得出了与其他方法不同的发现,且识别出的样本子群具有重要的临床差异。

Identification and Estimation of Causal Effects in the Presence of Confounded Principal Strata

2024-07-29

​作为因果推断的重要工具,主分层分析近年来得到广泛应用,特别是在不依从问题和死亡截断问题中。在这些研究中,主分层由中间变量的联合潜在结果值确定,通常关注的是每个主分层内的因果效应,即主分层因果效应。传统基于观测数据识别主分层因果效应的研究需要依赖于处理分配的可忽略性假设,该假设本质上要求研究人员准确地测量尽可能多的协变量,以涵盖所有潜在的混杂因素。这在实践中可能由于成本和技术限制等原因而难以实现。针对这一问题,本文在处理和主分层之间存在未观测混杂因素的情况下,提出一种对主分层因果效应进行识别与估计的方法。该方法主要通过借助一对阴性对照变量来减少未观测混杂的影响,从而实现主分层因果效应的非参数识别。模拟结果表明该方法在估计的偏差、标准误和覆盖率上表现良好。此外,本文将所提出的方法应用于白血病研究的真实数据集中,用于评估两种不同的移植方案对于存活组白血病患者复发时间的影响。

Sequential Covariate-Adjusted Randomization via Hierarchically Minimizing Mahalanobis Distance and Marginal Imbalance

2024-06-01

在对比研究中,协变量平衡和序列分配方案受到越来越多的学术关注。尽管许多理论上合理的自适应随机化方法实现了协变量平衡,但它们通常以成对或成组的方式分配患者。为了更好地满足临床医生由于经济或伦理原因无法等待其他参与者来分配当前患者的实际需求,我们提出了一种对患者进行个体和序列随机化的方法。所提出的方法在概念上将协变量失衡(通过新提出的修正马氏距离衡量)和边际失衡(即两组之间的样本量差异)分开,并以明确的优先顺序将它们最小化。与现有的序列随机化方法相比,所提出的方法在直接保持边际平衡的同时实现了最佳可能的协变量平衡,从而为我们提供了更多的随机化过程控制。我们通过广泛的模拟研究和真实数据分析展示了所提出方法的优越性能,并在失衡度量的收敛性以及随后治疗效果估计方面为该方法建立了理论保证。

上一页
1 2 3 4 5 6 7
下一页

友情链接

  • 中国人民大学
  • 国家卫生健康委员会
  • 中国人民大学统计学院
  • 国家疾病预防控制局
  • 中国人民大学应用统计科学研究中心
  • 中国疾病预防控制中心

联系方式

联系人:钱老师

邮箱:health@ruc.edu.cn

地址:北京市海淀区中关村大街59号中国人民大学明德主楼10层

中国人民大学健康大数据研究院 版权所有 京公网安备110402430004号 | 京ICP备05066828号-1

  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们