• 首页
  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们
CN EN

研究成果

  • 学术论文
  • 学术专著
  • 研究报告
  • 研究项目
  • 专利标准
首页 >  研究成果 >  学术论文

NEWCo-regularized optimal high-order graph embedding for multi-view clustering.

2026-03-09

多视图数据在现实场景中广泛存在,例如图像的多种特征表示以及来自不同传感器的多源信息。这类数据为揭示对象的潜在结构提供了更加全面的信息来源,与单一视图数据相比,多视图数据在结构表达上更加复杂,不同视图之间往往存在分布差异与结构不一致的问题。如何在保留各视图局部结构特征的同时,实现跨视图的有效协同与全局一致性约束,成为制约多视图聚类性能提升的关键因素。为了解决上述问题,本文提出了一种基于协同正则化的最优高阶图嵌入多视图聚类方法(Co-MSE)。该方法在统一框架下同时建模多视图数据的一阶与二阶相似性信息,通过构建高阶图结构以更充分地刻画数据的潜在流形特征。在此基础上,引入协同正则化机制,对不同视图的嵌入表示进行一致性约束,在保持各视图局部结构特性的同时,增强多视图之间的协同学习能力。本研究在多个真实数据集上对所提方法进行了系统实验验证。实验结果表明,与现有主流多视图聚类方法相比,Co-MSE能够更有效地刻画多视图数据中的高阶结构信息,在聚类准确率与结果稳定性方面均取得了显著提升,体现了其在复杂多源数据分析任务中的应用优势。

NEWJoint identification of spatially variable genes via a network-assisted Bayesian regularization approach

2026-01-26

在空间转录组学数据分析中,识别具有空间差异表达的基因(Spatially Variable genes, SV genes)对于理解基因表达的空间交互作用及其背后的复杂生物机制具有重要意义。然而,现有统计方法多基于边际分析,从而忽略了基因间的网络结构关系。针对这一问题,本文提出了一种全新的网络辅助贝叶斯正则化识别方法,创新性地提出了阈值化图拉普拉斯正则化先验,使基因识别过程能够融入网络先验信息,并有效校正因测序精度不足导致的细胞分布差异所引起的混杂效应。大量模拟实验及真实数据应用结果表明,该方法在空间变异基因识别的精准性和稳健性方面均表现出显著优势。

Interconnections of Multimorbidity-Related Clinical Outcomes: Analysis of Health Administrative Claims Data With a Dynamic Network Approach

2025-07-05

鉴于多病共存的复杂性和日益加重的疾病负担,亟需提供循证依据以支持多病共存相关临床结局的有效管理。本研究提出了一种动态网络分析方法,用于刻画疾病特异性临床结局之间的条件依赖关系及其随时间变化的动态特征。该方法有效应对了医学数据中普遍存在的零膨胀问题,突破了传统建模技术在处理此类数据时的局限性。我们系统构建了方法的理论基础,并通过大量仿真实验对其性能进行了验证。研究基于台湾2000-2013年健康行政理赔数据,覆盖多种疾病状态,深入分析了网络的关键特征,包括连通性、模块结构和时间变化等。为进一步展示该方法在多病共存管理中的应用价值,本文以乳腺癌为例,剖析了其相关的结局网络结构。研究结果为理解多病共存提供了新的临床视角,所提出的方法有望为治疗策略的制定、卫生资源的优化配置及健康政策的科学制定提供有力支持。

Testing Sufficiency for Transfer Learning

2025-06-03

现实数据中常常面临维度很高而样本量很小的问题。此时可以利用迁移学习的方法,借用另一个大数据集(源数据)的信息来帮助估计目标模型。本文提出了一种测试迁移学习充分性的方法,用于检验源数据中特征提取函数是否足够帮助目标模型,使得目标数据的特征信息已经被充分提取,不需要进一步探索。如果拒绝原假设,说明还有有用信息未被利用,需要进一步分析。本文在一定假设下推导了该统计量在原假设成立时的渐近分布,并在模拟数据和实际数据上说明了该方法的有效性。

Insurance Loss Modeling with Gradient Tree-Boosted Mixture Models

2025-04-17

在精算实践中,有限混合模型是一种广泛应用的统计方法,用于拟合保险损失。尽管期望最大化(EM)算法通常是混合模型参数估计的重要工具,但它存在一些问题,如难以进行特征工程和变量选择,以及容易发生过拟合。为了解决这些问题,我们提出了一种期望增强(EB)算法,该算法在第二步中通过梯度提升决策树,自适应地增加似然函数值。EB算法能够非参数化地、对过拟合敏感地,估计混合概率和成分分布参数,并同时执行自动化特征工程、模型拟合和变量选择,从而充分挖掘特征空间的预测能力。此外,所提出的算法可以与并行计算方法结合,以提高计算效率。最后,两项模拟研究和一项索赔金额的实证研究展示了该算法的良好性能。

Identification and Estimation of Causal Effects in the Presence of Confounded Principal Strata

2025-03-31

作为因果推断的重要工具,主分层分析近年来得到广泛应用,特别是在不依从问题和死亡截断问题中。在这些研究中,主分层由中间变量的联合潜在结果值确定,通常关注的是每个主分层内的因果效应,即主分层因果效应。传统基于观测数据识别主分层因果效应的研究需要依赖于处理分配的可忽略性假设,该假设本质上要求研究人员准确地测量尽可能多的协变量,以涵盖所有潜在的混杂因素。这在实践中可能由于成本和技术限制等原因而难以实现。针对这一问题,本文在处理和主分层之间存在未观测混杂因素的情况下,提出一种对主分层因果效应进行识别与估计的方法。该方法主要通过借助一对阴性对照变量来减少未观测混杂的影响,从而实现主分层因果效应的非参数识别。模拟结果表明该方法在估计的偏差、标准误和覆盖率上表现良好。此外,本文将所提出的方法应用于白血病研究的真实数据集中,用于评估两种不同的移植方案对于存活组白血病患者复发时间的影响。

Efficient and Effective Calibration of Numerical Model Outputs Using Hierarchical Dynamic Models

2025-03-03

大气污染数值模式输出的空间高分辨率污染地图数据广泛用于评估污染物对特定区域居民健康的影响。然而,与空间稀疏分布的站点监测数据相比,原始的模式输出通常存在系统性偏差。为了解决这一问题,本文提出了一种基于贝叶斯分层的动态方法(HDCM)来校准空间高分辨率的数值模式输出结果。该方法发展了一种用于描述污染物复杂时空动态交互效应的离散化随机积分微分方程模型,并开发了一种基于变分贝叶斯和集合卡尔曼滤波的高效算法,能够高效生成校准后的高分辨率污染地图,并对其不确定性进行量化。本研究将所提方法应用于我国京津冀地区的“社区多尺度空气质量系统(CMAQ)”原始PM2.5浓度输出的校准问题中。与传统的统计校准方法相比,所提方法更好地刻画了复杂的时空交互效应,生成了更为准确的校准地图,且在计算效率上也获得了显著提升。

Censored C-learning for Dynamic Treatment Regime in Colorectal Cancer Study

2025-02-17

对于许多复杂疾病,尤其是肿瘤、慢性病等,患者通常需要接受长期多次的治疗,医生需要根据患者病情的发展状况以及过往治疗史,不断调整治疗方案。动态个性化治疗策略(DTR)由多个阶段的治疗策略组成,每个阶段的治疗策略是从患者的协变量信息到该阶段可选治疗的一个映射。受到一项关于中医治疗晚期结直肠癌的临床研究的启发,本研究提出了一种名为Censored C-learning的方法,用来估计多阶段、多治疗方案的生存数据下的最优DTR。为了解决右删失数据带来的DTR估计问题,本研究调整了反向递归算法,以适应灵活的治疗次数和治疗时间。针对多种治疗方案,本研究将多种治疗方案比较的优化问题转化为一个样本依赖的分类问题,并引入数据空间扩张算法进一步将样本依赖的分类问题转化为常规的加权分类问题。本研究从理论上证明了新提出的Censored C-learning方法估计所得策略的最优性,并通过数值模拟验证了该方法的优越性。此外,将Censored C-learning应用于西苑医院晚期结直肠癌患者数据,构建了具有可解释性的个性化治疗决策树。

上一页
1 2 3 4 5 6 7
下一页

友情链接

  • 中国人民大学
  • 国家卫生健康委员会
  • 中国人民大学统计学院
  • 国家疾病预防控制局
  • 中国人民大学应用统计科学研究中心
  • 中国疾病预防控制中心

联系方式

联系人:钱老师

邮箱:health@ruc.edu.cn

地址:北京市海淀区中关村大街59号中国人民大学明德主楼10层

中国人民大学健康大数据研究院 版权所有 京公网安备110402430004号 | 京ICP备05066828号-1

  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们