• 首页
  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们
CN EN

研究成果

  • 学术论文
  • 学术专著
  • 研究报告
  • 研究项目
  • 专利标准
首页 >  研究成果 >  学术论文

NEWInsurance Loss Modeling with Gradient Tree-Boosted Mixture Models

2025-04-17

在精算实践中,有限混合模型是一种广泛应用的统计方法,用于拟合保险损失。尽管期望最大化(EM)算法通常是混合模型参数估计的重要工具,但它存在一些问题,如难以进行特征工程和变量选择,以及容易发生过拟合。为了解决这些问题,我们提出了一种期望增强(EB)算法,该算法在第二步中通过梯度提升决策树,自适应地增加似然函数值。EB算法能够非参数化地、对过拟合敏感地,估计混合概率和成分分布参数,并同时执行自动化特征工程、模型拟合和变量选择,从而充分挖掘特征空间的预测能力。此外,所提出的算法可以与并行计算方法结合,以提高计算效率。最后,两项模拟研究和一项索赔金额的实证研究展示了该算法的良好性能。

NEWIdentification and Estimation of Causal Effects in the Presence of Confounded Principal Strata

2025-03-31

作为因果推断的重要工具,主分层分析近年来得到广泛应用,特别是在不依从问题和死亡截断问题中。在这些研究中,主分层由中间变量的联合潜在结果值确定,通常关注的是每个主分层内的因果效应,即主分层因果效应。传统基于观测数据识别主分层因果效应的研究需要依赖于处理分配的可忽略性假设,该假设本质上要求研究人员准确地测量尽可能多的协变量,以涵盖所有潜在的混杂因素。这在实践中可能由于成本和技术限制等原因而难以实现。针对这一问题,本文在处理和主分层之间存在未观测混杂因素的情况下,提出一种对主分层因果效应进行识别与估计的方法。该方法主要通过借助一对阴性对照变量来减少未观测混杂的影响,从而实现主分层因果效应的非参数识别。模拟结果表明该方法在估计的偏差、标准误和覆盖率上表现良好。此外,本文将所提出的方法应用于白血病研究的真实数据集中,用于评估两种不同的移植方案对于存活组白血病患者复发时间的影响。

Insurance Loss Modeling with Gradient Tree-Boosted Mixture Models

2025-04-17

在精算实践中,有限混合模型是一种广泛应用的统计方法,用于拟合保险损失。尽管期望最大化(EM)算法通常是混合模型参数估计的重要工具,但它存在一些问题,如难以进行特征工程和变量选择,以及容易发生过拟合。为了解决这些问题,我们提出了一种期望增强(EB)算法,该算法在第二步中通过梯度提升决策树,自适应地增加似然函数值。EB算法能够非参数化地、对过拟合敏感地,估计混合概率和成分分布参数,并同时执行自动化特征工程、模型拟合和变量选择,从而充分挖掘特征空间的预测能力。此外,所提出的算法可以与并行计算方法结合,以提高计算效率。最后,两项模拟研究和一项索赔金额的实证研究展示了该算法的良好性能。

Identification and Estimation of Causal Effects in the Presence of Confounded Principal Strata

2025-03-31

作为因果推断的重要工具,主分层分析近年来得到广泛应用,特别是在不依从问题和死亡截断问题中。在这些研究中,主分层由中间变量的联合潜在结果值确定,通常关注的是每个主分层内的因果效应,即主分层因果效应。传统基于观测数据识别主分层因果效应的研究需要依赖于处理分配的可忽略性假设,该假设本质上要求研究人员准确地测量尽可能多的协变量,以涵盖所有潜在的混杂因素。这在实践中可能由于成本和技术限制等原因而难以实现。针对这一问题,本文在处理和主分层之间存在未观测混杂因素的情况下,提出一种对主分层因果效应进行识别与估计的方法。该方法主要通过借助一对阴性对照变量来减少未观测混杂的影响,从而实现主分层因果效应的非参数识别。模拟结果表明该方法在估计的偏差、标准误和覆盖率上表现良好。此外,本文将所提出的方法应用于白血病研究的真实数据集中,用于评估两种不同的移植方案对于存活组白血病患者复发时间的影响。

Efficient and Effective Calibration of Numerical Model Outputs Using Hierarchical Dynamic Models

2025-03-03

大气污染数值模式输出的空间高分辨率污染地图数据广泛用于评估污染物对特定区域居民健康的影响。然而,与空间稀疏分布的站点监测数据相比,原始的模式输出通常存在系统性偏差。为了解决这一问题,本文提出了一种基于贝叶斯分层的动态方法(HDCM)来校准空间高分辨率的数值模式输出结果。该方法发展了一种用于描述污染物复杂时空动态交互效应的离散化随机积分微分方程模型,并开发了一种基于变分贝叶斯和集合卡尔曼滤波的高效算法,能够高效生成校准后的高分辨率污染地图,并对其不确定性进行量化。本研究将所提方法应用于我国京津冀地区的“社区多尺度空气质量系统(CMAQ)”原始PM2.5浓度输出的校准问题中。与传统的统计校准方法相比,所提方法更好地刻画了复杂的时空交互效应,生成了更为准确的校准地图,且在计算效率上也获得了显著提升。

Censored C-learning for Dynamic Treatment Regime in Colorectal Cancer Study

2025-02-17

对于许多复杂疾病,尤其是肿瘤、慢性病等,患者通常需要接受长期多次的治疗,医生需要根据患者病情的发展状况以及过往治疗史,不断调整治疗方案。动态个性化治疗策略(DTR)由多个阶段的治疗策略组成,每个阶段的治疗策略是从患者的协变量信息到该阶段可选治疗的一个映射。受到一项关于中医治疗晚期结直肠癌的临床研究的启发,本研究提出了一种名为Censored C-learning的方法,用来估计多阶段、多治疗方案的生存数据下的最优DTR。为了解决右删失数据带来的DTR估计问题,本研究调整了反向递归算法,以适应灵活的治疗次数和治疗时间。针对多种治疗方案,本研究将多种治疗方案比较的优化问题转化为一个样本依赖的分类问题,并引入数据空间扩张算法进一步将样本依赖的分类问题转化为常规的加权分类问题。本研究从理论上证明了新提出的Censored C-learning方法估计所得策略的最优性,并通过数值模拟验证了该方法的优越性。此外,将Censored C-learning应用于西苑医院晚期结直肠癌患者数据,构建了具有可解释性的个性化治疗决策树。

A Fresh Perspective on Examining Population Emotional Well-Being Trends by Internet Search Engine: An Emerging Composite Anxiety and Depression Index

2025-02-03

传统的焦虑或抑郁评估量表存在实施难、成本大等挑战,在研究群体心理特征趋势时存在诸多困难。本研究提供了一种新的方法,通过专注于在线检索信息来分析人群的情绪健康趋势。利用社交媒体上情感丰富的文本来构建舆论词典(POD)。然后,将POD与词向量模型和搜索趋势相结合,建立了复合焦虑抑郁指数(CADI)。该指数可以反映特定时间段内一个地区的心理健康水平。研究者利用外部数据验证了CADI的有效性,同时采用回归和亚组分析进一步阐明了公共心理健康(通过CADI测量)与经济发展和医疗负担之间的关联。

如何在临床试验自适应分配过程中实现影响因素的平衡

2025-01-02

中国人民大学健康大数据研究院李扬教授团队围绕“如何在临床试验自适应分配过程中实现影响因素的平衡”这一主题,在不同应用场景下分别提出了ARM、SARM、ARMM等自适应方法,并将受试者间的非独立关系纳入考虑,提出了NCARA。数值分析与理论分析显示,上述方法在平衡影响因素、提升估计有效性等方面表现优秀,并在CANTATA-SU(NCT00968812)、The Kanyakla Study(NCT02474992)等实证数据分析中得到印证。相关成果已发表于Statistica Sinica、Biometrics、Computational Statistics & Data Analysis、Statistics in Medicine等期刊。

上一页
1 2 3 4 5 6
下一页

友情链接

  • 中国人民大学
  • 国家卫生健康委员会
  • 中国人民大学统计学院
  • 国家疾病预防控制局
  • 中国人民大学应用统计科学研究中心
  • 中国疾病预防控制中心

联系方式

联系人:钱老师

邮箱:health@ruc.edu.cn

地址:北京市海淀区中关村大街59号中国人民大学明德主楼10层

中国人民大学健康大数据研究院 版权所有

  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们