• 首页
  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们
CN EN

研究成果

  • 学术论文
  • 学术专著
  • 研究报告
  • 研究项目
  • 专利标准
首页 >  研究成果 >  学术论文

NEWInsurance Loss Modeling with Gradient Tree-Boosted Mixture Models

2025-04-17

在精算实践中,有限混合模型是一种广泛应用的统计方法,用于拟合保险损失。尽管期望最大化(EM)算法通常是混合模型参数估计的重要工具,但它存在一些问题,如难以进行特征工程和变量选择,以及容易发生过拟合。为了解决这些问题,我们提出了一种期望增强(EB)算法,该算法在第二步中通过梯度提升决策树,自适应地增加似然函数值。EB算法能够非参数化地、对过拟合敏感地,估计混合概率和成分分布参数,并同时执行自动化特征工程、模型拟合和变量选择,从而充分挖掘特征空间的预测能力。此外,所提出的算法可以与并行计算方法结合,以提高计算效率。最后,两项模拟研究和一项索赔金额的实证研究展示了该算法的良好性能。

NEWIdentification and Estimation of Causal Effects in the Presence of Confounded Principal Strata

2025-03-31

作为因果推断的重要工具,主分层分析近年来得到广泛应用,特别是在不依从问题和死亡截断问题中。在这些研究中,主分层由中间变量的联合潜在结果值确定,通常关注的是每个主分层内的因果效应,即主分层因果效应。传统基于观测数据识别主分层因果效应的研究需要依赖于处理分配的可忽略性假设,该假设本质上要求研究人员准确地测量尽可能多的协变量,以涵盖所有潜在的混杂因素。这在实践中可能由于成本和技术限制等原因而难以实现。针对这一问题,本文在处理和主分层之间存在未观测混杂因素的情况下,提出一种对主分层因果效应进行识别与估计的方法。该方法主要通过借助一对阴性对照变量来减少未观测混杂的影响,从而实现主分层因果效应的非参数识别。模拟结果表明该方法在估计的偏差、标准误和覆盖率上表现良好。此外,本文将所提出的方法应用于白血病研究的真实数据集中,用于评估两种不同的移植方案对于存活组白血病患者复发时间的影响。

Variable Importance Based Interaction Modelling with an Application on Initial Spread of Covid-19 in China

2024-08-09

线性回归模型的交互项选择在现代科学的许多领域都发挥着重要作用,但非常具有挑战性,特别是当解释变量的维数相对较高时。现有方法侧重于选择一个最优模型。然而,对于高维数据它们在稳定性方面可能表现不佳,且通常无法处理分类变量。本文针对具有连续和分类解释变量的线性回归模型提出了基于变量重要性的交互项建模 (VIBIM) 方法。本文证明了在适当的条件下,VIBIM方法可以渐近地识别所有真实的主效应和相互作用。模拟结果表明该方法具有良好的有限样本表现。此外,本文将VIBIM方法应用于COVID-19数据。与传统的组变量选择方法相比,VIBIM方法在可解释性、稳定性、可靠性和预测精度方面表现更好。

Incorporating Prior Information in Gene Expression Network-Based Cancer Heterogeneity Analysis

2024-07-29

癌症在分子层面上具有异质性,表面上看似相似的患者实际上拥有不同的分子景观,并因此表现出不同的临床行为。最近的研究表明,基因表达网络在癌症异质性分析方面比一些更简单的度量方法更有效且信息量更大。基因之间的互联可以分为“直接”与“间接”,其中“间接”互联可能由共享的基因调控因子(如转录因子、微小RNA及其他调控分子)以及其他机制引起。已有研究建议,在网络分析中纳入基因表达的调控因子,并专注于直接的互联,可以更深入地理解更为关键的基因互联。然而,这种分析面临着大量参数(由网络分析、调控因子的纳入及异质性共同导致)和通常较弱信号的严重挑战。为有效应对这一问题,我们提出将已发表文献中包含的先验信息纳入分析。一个关键挑战在于这些先验信息可能是不完整的甚至是错误的。我们开发了一种两步程序,能够灵活地适应不同质量水平的先验信息。模拟结果证明了所提方法的有效性及其相对于相关竞争方法的优越性。在对一个乳腺癌数据集的分析中,得出了与其他方法不同的发现,且识别出的样本子群具有重要的临床差异。

Identification and Estimation of Causal Effects in the Presence of Confounded Principal Strata

2024-07-29

​作为因果推断的重要工具,主分层分析近年来得到广泛应用,特别是在不依从问题和死亡截断问题中。在这些研究中,主分层由中间变量的联合潜在结果值确定,通常关注的是每个主分层内的因果效应,即主分层因果效应。传统基于观测数据识别主分层因果效应的研究需要依赖于处理分配的可忽略性假设,该假设本质上要求研究人员准确地测量尽可能多的协变量,以涵盖所有潜在的混杂因素。这在实践中可能由于成本和技术限制等原因而难以实现。针对这一问题,本文在处理和主分层之间存在未观测混杂因素的情况下,提出一种对主分层因果效应进行识别与估计的方法。该方法主要通过借助一对阴性对照变量来减少未观测混杂的影响,从而实现主分层因果效应的非参数识别。模拟结果表明该方法在估计的偏差、标准误和覆盖率上表现良好。此外,本文将所提出的方法应用于白血病研究的真实数据集中,用于评估两种不同的移植方案对于存活组白血病患者复发时间的影响。

Sequential Covariate-Adjusted Randomization via Hierarchically Minimizing Mahalanobis Distance and Marginal Imbalance

2024-06-01

在对比研究中,协变量平衡和序列分配方案受到越来越多的学术关注。尽管许多理论上合理的自适应随机化方法实现了协变量平衡,但它们通常以成对或成组的方式分配患者。为了更好地满足临床医生由于经济或伦理原因无法等待其他参与者来分配当前患者的实际需求,我们提出了一种对患者进行个体和序列随机化的方法。所提出的方法在概念上将协变量失衡(通过新提出的修正马氏距离衡量)和边际失衡(即两组之间的样本量差异)分开,并以明确的优先顺序将它们最小化。与现有的序列随机化方法相比,所提出的方法在直接保持边际平衡的同时实现了最佳可能的协变量平衡,从而为我们提供了更多的随机化过程控制。我们通过广泛的模拟研究和真实数据分析展示了所提出方法的优越性能,并在失衡度量的收敛性以及随后治疗效果估计方面为该方法建立了理论保证。

Association between Influenza Vaccination and One-Year All-Cause and Cardiovascular Mortality Risk: A Self-Controlled Case Series and Matched Case-Control Study

2024-06-01

关于流感疫苗在生存获益方面的有效性仍存在争议,并且缺乏其保护持续时间的证据。我们使用2005年至2018年美国的国家健康访谈调查(NHIS)数据和死亡公开数据,进行了自身对照病例系列(SCCS)研究和1:4匹配的病例对照研究。SCCS研究的研究人群为在调查前12个月内接种过流感疫苗且在接种后1年内死亡的参与者。匹配的病例对照研究将调查时流感季节死亡的参与者与四名幸存者配对。在SCCS研究的1167名参与者中,接种后29–196天内发生全因死亡的风险较基线水平降低了46%,心血管死亡的风险降低了43%。最强的保护作用出现在接种后29–56天(全因死亡:RI:0.19;95% CI:0.12–0.29;心血管死亡:RI:0.28;95% CI:0.14–0.56)。在匹配的病例对照研究中,包含626例病例和2504名对照,流感疫苗接种与流感季节降低的全因死亡风险(OR:0.74,95% CI:0.60–0.92)和心血管死亡风险(OR:0.64,95% CI:0.44–0.93)相关。本研究强调了流感疫苗在降低全因和心血管死亡风险方面的重要性,其效果可持续约6个月。

Green’S Matching: An Efficient Approach to Parameter Estimation in Complex Dynamic Systems

2024-05-30

微分动力系统的关键参数对于描述整个系统的内在特征至关重要。许多用于估计动力系统参数的方法在计算或统计推断上是不充分的,特别是对于具有高阶微分算子的复杂系统,如运动动力学。本文介绍了格林匹配法,这是一种计算上可行且统计上高效的两步方法,因为通过计算格林函数微分算子的逆,它只需要逼近动态系统中的轨迹,而不需要算出它们的导数。这保证了一般阶方程中的参数估计量的优良统计性质,也是前人方法所不具备的特性。总的来说,格林匹配技术为复杂动态系统中的广泛统计推断提供了一个有效的框架。

上一页
1 2 3 4 5 6
下一页

友情链接

  • 中国人民大学
  • 国家卫生健康委员会
  • 中国人民大学统计学院
  • 国家疾病预防控制局
  • 中国人民大学应用统计科学研究中心
  • 中国疾病预防控制中心

联系方式

联系人:钱老师

邮箱:health@ruc.edu.cn

地址:北京市海淀区中关村大街59号中国人民大学明德主楼10层

中国人民大学健康大数据研究院 版权所有

  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们