• 首页
  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们
CN EN

研究成果

  • 学术论文
  • 学术专著
  • 研究报告
  • 研究项目
  • 专利标准
首页 >  研究成果 >  学术论文

NEWInsurance Loss Modeling with Gradient Tree-Boosted Mixture Models

2025-04-17

在精算实践中,有限混合模型是一种广泛应用的统计方法,用于拟合保险损失。尽管期望最大化(EM)算法通常是混合模型参数估计的重要工具,但它存在一些问题,如难以进行特征工程和变量选择,以及容易发生过拟合。为了解决这些问题,我们提出了一种期望增强(EB)算法,该算法在第二步中通过梯度提升决策树,自适应地增加似然函数值。EB算法能够非参数化地、对过拟合敏感地,估计混合概率和成分分布参数,并同时执行自动化特征工程、模型拟合和变量选择,从而充分挖掘特征空间的预测能力。此外,所提出的算法可以与并行计算方法结合,以提高计算效率。最后,两项模拟研究和一项索赔金额的实证研究展示了该算法的良好性能。

NEWIdentification and Estimation of Causal Effects in the Presence of Confounded Principal Strata

2025-03-31

作为因果推断的重要工具,主分层分析近年来得到广泛应用,特别是在不依从问题和死亡截断问题中。在这些研究中,主分层由中间变量的联合潜在结果值确定,通常关注的是每个主分层内的因果效应,即主分层因果效应。传统基于观测数据识别主分层因果效应的研究需要依赖于处理分配的可忽略性假设,该假设本质上要求研究人员准确地测量尽可能多的协变量,以涵盖所有潜在的混杂因素。这在实践中可能由于成本和技术限制等原因而难以实现。针对这一问题,本文在处理和主分层之间存在未观测混杂因素的情况下,提出一种对主分层因果效应进行识别与估计的方法。该方法主要通过借助一对阴性对照变量来减少未观测混杂的影响,从而实现主分层因果效应的非参数识别。模拟结果表明该方法在估计的偏差、标准误和覆盖率上表现良好。此外,本文将所提出的方法应用于白血病研究的真实数据集中,用于评估两种不同的移植方案对于存活组白血病患者复发时间的影响。

A Semiparametric Gaussian Mixture Model for Chest CT-based 3D Blood Vessel Reconstruction

2024-05-30

计算机断层扫描(CT)技术自上世纪70年代问世以来一直是一种强大的诊断工具,利用CT成像数据,科研人员可以对人体内部器官和组织(如血管)进行三维重建。这种人体组织器官的三维重建对于外科手术来说至关重要,此外它也可以作为一个医学教学示例。然而,传统的三维重建工作严重依赖医生的手动操作,这些操作耗时且主观,此外需要医生具有较为丰富的经验。因此,本文针对人体血管自动三维重建的问题,提出了一种新型半参数高斯混合模型。该模型是对经典的混合高斯模型的拓展,它允许参数(例如均值和方差)在不同体素上具有非参数变化。同时,本文也开发了基于核的期望最大化算法来估计模型参数,并给出了相应的渐近理论。此外,本文提出了一种新型的基于回归的方法来选择最佳带宽。与传统的基于交叉验证的方法相比,基于回归的带宽选择方法在计算和统计效率方面表现更好。最后,本文给出了全自动实现人体血管三维重建的实例并取得了较高的精度。

Efficient and Effective Calibration of Numerical Model Outputs Using Hierarchical Dynamic Models

2024-05-22

空气质量数值模型,如社区多尺度空气质量(CMAQ)系统,在表征精细空间和时间尺度的污染水平方面发挥着关键作用。然而,数值模型的输出往往系统地高估或低估了实际的污染物浓度。在这项研究中,我们提出了一种贝叶斯分层动态模型,以利用其他来源的数据,特别是来自稀疏分布的监测站的点级观测数据,校准大规模网格级CMAQ模型输出。

Subsampling Spectral Clustering for Stochastic Block Models in Large-Scale Networks

2024-04-26

科学技术的快速发展产生了大量的网络数据,给网络社区检测带来了重大的计算挑战。针对这一问题,我们提出了一种二阶子采样谱聚类算法,旨在识别计算资源有限的大规模网络中的群落结构。该算法通过对整个网络进行简单的随机子采样来构建子网络,然后将现有的谱聚类扩展到子网络,以估计整个网络节点的社区标签。因此,对于大规模数据集,该方法甚至可以使用个人计算机来实现。此外,所提出的方法可以并行推广。从理论上讲,在随机块模型及其推广下,相应地建立了度校正随机块模型,子采样谱聚类方法的理论性质。最后,为了说明和评估所提出的方法,进行了大量的模拟研究和两个真实数据分析。

High-Risk Factor Prediction in Lung Cancer Using Thin-CT Scans: An Attention-Enhanced Graph Convolutional Network Approach

2024-04-26

该论文提出了一种融合注意力机制的图卷积神经网络(AE-GCN),旨在准确识别肺结节的高危因子。现有研究表明,具有微乳头状、实体型等病理高危特征的肺癌患者,在接受某些特定手术后复发风险较高。因此,在选择胸外科手术方案时,对这类高危肺结节的精确识别至关重要。本研究通过引入GCN模型来建模切片之间的空间特征,并利用注意力机制捕获切片级别的语义信息,从而实现对高危肺结节的术前准确诊断。

Graphical Principal Component Analysis of Multivariate Functional Time Series

2024-04-26

多元函数型时间序列数据在大气科学、环境健康、空间流行病等领域是一种常见的数据类型。这类函数型数据在多元和时序层面存在双重相依性,其协方差结构同时受到多元、时序以及随机曲线自身维度上变异性的共同影响,其复杂的相依结构降低了传统函数型主成分分析的统计推断效率与可解释性。针对这一问题,黄辉教授及其合作者引入图模型刻画数据的多元结构,并基于傅立叶变换提出一类定义在频率域上的动态弱可分条件,用于捕捉多元函数型时间序列的双重相依性。在此条件下,研究者可将图结信息内嵌于函数型主成分分析当中,提高函数特征提取和信号重构的效率。论文从大样本理论以及数值模拟的层面论证了新方法的有效性,并将该方法应用于京津冀地区PM2.5空气质量的监测网络数据分析当中。除此以外,该方法可以广泛应用于人群的多污染物暴露计算、医学图谱多元信号提取、疾病地图绘制等方面的研究当中。

Calibrated Regression Estimation using Empirical Likelihood under Data Fusion

2024-04-26

本文考虑在数据融合分析中,某个感兴趣的结果变量关于协变量的回归问题。具体而言,数据来源包括两个部分:主样本部分仅包含结果变量和部分协变量信息;而另一补充样本包含所有协变量,但缺少结果变量的信息。先前的研究已经提出了双稳健估计方法,该方法对数据融合机制使用单一倾向得分模型,对仅在补充数据集中可用的协变量使用单一插补模型。然而,由于数据生成过程是未知的,这些需假设两个模型之一是正确的估计方法在实践中可能会有问题。此外,由于这些估计基于逆概率加权,极端的概率估计值可能使得这些估计量具有较大的方差。因此,为了更好的防止模型被错误指定,我们在文中提出了一种基于经验似然的校准方法,允许倾向得分和插补机制包含多个候选模型。当任何一个模型被正确指定时,得到的估计量便是相合的,并且对极端倾向得分值具有较好的鲁棒性。文中还讨论了估计量的渐近正态性和有效性。模拟研究和实际数据分析表明,所提估计量较现有估计量具有显著的优势。

上一页
1 2 3 4 5 6
下一页

友情链接

  • 中国人民大学
  • 国家卫生健康委员会
  • 中国人民大学统计学院
  • 国家疾病预防控制局
  • 中国人民大学应用统计科学研究中心
  • 中国疾病预防控制中心

联系方式

联系人:钱老师

邮箱:health@ruc.edu.cn

地址:北京市海淀区中关村大街59号中国人民大学明德主楼10层

中国人民大学健康大数据研究院 版权所有

  • 机构概况
    • 研究院概况
    • 学术委员会
    • 研究团队
    • 研究方向
  • 研究成果
    • 学术论文
    • 学术专著
    • 研究报告
    • 研究项目
    • 专利标准
  • 科普案例
  • 数据资源
    • 调查数据
    • 医学信息数据
    • 基因组数据
    • 医学影像数据
    • 临床试验数据
  • 在线分析
    • 肺癌分析工具
    • 阿尔茨海默病分析工具
    • 自动化统计报告工具
  • 联系我们