中国人民大学健康大数据研究院

研究成果

首页 > 研究成果 > 学术论文

NEWReduced Rank Multivariate Spatial Autoregressive Model for Large-scale Networks

2026-06-08

In spatial and social network analysis, multivariate spatial autoregressive (MSAR) models are effective tools for analyzing network data with multivariate responses. When the dimension of the response is divergent, however, the number of unknown parameters in an MSAR increases at a rate that is proportional to the square of the dimensionality, which poses significant challenges to the model estimation process. To address this issue, we propose a novel reduced-rank MSAR model by imposing a low-rank structure on the spatial influence matrix of the multivariate responses. The proposed model achieves substantial dimensionality reduction and offers insightful interpretations. To mitigate the high computational cost of the quasi-maximum likelihood estimator (QMLE), we propose a least squares estimator (LSE) for estimating the unknown parameters. Furthermore, we establish the asymptotic nature of the LSE when both the network size and the dimensionality of the responses diverge to infinity. To determine the rank, we propose an information criterion estimator and demonstrate the consistency of its rank selection process. Extensive numerical simulations validate the proposed model and parameter estimates. Finally, a dataset derived from Shouqianba, one of the largest aggregate payment platforms, is analyzed for illustration purposes.

NEWIdentification and Multiply Robust Estimation of Causal Effects via Instrumental Variables from an Auxiliary Population

2026-05-25

在目标人群中存在未观测混杂且缺乏工具变量时，因果效应的估计较为困难。本文利用来自辅助人群的工具变量，通过数据融合的方法来识别目标人群中的因果效应。文章首先讨论了基于条件平均处理效应同质性的传统思路，但该方法在处理效应存在异质性时可能产生偏倚。为此，本文提出了等混杂（equal-confounding）假设，即在调整观测协变量后，不同人群中的未观测混杂偏倚相同，但允许处理效应在不同人群之间存在差异。在此基础上，可以利用辅助人群识别混杂偏倚，并据此校正目标人群中处理与结果之间的关联性，从而恢复因果效应。文章进一步提出了多稳健估计方法及去偏机器学习方法，并通过模拟研究和真实数据分析验证了方法的有效性。

我国老年失能风险研究：基于删失数据半参转换模型

2024-11-11

老年失能风险是人口老龄化背景下值得关注的重要问题。已有研究往往忽略失能数据的删失属性，无法充分利用数据信息。本文提出了一种新的老年失能风险建模方法，首先在考虑失能数据区间删失和右删失的情况下，对中国老年健康影响因素跟踪调查（CLHLS）数据按个体从健康状态转移到首次失能状态经历的时间进行分类，同时利用CLHLS死亡调查补充个体死亡前的失能信息。在此基础上，基于生存分析中的半参数转换失能时间模型，实现对老年失能率更准确的估计和预测。与传统模型相比，新模型将年龄、性别、教育水平等变量纳入模型，能够对不同特征人群的失能风险做更细致和精准的分析，为完善我国长期护理保险制度提供了实证依据。

Missing Data Considerations for Patient-Reported Outcome Measures in Randomized Controlled Trials

2024-10-28

国际生活质量研究学会（International Society for Quality of Life Research, ISOQOL）年度会议于2024年10月13日至16日在德国科隆举办。研究院教师李扬、林存洁、梅好及团队与跨国制药企业默沙东（MSD）合作完成的研究“Missing Data Considerations for Patient-Reported Outcome Measures in Randomized Controlled Trials”在大会上以海报形式进行发布。

RFDFM: A Deep Factorization Machine Network Model for Invasive Lung Adenocarcinoma Screening in CT Images

2024-10-24

作为肺癌的一种常见亚型，肺腺癌的诊断在临床实践中具有重要意义，特别是在区分非侵袭性腺癌（Pre-IA）和侵袭性腺癌（IAC）方面。这一区分至关重要，因为这两种病变对应着不同的临床治疗策略：Pre-IA通常需要患者进行随访以观察结节的进展情况，从而制定后续的治疗方案，而IAC一般来说需要进行手术干预。本研究针对肺腺癌的侵袭性分类问题，提出了一种基于影像组学特征的深度因子分解机模型（Radiomic Feature Deep Factorization Machine，RFDFM）。RFDFM模型结构包括了多个关键技术要点：首先，首次在医疗影像领域中引入了因子分解机模块，有效建模了不同影像组学特征之间的相互作用，提高了预测性能；其次，采用低层次特征融合卷积神经网络，最小化信息损耗，增强特征利用效率；此外，在特征融合过程中应用元素级注意力机制，动态为特征分配权重，突出关键特征，提高模型的拟合效率等。

Effectiveness of Influenza Vaccines in Preventing Acute Cardiovascular Events within 1 Year in Beijing, China

2024-09-28

关于流感疫苗对急性心血管事件的保护作用仍存在争议。我们利用全北京市住院电子病历和流感疫苗接种数据，研究了2016年1月1日至2018年12月31日期间接种流感疫苗且在接种后两年内至少经历过一次急性心血管事件的个体。采用自身对照病例系列设计，计算了接种后一年内急性心血管事件的相对发生率（RI）及95%置信区间（CI）。在1647名参与者中（中位年龄：65岁，女性占38.43%），疫苗接种后29–365天内事件风险为基线水平的0.76倍（RI：0.76；95% CI：0.68–0.84）。这一保护作用在较年轻的参与者（P = 0.043）和无心血管病史的个体（P < 0.001）中更为明显，而急性呼吸道感染（P = 0.986）和接种频率（P = 0.272）不会影响流感疫苗对心血管事件的保护效果。本研究发现，流感疫苗对急性心血管事件的保护效果可持续至少一年，这提示其对心血管疾病的预防具有潜力。

Sparse Clustering for Customer Segmentation with High-Dimensional Mixed-Type Data

2024-09-01

客户细分在商业活动中有广泛的应用，如个性化营销和目标产品开发。为了实现客户细分，通常使用聚类方法。然而，现代客户细分面临着高维度和混合型变量（即连续变量和分类变量的混合）的挑战。这对客户细分带来了巨大的难题，因为大多数现有的聚类方法仅设计用于单一类型变量的数据。此外，噪声变量的存在凸显了同时进行变量选择和数据聚类的必要性。基于这些问题，我们开发了一种基于戴维斯-鲍丁指数的稀疏聚类（DBI-SC）方法，用于处理高维混合型数据的客户细分。在该方法中，我们分别为连续变量和分类变量定义了不相似度度量。然后，设计了一个调整后的DBI标准，用以衡量每个变量对聚类的贡献。对于变量选择，我们应用稀疏聚类框架，并为混合型变量引入不同的惩罚参数。DBI-SC方法的筛选一致性性质也得到了研究。大量的模拟研究表明，DBI-SC方法在聚类和变量选择方面均表现出令人满意的性能。最后，使用所提方法对指定的驾驶服务数据集进行了客户细分分析。

Variable Importance Based Interaction Modelling with an Application on Initial Spread of Covid-19 in China

2024-08-09

线性回归模型的交互项选择在现代科学的许多领域都发挥着重要作用，但非常具有挑战性，特别是当解释变量的维数相对较高时。现有方法侧重于选择一个最优模型。然而，对于高维数据它们在稳定性方面可能表现不佳，且通常无法处理分类变量。本文针对具有连续和分类解释变量的线性回归模型提出了基于变量重要性的交互项建模 (VIBIM) 方法。本文证明了在适当的条件下，VIBIM方法可以渐近地识别所有真实的主效应和相互作用。模拟结果表明该方法具有良好的有限样本表现。此外，本文将VIBIM方法应用于COVID-19数据。与传统的组变量选择方法相比，VIBIM方法在可解释性、稳定性、可靠性和预测精度方面表现更好。