中国人民大学健康大数据研究院

研究成果

首页 > 研究成果 > 学术论文

NEWReduced Rank Multivariate Spatial Autoregressive Model for Large-scale Networks

2026-06-08

In spatial and social network analysis, multivariate spatial autoregressive (MSAR) models are effective tools for analyzing network data with multivariate responses. When the dimension of the response is divergent, however, the number of unknown parameters in an MSAR increases at a rate that is proportional to the square of the dimensionality, which poses significant challenges to the model estimation process. To address this issue, we propose a novel reduced-rank MSAR model by imposing a low-rank structure on the spatial influence matrix of the multivariate responses. The proposed model achieves substantial dimensionality reduction and offers insightful interpretations. To mitigate the high computational cost of the quasi-maximum likelihood estimator (QMLE), we propose a least squares estimator (LSE) for estimating the unknown parameters. Furthermore, we establish the asymptotic nature of the LSE when both the network size and the dimensionality of the responses diverge to infinity. To determine the rank, we propose an information criterion estimator and demonstrate the consistency of its rank selection process. Extensive numerical simulations validate the proposed model and parameter estimates. Finally, a dataset derived from Shouqianba, one of the largest aggregate payment platforms, is analyzed for illustration purposes.

NEWIdentification and Multiply Robust Estimation of Causal Effects via Instrumental Variables from an Auxiliary Population

2026-05-25

在目标人群中存在未观测混杂且缺乏工具变量时，因果效应的估计较为困难。本文利用来自辅助人群的工具变量，通过数据融合的方法来识别目标人群中的因果效应。文章首先讨论了基于条件平均处理效应同质性的传统思路，但该方法在处理效应存在异质性时可能产生偏倚。为此，本文提出了等混杂（equal-confounding）假设，即在调整观测协变量后，不同人群中的未观测混杂偏倚相同，但允许处理效应在不同人群之间存在差异。在此基础上，可以利用辅助人群识别混杂偏倚，并据此校正目标人群中处理与结果之间的关联性，从而恢复因果效应。文章进一步提出了多稳健估计方法及去偏机器学习方法，并通过模拟研究和真实数据分析验证了方法的有效性。

Efficient and Effective Calibration of Numerical Model Outputs Using Hierarchical Dynamic Models

2024-05-22

空气质量数值模型，如社区多尺度空气质量（CMAQ）系统，在表征精细空间和时间尺度的污染水平方面发挥着关键作用。然而，数值模型的输出往往系统地高估或低估了实际的污染物浓度。在这项研究中，我们提出了一种贝叶斯分层动态模型，以利用其他来源的数据，特别是来自稀疏分布的监测站的点级观测数据，校准大规模网格级CMAQ模型输出。

Subsampling Spectral Clustering for Stochastic Block Models in Large-Scale Networks

2024-04-26

科学技术的快速发展产生了大量的网络数据，给网络社区检测带来了重大的计算挑战。针对这一问题，我们提出了一种二阶子采样谱聚类算法，旨在识别计算资源有限的大规模网络中的群落结构。该算法通过对整个网络进行简单的随机子采样来构建子网络，然后将现有的谱聚类扩展到子网络，以估计整个网络节点的社区标签。因此，对于大规模数据集，该方法甚至可以使用个人计算机来实现。此外，所提出的方法可以并行推广。从理论上讲，在随机块模型及其推广下，相应地建立了度校正随机块模型，子采样谱聚类方法的理论性质。最后，为了说明和评估所提出的方法，进行了大量的模拟研究和两个真实数据分析。

High-Risk Factor Prediction in Lung Cancer Using Thin-CT Scans: An Attention-Enhanced Graph Convolutional Network Approach

2024-04-26

该论文提出了一种融合注意力机制的图卷积神经网络（AE-GCN），旨在准确识别肺结节的高危因子。现有研究表明，具有微乳头状、实体型等病理高危特征的肺癌患者，在接受某些特定手术后复发风险较高。因此，在选择胸外科手术方案时，对这类高危肺结节的精确识别至关重要。本研究通过引入GCN模型来建模切片之间的空间特征，并利用注意力机制捕获切片级别的语义信息，从而实现对高危肺结节的术前准确诊断。

Graphical Principal Component Analysis of Multivariate Functional Time Series

2024-04-26

多元函数型时间序列数据在大气科学、环境健康、空间流行病等领域是一种常见的数据类型。这类函数型数据在多元和时序层面存在双重相依性，其协方差结构同时受到多元、时序以及随机曲线自身维度上变异性的共同影响，其复杂的相依结构降低了传统函数型主成分分析的统计推断效率与可解释性。针对这一问题，黄辉教授及其合作者引入图模型刻画数据的多元结构，并基于傅立叶变换提出一类定义在频率域上的动态弱可分条件，用于捕捉多元函数型时间序列的双重相依性。在此条件下，研究者可将图结信息内嵌于函数型主成分分析当中，提高函数特征提取和信号重构的效率。论文从大样本理论以及数值模拟的层面论证了新方法的有效性，并将该方法应用于京津冀地区PM2.5空气质量的监测网络数据分析当中。除此以外，该方法可以广泛应用于人群的多污染物暴露计算、医学图谱多元信号提取、疾病地图绘制等方面的研究当中。

Calibrated Regression Estimation using Empirical Likelihood under Data Fusion

2024-04-26

本文考虑在数据融合分析中，某个感兴趣的结果变量关于协变量的回归问题。具体而言，数据来源包括两个部分：主样本部分仅包含结果变量和部分协变量信息；而另一补充样本包含所有协变量，但缺少结果变量的信息。先前的研究已经提出了双稳健估计方法，该方法对数据融合机制使用单一倾向得分模型，对仅在补充数据集中可用的协变量使用单一插补模型。然而，由于数据生成过程是未知的，这些需假设两个模型之一是正确的估计方法在实践中可能会有问题。此外，由于这些估计基于逆概率加权，极端的概率估计值可能使得这些估计量具有较大的方差。因此，为了更好的防止模型被错误指定，我们在文中提出了一种基于经验似然的校准方法，允许倾向得分和插补机制包含多个候选模型。当任何一个模型被正确指定时，得到的估计量便是相合的，并且对极端倾向得分值具有较好的鲁棒性。文中还讨论了估计量的渐近正态性和有效性。模拟研究和实际数据分析表明，所提估计量较现有估计量具有显著的优势。

An Ensemble Deep Learning Model for Risk Stratification of Invasive Lung Adenocarcinoma using Thin-Slice CT

2024-04-23

该研究主要提出了一种集成多视野的三维卷积神经网络（EMV-3D-CNN）模型用来对肺癌风险进行分级。肺癌一直是全球威胁人类健康最常见的癌症之一，它也是导致癌症相关死亡的主要原因，约占全部癌症相关死亡的18%。在中国，2020年肺癌发病率和癌症相关死亡率在所有癌症中位居第一位，总体5年生存率约为30%。近年来，随着低剂量计算机断层扫描（Computed Tomography, CT）在肺癌筛查中的普及，更多早期肺癌被发现。而快速发展的人工智能技术，可以让研究人员基于大量历史CT数据，通过设计新颖的深度学习模型来判断肺结节的病灶类型。本研究从实际的临床问题出发，系统解决了在临床实践中，肺结节诊断的三个重要问题

研究成果

NEWReduced Rank Multivariate Spatial Autoregressive Model for Large-scale Networks

NEWIdentification and Multiply Robust Estimation of Causal Effects via Instrumental Variables from an Auxiliary Population

Efficient and Effective Calibration of Numerical Model Outputs Using Hierarchical Dynamic Models

Subsampling Spectral Clustering for Stochastic Block Models in Large-Scale Networks

High-Risk Factor Prediction in Lung Cancer Using Thin-CT Scans: An Attention-Enhanced Graph Convolutional Network Approach

Graphical Principal Component Analysis of Multivariate Functional Time Series

Calibrated Regression Estimation using Empirical Likelihood under Data Fusion

An Ensemble Deep Learning Model for Risk Stratification of Invasive Lung Adenocarcinoma using Thin-Slice CT

友情链接

联系方式