Calibrated Regression Estimation using Empirical Likelihood under Data Fusion

发布时间:2024-04-26浏览量:

本文考虑在数据融合分析中,某个感兴趣的结果变量关于协变量的回归问题。具体而言,数据来源包括两个部分:主样本部分仅包含结果变量和部分协变量信息;而另一补充样本包含所有协变量,但缺少结果变量的信息。先前的研究已经提出了双稳健估计方法,该方法对数据融合机制使用单一倾向得分模型,对仅在补充数据集中可用的协变量使用单一插补模型。然而,由于数据生成过程是未知的,这些需假设两个模型之一是正确的估计方法在实践中可能会有问题。此外,由于这些估计基于逆概率加权,极端的概率估计值可能使得这些估计量具有较大的方差。因此,为了更好的防止模型被错误指定,我们在文中提出了一种基于经验似然的校准方法,允许倾向得分和插补机制包含多个候选模型。当任何一个模型被正确指定时,得到的估计量便是相合的,并且对极端倾向得分值具有较好的鲁棒性。文中还讨论了估计量的渐近正态性和有效性。模拟研究和实际数据分析表明,所提估计量较现有估计量具有显著的优势。