成果发表| 研究院王菲菲副教授团队在AOAS发表论文

发布时间:2024-09-14浏览量:

中国人民大学健康大数据研究院王菲菲团队研究成果“Sparse Clustering for Customer Segmentationwith High-Dimensional Mixed-Type Data”在《AOAS》接收发表。

区隔分析面临着高维数据和混合类型变量(即连续变量和分类变量的混合)的挑战。大多数现有的聚类方法只针对单一类型变量的数据而设计。此外,噪声变量的存在凸显了同时进行的变量选择以及聚类方法必要性。针对这些问题,本研究设计了一种基于 Davies-Bouldin 指数的稀疏聚类 (DBI-SC) 方法框架,用于高维混合类型数据的用户区隔分析。该方法分别为连续变量和分类变量定义距离度量,然后结合一个调整后的 DBI 准则来衡量每个变量对聚类的贡献。变量选择方面,本研究改进了传统的稀疏聚类框架,为不同的变量类型引入不同的惩罚参数,以实现对不同类型变量公平地进行信号变量的筛选。理论方面,本文研究了 DBI-SC 方法的筛选一致性。大量模拟研究表明,DBI-SC 方法在聚类和变量选择方面均具有令人满意的表现。

9325fd161ea4d75a2169e306365b823b.png