Sparse Clustering for Customer Segmentation with High-Dimensional Mixed-Type Data

发布时间:2024-09-01浏览量:

image.png

image.png

客户细分在商业活动中有广泛的应用,如个性化营销和目标产品开发。为了实现客户细分,通常使用聚类方法。然而,现代客户细分面临着高维度和混合型变量(即连续变量和分类变量的混合)的挑战。这对客户细分带来了巨大的难题,因为大多数现有的聚类方法仅设计用于单一类型变量的数据。此外,噪声变量的存在凸显了同时进行变量选择和数据聚类的必要性。基于这些问题,我们开发了一种基于戴维斯-鲍丁指数的稀疏聚类(DBI-SC)方法,用于处理高维混合型数据的客户细分。在该方法中,我们分别为连续变量和分类变量定义了不相似度度量。然后,设计了一个调整后的DBI标准,用以衡量每个变量对聚类的贡献。对于变量选择,我们应用稀疏聚类框架,并为混合型变量引入不同的惩罚参数。DBI-SC方法的筛选一致性性质也得到了研究。大量的模拟研究表明,DBI-SC方法在聚类和变量选择方面均表现出令人满意的性能。最后,使用所提方法对指定的驾驶服务数据集进行了客户细分分析。