基于平滑潜在空间模型的癌症在线健康社区定量语义分析

发布时间:2024-04-18浏览量:

图片.png

一、研究背景

在线健康社区(OHC)通过为患者、家属及其他相关人提供讨论平台,发挥着信息资源、情感支持等作用,尤其对于癌症这样复杂、难治愈的疾病,OHC能够很大程度上帮助理解病情与制定治疗方案、对患者及家属进行心理干预等。在此背景下,了解患者与相关人对病情的想法、分析其变化以及可能的外部或内部因素,是非常重要的命题,已有很多学者展开研究并取得成果,但这一方向仍存在着相当的局限性,对OHC帖子进行语言分析需要更有效的研究方法。

二、研究目标

本研究旨在提出一种文本分析技术,通过利用潜在空间模型系统地分析肺癌OHC发帖的词语共现网络、并且加入时间相关性的模型结构,探究新冠疫情期间OHC社区共词网络随时间的变化,从而为相关医疗临床研究提供支持。

三、研究内容

我们选取最有影响力的肺癌支持社区之一LCSC作为数据源,采集了2018年4月到2022年2月的共计21028条公开帖文。这一时间范围涵盖了从新冠疫情爆发前至2022年初的全部阶段。我们筛选其中的情感词作为文档特征,采用最大信息系数(MIC)构建各个月的共现网络,探究共词网络随时间的变化。

我们提出了两部平滑潜在空间模型。第一部中,采用潜在空间模型对词语间的连接进行建模。潜变量表示词语在潜在语义空间中的位置,度异质参数表述某个情感词语与其他情感词连接的强度。为了刻画共词网络随时间变化,本文假设度异质参数随时间成分段常数。第二部分中,将词语连接权重建模为两个词语的潜在变量积和度异质性参数的线性函数,回归系数同样是时变的。 最终,本文采用惩罚融合技术,实现变化点检测与网络的平滑估计。

四、研究结果

我们构建了各月的共词网络模型,就度异质性参数而言,共现网络共有5个时变点,分别为2020/01、2020/02、2020/03、2021/06和2021/11,时段与新冠疫情的发展阶段变化非常吻合,从一定程度上能够支持新冠疫情是近几年对癌症影响最重大的疾病之一的观点。

图片.png

图1 各时间段基于连接概率的词语共现网络

在2020/02、2020/03期间,正面情感词和负面词的度异质性参数均显著升高,表明肺癌患者及相关人在面对负面刺激时倾向于使用更多消极词语,且在出于语言安抚目的下很可能也会更多使用积极词语。已有研究表明情感网络在压抑和焦虑增加时往往更加密集,而图1中可见2020/02、2020/03和2020/04-2021/06这三个时间段的词间平均连接水平高,网络更为密集,对应着新冠疫情关键时期中人们的压力水平。各个时期相应的网络节点的度异质参数分布见图2,在疫情关键时期,与其他词连接紧密的情感词数目增加。

图片.png

图2 各时间段情感词的度异质参数分布图

本研究中,我们探讨了新冠疫情对肺癌相关人员的影响与冲击,能够使得医护研究者及亲属更好了解病情相关的情绪表达、从而提供帮助与干预等支持手段。此外,我们创新地提出了一种能够检测变化点的共词网络模型,能够应用于更广泛的文本分析情景中。

参考文献

Liu, M., Fan, X., & Ma, S. (2024). A quantitative linguistic analysis of a cancer online health community with a smooth latent space model. The Annals of Applied Statistics , 18 (1), 144-158.