周乔羽
西华大学计算机与软件工程学院 四川省成都市 610000
摘要
随着Twitter、微博等社交媒体的发展,信息在社交网络中快速传播,一个话题可能更多新话题。本文提出衍生话题的概念来描述信息传播过程中话题变化的趋势。我们将文章聚合成长文档,并以单词作为节点构造长文档子图并形成可视化的衍生关系图。
1 引言
对用户生成短文本的研究有利于发现和控制舆论。对大量短文本的主题进行建模可以用于主题检测和跟踪[1]、用户分析[2]等。
Li等人[3]提出了一种针对短文本的潜在主题模型(LTM),该模型将短文本聚合成长文档进行建模。Zuo等人[4]提出了一种新的用于短文本主题建模的概率模型伪文档主题模型(PTM),根据数据稀疏性隐式聚合短文本。
由于微博话题会随时间变化而变化,Ma等人[5]通过时间切片对微博数据集进行分组,使用基于段落向量的相似度算法聚合成几个较长的伪文档,有利于发现微博中的潜在话题。在本文中,我们提出一种简单而有效的方法来表达话题之间的衍生关系。
2 衍生话题
![](/userUpload/1(98319).png)
3 实验结果
本文使用的数据集2017年8月期间的微博。利用复杂度[7]评价模型,确定文本集的时间片和最优阈值。从我们的实验中得到无论值为多少,当为0.5时,模型的复杂度最低。同时尝试了不同的时间片基准。时间片的下降导致了聚合容量的下降和文本聚合效果的下降。随着时间片的增加,每个伪文档包含更多的段落。当时间片过小时,会导致伪文档数据稀疏。是提取数据集连贯主题的最佳时间片基准。
我们从微博数据集中选取一个连续时间内的小数据集作为样例来展示衍生话题。如图2所示。
![](/userUpload/2(50887).png)
衍生关系图的网络结构趋向于三个方向,一个方向代表一个衍生话题。在图8中用黄色节点表示。它们将两个不同的文档连接起来,形成话题之间的衍生关系。衍生词的度往往大于其他词的度。在一个衍生关系中,衍生词的词频和词共现频率都远远大于其他词。
5 总结
本文提出了衍生话题的概念来描述社交媒体中话题间的衍生。对数据集按时间分组并构建子图。通过计算词频提取主题词。通过比较相邻时间片中的文档主题词,构建一个导数关系图。
参考文献
[1] Garg, Muskan & Kumar, Mukesh. 2018. Identifying Influential Segments from Word Co-occurrence Networks using AHP. Cognitive Systems Research. 28-41.
[2] B. Liu et al., Context-aware social media user sentiment analysis, in Tsinghua Science and Technology, vol. 25, no. 4, 528-541, Aug. 2020, DOI: 10.26599/TST.2019.9010021
[3] Li, X., Li, C., Chi, J., Ouyang, J., 2018, Short text topic modeling by exploring original documents. Knowledge and Information Systems 56, 443-462
[4] Y. Zuo, J. Wu, H. Zhang, H. Lin, F. Wang, K. Xu, H. Xiong, 2016, Topic modeling of short texts: A pseudo-document view, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2105 – 2114
[5] Li, J., Liang, X., Tian, Y., Al-Dhelaan, A., Al-Dhelaan, M. 2019, A time-series based aggregation scheme for topic detection in weibo short texts. Physica A: Statistical Mechanics and its Applications 536, 120972.
[6] S. Yang, G. Huang, B. Cai, 2019, Discovering topic representative terms for short text clustering, IEEE Access 92037–92047.
作者简介:周乔羽(1995.11—),女,四川自贡,汉,硕士,西华大学计算机与软件工程学院,610000,研究方向:自然语言。