微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-of-Words,BoW)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。
2022-04-13 17:00:51 756KB 论文研究
1
微博立场检测是判断一段微博文本针对某一目标话题所表达的观点态度是支持、中立或反对.随着社交媒体的发展,从海量的微博数据中挖掘其蕴含的立场信息成为一项重要的研究课题.但是现有的方法往往将其视作情感分类任务,没有对目标话题和微博文本之间的关系特征进行分析,在基于深度学习的分类框架上,扩展并提出了基于Bert-Condition-CNN的立场检测模型,首先为提高话题在文本中的覆盖率,对微博文本进行了主题短语的提取构成话题集;然后使用Bert预训练模型获取文本的句向量,并通过构建话题集和微博文本句向量之间的关系矩阵Condition层来体现两个文本序列的关系特征;最后使用CNN对Condition层进行特征提取,分析不同话题对立场信息的影响并实现对立场标签的预测.该模型在自然语言处理与中文计算会议(NLPCC2016)的数据集中取得了较好的效果,通过主题短语扩展后的Condition层有效地提升了立场检测的准确度.
2021-12-25 21:20:30 1.37MB 立场检测 主题短语 关系矩阵 句向量
1