本文设计并实现了一个微博交通内容的热门话题发现及文本聚类系统,便于及时捕获 出微博中的交通话题,有助于更快速准确地对交通事件做出预判和决策。为了能在聚类中更 准确地对文本进行相似度计算,本文采用 word2vec 将词语表示成词向量,并提出了一种基 10 于稠密特征的 DC-word2vec 算法,通过引入高频网络词组成的高维词表对特征向量进行扩维 映射,使其变得稠密化且每一维度都有了具体的实际意义。通过对比其他几类算法的计算相 似度准确率,验证了 DC-word2vec 的效果最佳,并将其应用到 K-means 聚类中,有效提升了 话题聚类的精度。
1
遗忘算法演示程序及源码,功能包括词库生成、分词、词权重计算。是CSDN博文《非主流自然语言处理——遗忘算法系列》的配套资源。作者老憨欢迎交流讨论。
2021-08-10 18:22:20 32.36MB 遗忘算法 文本相似度
1
文本相似度判断 simhash 海明距离<3 判断为相似
2021-08-08 15:10:01 4KB python simhash 文本相似度
1
文本相似度的比较,java实现,文本相似度的比较,java实现java实现java实现
2021-08-06 14:18:26 13KB wenben
1
word2vec词向量训练及中文文本相似度计算。 word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。
2021-07-25 22:32:13 2.83MB 自然语言处理
1
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
2021-07-23 10:05:18 4.73MB simHash 海明距离 IK分词
1
基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等(后续更新其他方向相关模块),并有相关数据与深度训练优化方式api。各个子项目大都为开源工作,本项目仅做相应处理以及提供一个已训练的预测接口,方便需求者进行快速的使用。本项目仅作为学习与研究使用,若存在侵权行为,请原作者务必联系我进行协商处理。
2021-07-08 15:02:44 716KB Pytorch Bert 命名实体识别 情感分析
诗歌在中国是一个极为重要且历史悠久的文学体裁。纵横千年的时间跨度、数量巨大的诗人群体、卷帙浩繁的诗歌文本都使得在传统的文本阅读方式下,中国诗歌的宏观把握变得极其不易。因此,随着计算机算力与计算模型的发展,越来越多的研究者将目光聚焦到了使用计算机对诗歌进行文本分析的研究领域,已有研究者对中国古诗进行了统计建模与宏观分析$^{[1]}$,但所用文本语料多为《全唐诗》《全宋词》等,以《诗经》为语料的文本分析研究,未之有也。因此需要有人在这个方面进行一些探索,本文便是一次尝试, 试图从另一个视角出发,更高效地处理《诗经》文本,并提供文本分析视角下对《诗经》的宏观刻画、描述与阐释。 本文从字频、词频、文本长度、文本方差、情感分析、提取主题词等各个维度,对《诗经》进行了以下文本分析: 首先从单字的角度,对诗经进行了字数、字频、各句长度方差等统计。 经过效果对比,选用北京大学的分词工具Pkuseg,对《诗经》进行分词处理。 在分词基础上统计词频且生成词云。 通过文本长度,文本方差来寻找风雅颂三部分之间的差异。 通过对《诗经》中篇目的情感分析,绘制出风雅颂各部分的情感变化曲线。 提取出文本中的主题词,并以此为基础构建出每篇作品的文本向量。 选定文本长度,文本方差,文本向量作为作品的三个特征,共同组成一个样本来表达一篇作品。 抽取样本,通过计算距离的方式对《诗经》中风雅颂三部分进行聚类,绘制出表达聚类效果的轮廓系数曲线。 以束皙的六首《补亡诗》与陶渊明的四首《时运》为例,计算二者作品与《诗经》的相似程度。
LCQMC 数据集-语义相似度数据集,侵删。LCQMC 数据集-语义相似度数据集,侵删。LCQMC 数据集-语义相似度数据集,侵删。LCQMC 数据集-语义相似度数据集,侵删。
2021-07-04 11:45:36 6.32MB 文本相似度数据集 LCQMC数据集 LCQMC
1
可以做深度匹配训练数据、聊天机器人训练数据
2021-07-02 09:12:06 358.05MB 聊天机器人 深度匹配 文本相似度 LTR
1