短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
2022-06-23 11:19:25 1.18MB 短文本; EMD距离; 词向量; 相似度计算;
1
句子相似度簇 sensim_cluster使用Levenshtein距离计算文本数据(来自文件)的相似度,并对结果进行聚类(分层聚类)。 聚类结果以树状图显示。 用法 准备数据文件 在下面运行该程序 # -*- coding: utf-8 -*- import sys from sensim_cluster . sensim_cluster import SensimCluster from matplotlib import pyplot as plt from scipy . cluster . hierarchy import dendrogram cluster = SensimCluster ( 'YOUR_DATAFILE_PATH' ) ids = cluster . get_ids () result = cluster . ward () mod_ids = [ id [
1
最小编辑距离,字符串相似度,即将一个字符串转换成另一个字符串所需要的最少编辑次数(编辑包括添加,删除,替换三种)
2022-06-21 16:05:31 721B 最小编辑距离
1
基于transformers+bert预训练模型在语义相似度任务上的finetune
2022-06-21 01:23:44 429.65MB bert 语义相似度 transformers
1
资源包含文件:设计报告word+项目源码 开发工具:Python 3.7 Flask opencv-python 库 numpy 库 基于一张样板图片,对九张其他图像进行相似度的计算,得到“最相似”的一张图片。尝试多种算法,并对图像检索方法进行探索。 要求:基于 PIL 库或者 OpenCV 详细介绍参考:https://biyezuopin.blog.csdn.net/article/details/125233650
大数据技术分享 Hadoop技术分享 Hadoop在反作弊中的应用 案例分享:应用MR计算用户相似度 共31页.pdf
2022-06-09 13:08:06 7.46MB hadoop 大数据 mr
nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题 nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题 nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题 nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题 nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题 nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题 nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题
2022-06-06 19:10:38 49.62MB 自然语言处理 人工智能 nlp
一个基于深度学习的集成端到端图像搜索引擎。它涵盖了图像分类、图像位置(OverFeat)和图像相似度
2022-06-06 19:06:36 104KB 搜索引擎 深度学习 lua 文档资料
阐述了最长公共子序列算法在程序代码结构相似度度量中的应用,列举了两种计算最优值和一种获取最长公共标识符子序列的算法。根据最优值得到结构相似度值,进而可以查找出结构相似程序对。最后探讨了程序代码相似度的实际应用。
2022-05-31 14:55:15 276KB 自然科学 论文
1
本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考,具体如下: 学习目标: 1.利用gensim包分析文档相似度 2.使用jieba进行中文分词 3.了解TF-IDF模型 环境: Python 3.6.0 |Anaconda 4.3.1 (64-bit) 工具: jupyter notebook 注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。 首先引入分词API库jieba、文本相似度库gensim import jieba from gensim import corpora,models,similarities 以下
2022-05-30 21:44:42 70KB python python函数 python实例
1