最小哈希LSH MinHash 和 LSH 的 Java 实现,用于查找通过 Jaccard 相似度衡量的接近重复的文档。 MinHash 的实现,用于逼近文本文档中的 Jaccard 相似度。 还包括 LSH 的实现,这是一种快速查找近似最近邻的方法。
2021-10-11 16:57:11 9KB Java
1
称呼: Cs = getCosineSimilarity(x,y) 计算向量 x 和 y 之间的余弦相似度。 x和y必须具有相同的长度。 的解释余弦相似度类似于皮尔逊相关
2021-10-11 15:14:48 1KB matlab
1
作业抄袭是作业环节的一种普遍现象,许多学生 为了省事、方便,常常以其他同学的作业或者网络文档 为模板,简单地做少量修改,甚至不做修改就交给老 师,企图蒙混过关,这是一种对自己极不负责任的行 为。尤其在信息化时代,资源的获取更加方便,作业抄 袭现象也越发严重,遏制作业抄袭行为刻不容缓。
2021-10-11 11:28:27 232KB 相似度分析
1
英文文本相似度/文本推理/文本匹配数据集——STS
2021-10-10 12:10:22 385KB 文本匹配
1
已经处理好三个文件包括:lcqmc_dev.txt lcqmc_test.txt lcqmc_train.txt,格式如下: 有狂三这张高清的 这张高清图,谁有 0 英雄联盟什么英雄最好 英雄联盟最好英雄是什么 1 这是什么意思,被蹭网吗 我也是醉了,这是什么意思 0 现在有什么动画片好看呢? 现在有什么好看的动画片吗? 1
2021-10-09 18:01:10 3.55MB lcqmc
1
a=[01,02,04,06],b=[09.08,04,07].计算a,b的相似度。用户门户网站推荐,根据个人行为推荐。
2021-10-09 14:50:06 813B 向量相似度 根据行为推荐
1
基于相似度学习的图聚类方法计算机研究.docx
2021-10-08 23:11:27 78KB C语言
nlp 自然语言处理:中文分词,打标签,文章匹配相似度 打标签: extra_tags.py: 关键函数:extarct_tags ,通过help(jieba.analyse.extarct_tags) 查看 函数提示如下: withWeight:单词权重 allowPOS:单词性质,参看 withFlag: ====================================================== Help on method extract_tags in module jieba.analyse.tfidf: extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False) method of jieba.analyse.tfidf.TFIDF instance
2021-10-08 14:31:27 47KB Python
1
EasyBert 基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等(后续更新其他方向相关模块),并有相关数据与深度训练优化方式api。各个子项目大都为开源工作,本项目仅做相应处理以及提供一个已训练的预测接口,方便需求者进行快速的使用。本项目仅作为学习与研究使用,若存在侵权行为,请原作者务必联系我进行协商处理。 使用示例 使用前需下载相应的已训练模型,并导入相应位置 模型下载地址: 在此目录下各以需求名命名的文件中提供相应的使用演示,本阶段所训练的模型效果可以满足相应任务的基本需求。 现阶段通过各任务接口的时间相对慢,大都是在模型加载阶段。若想提升相应的速度,请使用者在接受相应精度损失的前提下更换AlBert进行相应任务的重新预训练。 依赖项 环境依赖 python >= 3.7 Pytorch >= 1.14 transformers >= 2.8.0
2021-10-02 19:01:24 720KB Python
1