已经处理好三个文件包括:lcqmc_dev.txt lcqmc_test.txt lcqmc_train.txt,格式如下: 有狂三这张高清的 这张高清图,谁有 0 英雄联盟什么英雄最好 英雄联盟最好英雄是什么 1 这是什么意思,被蹭网吗 我也是醉了,这是什么意思 0 现在有什么动画片好看呢? 现在有什么好看的动画片吗? 1
2021-10-09 18:01:10 3.55MB lcqmc
1
a=[01,02,04,06],b=[09.08,04,07].计算a,b的相似度。用户门户网站推荐,根据个人行为推荐。
2021-10-09 14:50:06 813B 向量相似度 根据行为推荐
1
基于相似度学习的图聚类方法计算机研究.docx
2021-10-08 23:11:27 78KB C语言
nlp 自然语言处理:中文分词,打标签,文章匹配相似度 打标签: extra_tags.py: 关键函数:extarct_tags ,通过help(jieba.analyse.extarct_tags) 查看 函数提示如下: withWeight:单词权重 allowPOS:单词性质,参看 withFlag: ====================================================== Help on method extract_tags in module jieba.analyse.tfidf: extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False) method of jieba.analyse.tfidf.TFIDF instance
2021-10-08 14:31:27 47KB Python
1
EasyBert 基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等(后续更新其他方向相关模块),并有相关数据与深度训练优化方式api。各个子项目大都为开源工作,本项目仅做相应处理以及提供一个已训练的预测接口,方便需求者进行快速的使用。本项目仅作为学习与研究使用,若存在侵权行为,请原作者务必联系我进行协商处理。 使用示例 使用前需下载相应的已训练模型,并导入相应位置 模型下载地址: 在此目录下各以需求名命名的文件中提供相应的使用演示,本阶段所训练的模型效果可以满足相应任务的基本需求。 现阶段通过各任务接口的时间相对慢,大都是在模型加载阶段。若想提升相应的速度,请使用者在接受相应精度损失的前提下更换AlBert进行相应任务的重新预训练。 依赖项 环境依赖 python >= 3.7 Pytorch >= 1.14 transformers >= 2.8.0
2021-10-02 19:01:24 720KB Python
1
对四种句子/文本相似度计算方法进行实验与比较
2021-09-30 14:27:36 51.25MB Python开发-自然语言处理
1
SiameseLSTM-Keras 针对短语/句子/序列的相似性比较提出了一种评价模型——Siamese LSTM(孪生网络)。该模型是输入为句子对,输出为输入句子对的相似性得分,基于Keras实现。训练35轮左右模型达到拟合,测试集准确率87%
2021-09-29 08:54:00 19.85MB siameselstm Python
1
SIF:一种简单但是有效的词向量计算余弦相似度的方法,利用了tfidf等知识。
2021-09-26 11:23:32 318KB Word2vec nlp 语义相似度 tfidf
1
在NLP中孪生网络基本是用来计算句子间的语义相似度的。其结构如下在计算句子语义相似度的时候,都是以句子对的形式输入到网络中,孪生网络就是定义两个网络结构分别来表征句子对中的句子,然后通过曼哈顿距离,欧式距离,余弦相似度等来度量两个句子之间的空间相似度。孪生网络又可以分为孪生网络和伪孪生网络,这两者的定义:孪生网络:两个网络结构相同且共享参数,当两个句子来自统一领域且在结构上有很大的相似度时选择该模型;伪孪生网络:两个网络结构相同但不共享参数,或者两个网络结构不同,当两个句子结构上不同,或者来自不同的领域,或者时句子和图片之间的相似度计算时选择该模型;另外孪生网络的损失函数一般选择Contras
1