中文句子填空式机器阅读理解数据集 - CMRC2019.zip
2022-06-16 11:03:42 10.18MB 数据集
VBA获取拼音源码.xlsm 两个自定义函数 一个是获取单个字符的拼音 一个是获取中文句子的拼音 可以直接当函数使用
功能描述 基于siamese-lstm的中文句子相似度计算 环境搭建 Ubuntu:16.04(64bit) Anaconda:2-4.4.0(python 2.7) 历史版本下载: TensorFlow:1.5.1 numpy:1.14.3 gensim:3.4.0 (nltk:3.2.3) jieba:0.39 word2wec中文训练模型 参考链接: 代码使用 模型训练 # python train.py 模型评估 # python eval.py 论文参考 代码参考 版本:a61f07f6bef76665f8ba2df12f34b25380016613 AETC2018赛题描述 相关链接:
2022-03-31 17:55:17 33.67MB Python
1
中文句子 相似度计算算法 计算句子的相似度
2022-03-19 17:23:08 277KB 中文句子 相似度计算算法
1
ChineseSimilarity-gensim-tfidf """ 基于gensim模块的中文句子相似度计算 思路如下: 1.文本预处理:中文分词,去除停用词 2.计算词频 3.创建字典(单词与编号之间的映射) 4.将待比较的文档转换为向量(词袋表示方法) 5.建立语料库 6.初始化模型 7.创建索引 8.相似度计算并返回相似度最大的文本 """ 可直接运行ChineseSimilartyCaculation.py stopwords.txt为中文停用词表
2021-11-29 20:54:31 10KB Python
1
DIY中文NLP算法包 这是一个DIY的中文NLP算法包,具体算法分析请参见https://blog.csdn.net/greepex/article/details/80493045 其中有关于短文本相似度以及情感极性分析的算法。 短文本相似度算法(distance.py) 基于分词后单词: edit_similar(str1,str2):编辑距离相似度,输入为分词后的两个句子的列表,返回值为两者相似度。 cos_sim(str1, str2):余弦相似度,输入为分词后的两个句子的列表,返回值为两者相似度。 基于字符: difflib.SequenceMatcher(None,str1,str2).ratio():difflib为python自带的库,str1和str2无需分词。 综合相似度: compare(str1, str2):输入是两个字符串(中文句子),无需分词,返回值为两者相
2021-11-23 18:20:44 985KB Python
1