中文文本相似度/文本推理/文本匹配数据集——LCQMC
2022-03-28 16:49:57 5.96MB 文本匹配
1
是一个不错的中文分类器,里面包括knn 和svm分类法。李荣陆的作品。安装后即可使用。
2022-03-24 09:21:20 16.61MB 分类器 中文
1
使用中科院分词系统和林智仁的libsvm进行设计的系统 主要使用java语言进行开发 其他更多的信息:你查看readme文件
1
本科毕业设计用网上的源码 简单的中文文本情感分类 一个用 PyTorch 实现的中文文本情感分类网络,代码较简单,功能较丰富,包含了多种模型 baseline。 环境需求 python == 3.6 torch == 1.1.0 Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz NVIDIA TITAN Xp 其余的见 requirements.txt 使用方法 先预处理,./run_preprocess_word2vec.sh 或 ./run_preprocess_elmo.sh 3(3 是 gpu 编号) 然后运行 python3 main.py --config_path config_cnn.json 预处理 将所给文本的每个词转换成预训练模型的词向量后存到文件里。我分别尝试了这两种 embedding: ELMo 中文预训练模型,1024d( Chinese-Word-Vectors,300d( 请自行下载相应的模型文件到 data/word2vec/ 或 data/zhs.model 文件夹下。 具体细节见 preprocess.py 文件
2022-03-05 11:13:27 4.17MB 系统开源
1
chinese_text_classification 通过一个中文文本分类问题系统实现了各种分类方法 数据来源 数据搜狗新闻 类别 有汽车,娱乐,军事,体育,技术五种类别。原始数据比较大,没有上传,分词,去除重组词之后的数据放在processed_data文件夹下。 分类算法 主要实现了以下分类算法: NB(朴素贝叶斯) 支持向量机 快速文本 text_CNN text_RNN text_RCNN text_Bi_LSTM text_Attention_Bi_LSTM HAN(分层注意网络) 埃尔莫 分类准确率 分类准确率都在90%附近,没有进行过多预处理,只为熟悉算法的使用。 依赖库 基于tensorflow2.0实现,可以在win和linux下运行。觉得有用的点个赞,谢谢。
2022-03-02 22:16:24 6.73MB 系统开源
1
利用TF-IDF策略的中文文本分类算法比较,刘昕玥,王敬,本文基于TF-IDF特征选取方法,分别使用朴素贝叶斯、随机森林与支持向量机算法对中文文本语料库进行分类实验。实验表明,支持向量机
2022-02-24 20:56:18 538KB 首发论文
1
通过深入分析当前针对中文的基于同义词替换的自然语言信息隐藏算法,发现由于存在大量不完全可替换的同义词词组,经过同义词替换后可能会破坏句子的语义一致性。针对这一缺点,提出了一种改进的基于同义词替换的中文文本信息隐藏算法。该算法利用知网对同义词词组进行分类,对于不完全可替换的同义词词组,通过依存句法分析来获取同义词的上下文搭配词语,根据搭配词语判断是否进行替换。实验结果表明,该算法能有效的排除错误的同义词替换,替换的准确率达到89.1%。
1
文本分类语料,共9833篇文档;train为训练语料,test为测试语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分;
2022-01-17 14:16:20 105.11MB 复旦 文本分类 语料 文本分类语料
1
中文文本相似度讨算是中文信息处理相关研究领域中的重要基础, 在信息检索、 知识挖掘、 舆情分析等领域中有着广泛应用。 目前的中文文本相似度计算方 法大多是从文本的字形层面而不是从文本内容语义理解上计算文本间的相似度,这样得到的相似度值往往与人们的主观理解不一致。 本文深入分析和研究了当前 基于语义的中文文本相似度计算方法, 并针对方法中存在的问题进行改进, 使计 算得到的相似度能够更为准确地反映中文文本间的话义相似性。
1
SVM-Chinese-Classification 利用支持向量机实现中文文本分类 先放,如果觉得写得不错,记得加个star哦,嘻嘻~ 基本流程 1、准备好数据食材、去停用词并利用结巴**(jieba)进行分词处理** 数据食材选用参考: jieba分词模块参考啦~ # 参照代码中的cutWords.py文件 2、利用卡方检验特征选择 **卡方检验:**在构建每个类别的词向量后,对每一类的每一个单词进行其卡方统计值的计算。 首先对卡方 检验所需的 a、b、c、d 进行计算。 a 为在这个分类下包含这个词的文档数量; b 为不在该分类下包含这个词的文档数量; c 为在这个分类下不包含这个词的文档数量; d 为不在该分类下,且不包含这个词的文档数量。 然后得到该类中该词的卡方统计值 公式为 float(pow((ad - bc), 2)) /float((a+c) * (a+b) * (b+
2022-01-07 13:11:45 5.05MB Java
1