中文文本情感分析案例 课程配套程序 该文件夹是本次课程配套的程序,打来即可使用 课后作业数据集 为大家课后作业的数据集,可以在该数据集上进行相关训练 test.tsv为测试数据集,测试模型准确度 train.tsv为训练集,用于模型训练 预处理程序 预处理程序文件夹是供大家研究预处理的程序,主要涉及到正则表达式知识点
2021-07-08 15:02:43 38.01MB 文本情感 数据集
基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景) 利用word2vec先获取中文测试数据集中各个字的向量表达,再输入卷积网络进行分类。 运行方法 训练 run python train.py to train the cnn with the spam and ham files (only support chinese!) (change the config filepath in FLAGS to your own) 在tensorboard上查看summaries run tensorboard --logdir /{PATH_TO_CODE}/runs/{TIME_DIR}/summaries/ to view summaries in web view 测试、分类 run python eval.py --checkpoint_dir /{PATH_TO_CODE/runs/{TIME_DIR}/checkpoints} 如果需要分类自己提供的文件,请更改相关输入参数 如果需要测试准确率,需要指定对应的标签文件(input_label_file): python eval.py --input_label_file /PATH_TO_INPUT_LABEL_FILE 说明:input_label_file中的每一行是0或1,需要与input_text_file中的每一行对应。 在eval.py中,如果有这个对照标签文件input_label_file,则会输出预测的准确率 推荐运行环境 python 2.7.13 :: Anaconda 4.3.1 (64-bit) tensorflow 1.0.0 gensim 1.0.1 Ubuntu16.04 64bit
2021-07-08 15:02:43 13.32MB 中文文本
1
基于谭松波老师的酒店评论数据集的中文文本情感分析,二分类问题 数据集标签有pos和neg,分别2000条txt文本 选择RNN、LSTM和Bi-LSTM作为模型,借助Keras搭建训练 主要工具包版本为TensorFlow 2.0.0、Keras 2.3.1和Python 3.6.2 在测试集上可稳定达到92%的准确率
最新的TensorFlow 中文数据集 基于 jieba 的中文处理工具 模型训练,模型保存,模型估计的完整实现
中文样本语料训练集,给做语音信号处理的提供数据资源。该资料所有权属于复旦大学计算机信息与技术系国际数据库中心自然语言处理小组,如有使用请注明出处。
2021-07-06 16:58:01 50.38MB 文本
1
这个链接是训练集,测试集自己去搜有免费的,明明应该是免费的东西,有几个智障非要收钱,然后我才发现,现在csdn不能免费了?最低是2资源竟然? 分享一个免费的链接链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa 要是想打赏下载那个2c币的也行,谢谢老铁 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2021-06-30 10:05:23 56MB 中文文本分类 文本分类语料
1
svm_chinese_textclassification 基于向量空间模型的文本分类系统(Mainly for Chinese Corpus) 在pyqt5中使用Python和UI。 第一:使用解霸预处理分词。 第二:使用TF-IDF算法提取特征向量。 第三:使用libsvm工具进行数据缩放。 最后:使用支持向量机模型训练和预测分类。
2021-06-29 20:48:36 447KB Python
1
cs数据结构课程设计:包括源代码、测试文件、课程报告
2021-06-29 15:02:29 805KB 数据结构 c++
1
基于Pytorch的中文文本摘要生成 开这个仓库的主要目的是记录一下自己实验过程和数据。 参考文本摘要领域大佬写的两篇论文: and ,然后参考另一位大佬修改的代码. 另外,在这里还是要感谢一下。这里的所有内容基本上没做什么修改(python读取文件的时候出现编码问题,我的猜想是大佬用的mac系统,类linux,所以对编码不敏感,我用windows的话就报错了。),最多修改了一下超参数,刚开始在自己windows笔记本上跑的话,确实有点吃力,设置的batch_size=10,好像后来还直接报cuda错误,我的猜想就是设置过大了,显存承受不了。说多了。直接看训练和测试效果吧。 实验结果 指标 验证集 测试集 ROUGE-1 34.06 31.87 ROUGE-2 16.46 15.47 ROUGE-L 33.83 30.93 0. 数据预处理 下载(提取码:g8c6 ),下载完之后放在根目
2021-06-27 09:50:04 8.84MB Python
1
复旦中文文本数据集,包含训练集与测试集,数据集为TXT格式,可以进行文本分类实验,机器学习,深度学习,需要的可以下载。
2021-06-26 20:27:01 142.08MB 复旦数据集 文本分类 中文数据集
1