为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词就形成一个停用词表
2021-05-30 10:28:40 3KB 停用词
1
经典的卷积神经网络实现文本分类的联系,用TF实现,特别推荐NLP方向的做。
2021-05-29 23:14:44 491KB TensorFlow CNN 文本分类 练习
1
网站的用Tensorflow完成文本分类任务的完整工程代码 包括:训练、运行、和评估所有的代码。 打包文件里面还包含了一个影评标记过的影评的语料库。 开箱即用
2021-05-29 23:02:13 464KB Tensorflow cnn 深度学习
1
bert_chinese_pytorch 参考代码: CSDN博文(施工中):
2021-05-29 18:17:42 8KB 附件源码 文章源码
1
用卷积神经网络基于 Tensorflow 实现的中文文本分类
2021-05-28 20:52:34 5.82MB Python开发-机器学习
1
利用信息增益函数对文档进行特征提取,根据特征在文档中出现的次数,将文档表示成为向量的形式。假设文档的特征之间是相互独立的,其特征和主题类别的联合概率分布为服从多项式分布。利用训练集集中已标注的文档、学习特征和主题类别的联合概率分布参数,根据学习的结果,对测试集中未分类的文档进行分类。实验结果表明,分类具有较高的准确性。
2021-05-28 18:03:54 136KB 自然科学 论文
1
pytorch中文文本分类训练数据
2021-05-28 12:06:00 12.1MB pytorch csv
1
Bert-Chinese-Text-Classification-Pytorch 中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。 介绍 模型介绍、数据流动过程:还没写完,写好之后再贴博客地址。 工作忙,懒得写了,类似文章有很多。 机器:一块2080Ti , 训练时间:30分钟。 环境 python 3.7 pytorch 1.1 tqdm sklearn tensorboardX pytorch_pretrained_bert(预训练代码也上传了, 不需要这个库了) 中文数据集 我从中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 数据集划分: 数据集 数据量 训练集 18万 验证集 1万 测试集 1万 更换自己的数据集 按照
2021-05-27 22:00:01 6.11MB 附件源码 文章源码
1
java 代码实现的网络新闻文本自动分类,采用朴素贝叶斯和支持向量机两种方法实现!
2021-05-24 08:30:55 8MB java 文本分类
1
文本分类
2021-05-21 20:00:41 4.05MB 文本分类 nlp
1