多算法的文本分类系统 更多详见 关于分词 英文分词,采用nltk工具包进行分词 pip install nltk 中文分词,采用jieba工具包进行分词 pip install jieba jieba分词 dict 主词典文件 user_dict 用户词典文件,即分词白名单 user_dict为分词白名单 如果添加的过滤词(包括黑名单和白名单)无法正确被jieba正确分词,则需要添加的单词和词频加入到主字典dict文件中或者用户词典user_dict,一行一个(词频也可省略)
2021-12-18 14:00:50 1.83MB 系统开源
1
中文文本分类数据集合
2021-12-16 22:17:00 76.88MB 中文文本分类数据集
改进的基于SVM决策树的多分类算法,刘靖雯,王小捷,标准的SVM是针对两类的分类问题,如何将两类问题推广到多类问题上,是目前研究的一个热点。本文提出了一种改进的基于SVM决策树的多
1
全卷积神经网络的字符级文本分类方法
2021-12-16 09:58:18 946KB 研究论文
1
【主要内容】微博评论文本分类(完整数据和代码-Traditional_Net_Classification-main) 【适合人群】研发设计 【质量保障】任何问题私信我
2021-12-15 17:05:41 17.31MB 微博评论 文本分类 完整数据 Python
引入Attention 机制,对 LSTM 模型进行改进,设计了LSTM-Attention 模型。 实验环境:开python3.6.5、tensorflow==1.12、keras==2.2.4 本文的实验数据集来源于搜狗实验室中的搜狐新闻 数据,从中提取出用于训练中文词向量的中文语料, 大小约为 4GB 左右.然后选取了10 个类别的新闻数据,分别为体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐.每个类别 新闻为5000 条,共 50000 条新闻,利用这 50000 条 数据来训练模型.其测试集和验证集如下 验证集: 500*10 测试集: 1000*10
随着大数据和人工智能的发展, 将人工处理专利的方式转换为自动化处理成为可能. 本文结合卷积神经网络(CNN)提取局部特征和双向长短记忆神经网络(BiLSTM)序列化提取全局特征的优势, 在BiLSTM隐藏层引入注意力机制(Attention机制), 提出了针对中文专利文本数据的BiLSTM_ATT_CNN组合模型. 通过设计多组对比实验, 验证了BiLSTM_ATT_CNN组合模型提升了中文专利文本分类的准确率.
1
主要为大家详细介绍了python使用RNN进行文本分类,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
2021-12-14 16:19:48 120KB python RNN 文本分类
1
贝叶斯文本分类器
2021-12-14 15:18:48 26KB 贝叶斯 文本分类器
1
针对传统文本分类方法对于海量数据分类速度慢精度差等问题,将并行计算应用到文本分类领域,设计了一套基于MapReduce的并行化文本分类框架,结合Bagging算法思想提出了支持向量机的并行训练方法,并在Hadoop云计算平台上进行了实验,实验结果表明该分类方法具有较快的分类速度和较高的分类精度。
2021-12-13 20:26:05 364KB 大数据
1