文本分类的标准代码,Pytorch实现 数据集Dataset - IMDB - SST - Trec ### 模型 - FastText - BasicCNN (KimCNN,MultiLayerCNN, Multi-perspective CNN) - InceptionCNN - LSTM (BILSTM, StackLSTM) - LSTM with Attention (Self Attention / Quantum Attention) - Hybrids between CNN and RNN (RCNN, C-LSTM) - Transformer - Attention is all you need - ConS2S - Capsule - Quantum-inspired NN
2021-04-08 20:58:20 55KB NL
1
文本序列中各单词的重要程度以及其之间的依赖关系对于识别文本类别有重要影响.胶囊网络不能选择性关注文本中重要单词,并且由于不能编码远距离依赖关系,在识别具有语义转折的文本时有很大局限性。
1
使用keras-bert实现 谭松波 酒店评论 文本分类(情感分析)-附件资源
2021-04-07 14:38:32 106B
1
基于贝叶斯及KNN算法的newsgroup文本分类器,eclipse工程,免积分下载版 程序运行方法:用eclipse打开工程,并将newsgroup文档集解压到 F:\DataMiningSample\orginSample目录下,同时在F:\DataMiningSample\ 下建好如附件“F盘DataMiningSample目录下的数据子目录结构”图中的目录, 停用词表也放在"F:/DataMiningSample/目录下,即可运行eclipse工程。程序 会依次执行数据预处理、贝叶斯分类、KNN分类,输出10次交叉验证实验的分类 结果、准确率统计及混淆矩阵。
2021-04-06 18:34:29 1.55MB 贝叶斯 KNN算法 newsgroup 文本分类
1
基于BiGRU和贝叶斯分类器的文本分类,利用搜狐新闻数据集进行实现,对12个种类进行分类,里面设计BiGRUB提取文本特征,TF-IDF特征权重赋值,Bytes分类进行实现,学习深度学习和机器学习很好的借鉴。
2021-04-06 10:57:38 103KB 技术 python 自然语言处理
1
WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。 该数据集分为 WikiText-2 和 WikiText-103 两个版本,其相较于 PTB 词库规模更为庞大,并且每个词汇还保留相关的原始文章,这适用于需要长时依赖自然语言建模的场景。 该数据集由 Salesforce Research 于 2016 年发布,主要发布人为 Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher,相关论文有《Pointer Sentinel Mixture Models》。
2021-04-05 14:13:10 373.29MB 数据集 语言建模 英文词汇 文本分类
1
简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。
2021-04-02 21:25:41 4KB 词库生成
1
文本分类的经典英文论文收集,Text Categorisation-A survey
2021-04-02 19:40:50 1.42MB Text Categorization SVM Machine
1
1. CK数据集-ck,ck+表情识别 2. cnn文本分类-cnews 注释:百度云链接
2021-04-01 22:08:42 75B CK cnn 文本分类 数据集
1
文本分类数据集(共13个20ng,mr,R8,R52,ohsumed,wiki,agnews等) 数据量很多,适合进行深度学习实验
2021-03-31 15:49:45 50.23MB 文本分类 深度学习 数据集 机器学习
1