20newsgroups-text-classification 对20 newsgroups 数据集 进行文本分类 方法 基于传统机器学习方法的文本分类 基于深度学习的文本分类 测试结果 传统机器学习方法 MultinomialNB准确率为: 0.8960196779964222 SGDClassifier准确率为: 0.9724955277280859 LogisticRegression准确率为: 0.9304561717352415 SVC准确率为: 0.13372093023255813 LinearSVC准确率为: 0.9749552772808586 LinearSVR准确率为: 0.00022361359570661896 MLPClassifier准确率为: 0.9758497316636852 KNeighborsClassifier准确率为: 0.4584078711
2021-12-29 10:41:48 6KB sklearn text-classification-python Python
1
多标签文本分类 Kaggle有毒评论挑战 随着可用数据的不断增加,迫切需要对数据进行组织,而现代分类问题通常涉及与单个实例同时关联的多个标签的预测。 这种称为多标签分类的任务就是这样的任务,它在许多现实世界中的问题中无所不在。 在这个项目中,以Kaggle问题为例,我们探索了多标签分类的不同方面。 该项目的鸟瞰图: 第1部分:多标签分类概述。 第2部分:问题定义和评估指标。 第3部分:探索性数据分析(EDA)。 第4部分:数据预处理。 第5部分:多标签分类技术。 有关此项目的详细博客,请参见[ ]
2021-12-26 00:24:26 781KB JupyterNotebook
1
论文题目:Adversarial Multi-task Learning for Text Classification 作者:Pengfei Liu, Xipeng Qiu and Xuanjing Huang 出处:ACL 2017 论文主要相关:多任务学习、文本分类、情感分析 概要:常规的多任务学习通常单纯的共享某些参数,导致共用特征空间和私有特征空间中存在大量冗余的特征。作者提出了一种对抗性多任务学习框架,缓解了共享特征空间和特定任务特征空间(私有潜在特征空间)之间的相互干扰的问题,并采用对抗学习确保共用特征空间中仅存在共用特征和任务无关的特征,辅以正交约束来去除私有和共用特征空间中冗余的特征。在16个任务的情感分析测试中,该框架比单任务学习平均效果提升了4.1%,比其他多任务学习框架(FS-MTL、 SP-MTL等)效果更好。并且实验结果表明模型的共享特征学习到的知识,容易被迁移到新任务的情感分析中。
1
卷积神经网络(CNN)的文本分类 这是一个使用CNN对文本文档/句子进行分类的项目。 您可以在和的博客条目中找到类似方法的精彩介绍。 我的方法与Denny和Yoon Kim的原始论文[1]相似。 您也可以在找到Yoon Kim的实现。 ***更新***-2019年12月15日:版本0.2.0的更改 我已将代码更新为TensorFlow2。此外,我在jupyter笔记本中进行了一些更改: 删除Yelp数据集 为IMDB添加TensorFlow数据集 ***更新***-2019年5月17日:0.1.0版中的更改 模型: 将字级与基于字符的输入相结合。 char输入ist是可选的,可以用于进一步
2021-12-10 12:48:35 209KB nlp deep-learning text-classification tensorflow
1
直流神经网络 Conneau提出的用于文本分类的超深度卷积神经网络的Tensorflow实现。 现在已使用Tensorflow 2和tf.keras支持正确重新实现了VDCNN的体系结构。 根据实施一个简单的培训界面。 随意贡献其他实用程序,例如TensorBoard支持。 旁注,如果您是NLP文本分类的新手: 请检出新的SOTA NLP方法,例如或 。 检出以获得更好的动态绘图和数据集对象支持。 当前的VDCNN实现也非常容易移植到PyTorch上。 先决条件 Python3 Tensorflow> = 2.0 张量流数据集 麻木 数据集 原始论文测试了多个NLP数据集,包括D
2021-12-05 18:44:20 7KB nlp text-classification tensorflow keras
1
多类别文字分类 在Tensorflow中实现四个神经网络,以解决多类文本分类问题。 楷模 LSTM分类器。 参见rnn_classifier.py 双向LSTM分类器。 参见rnn_classifier.py CNN分类器。 参见cnn_classifier.py。 参考: 。 C-LSTM分类器。 请参阅clstm_classifier.py。 参考:。 资料格式 训练数据应存储在csv文件中。 文件的第一行应为[“ label”,“ content”]或[“ content”,“ label”]。 要求 Python 3.5或3.6 Tensorflow> = 1.4.0 脾气暴躁的 火车 运行train.py训练模型。 参数: python train.py --help optional arguments: -h, --help show
2021-12-05 15:41:29 7.46MB nlp deep-learning text-classification cnn-lstm
1
文字分类 训练一个分类器(KNN,SVM),对文本数据进行分类,类别可包括体育,财经,房地产,家居,教育等十个类别。 文本分类的一般流程可以分为五步:(1)对文本进行预处理,包括分词操作和替换词去除等;(2)特征提取与特征选择,选择文本特征提取方法,替代特征进行选择(3)文本表示,选择合适的方法表示选择的特征,作为分类的依据;(4)分类器构建,选择合适的分类算法训练得到对应的文本分类器;结果评估,选择合适的评估指标,对分类结果进行评价 #实验内容1.构建数据集2.数据预处理(分词,去除重置词)3.生成数据集的特征矩阵4.使用朴素贝叶斯模型进行处理5.使用SVM模型进行处理 本次实验使用到的数据集为实验预先提供的新闻训练集,新闻测试集,以及替换词。训练集和测试集中包括共10个种类的新闻,但所有的新闻都在一个文档里,也查看训练集和数据集内容,发现共有十个新闻分类,分别是“财经”,“资产”, “
2021-11-16 14:26:47 2KB
1
LIME-Text_Data 在文本数据上实现LIME(本地可解释模型不可知的解释)。 这有助于直观地解释为什么模型预测了预测的内容。 笔记本使用简单的分类任务突出显示做出预测的贡献者(请参见下文): 了解更多信息并了解其下的功能 阅读: :
1
text_gcn 本文中Text GCN的实现: 梁耀,毛成胜,罗源。 “图卷积网络用于文本分类。” 在第33届AAAI人工智能会议(AAAI-19)中 要求 Python 2.7或3.6 Tensorflow> = 1.4.0 再现结果 运行python remove_words.py 20ng 运行python build_graph.py 20ng 运行python train.py 20ng 在为其他数据集生成结果时,将上述3个命令行中的20ng更改为R8 , R52 , ohsumed和mr 。 输入数据示例 /data/20ng.txt表示文档名称,培训/测试组,文档标签。 每行都是一个文档。 /data/corpus/20ng.txt包含每个文档的原始文本,每行对应/data/20ng.txt的相应行 prepare_data.py是准备自己的数据的示例,请注意,文档或句子中的“ \ n”已删除。 归纳版 文本GCN的归纳版本是 ,其中培训过程中未包括测试文档。
1
NLP项目 自然语言处理项目,其中包括有关以下方面的概念和脚本: gensim , fastText和tensorflow实现。 参见, doc2vec , word2vec averaging和Smooth Inverse Frequency实现 对话系统的类别和组成 tensorflow LSTM (请参阅 ,和 , ) fastText实现 ELMo,ULMFit,GPT,BERT,XLNet的原理 HMM Viterbi实现。 参见,中文解读 Named_Entity_Recognition 通过双向LSTM + CRF,张量tensorflow实现对NER品牌。 参见中文注释,中文解读 7_Information_retrieval 8_Information_extraction 9_Knowledge_graph 10_Text_generation 11
1