文字分类 文本分类(文本分类)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,某些垃圾邮件识别,舆情分析,情感识别,新闻自动分类,智能客服机器人的合并分类等等。此处分为两个部分: 第1部分:基于scikit学习机器学习的Python库,对比几个传统机器学习方法的文本分类 第2部分:基于预训练词向量模型,使用Keras工具进行文本分类,用到了CNN 本文语料:,密码:P9M4。更多新闻标注语料,。 预训练词向量模型来自,下载地址: 。 第1部分:基于scikit-learn机器学习的文本分类方法 基于scikit-
2024-06-24 14:49:13 208KB python nlp machine-learning deep-learning
1
PyTextGCN 对TextGCN的重新实现。 此实现使用Cython进行文本到图形的转换,因此速度相当快。 图形和GCN基于库。 要求 该项目的构建具有: 的Python 3.8.5 Cython 0.29.21 CUDA 10.2(GPU支持可选) scikit学习0.23.2 pytorch 1.7.0 火炬几何1.6.3 海湾合作委员会9.3.0 nltk 3.5 scipy 1.5.2 至少Text2Graph模块也应该与这些库的其他版本一起使用。 安装 cython编译可以从项目的根目录执行: cd textgcn/lib/clib && python setup.py build_ext --inplace 用法 要从称为X的字符串列表(每个字符串包含一个文档的文本)中计算出图形,请创建名为y的标签列表以及测试索引test_idx的列表,只需运行:
1
带有元数据的文本的最小监督分类 该项目提供了一个对文本与元数据进行分类的弱监督框架。 安装 为了进行培训,强烈建议您使用GPU。 凯拉斯 该代码基于Keras库。 您可以找到安装说明。 相依性 该代码是用Python 3.6编写的。 依赖关系总结在文件requirements.txt 。 您可以像这样安装它们: pip3 install -r requirements.txt 快速开始 要在我们的论文中再现结果,您需要首先下载。 我们的论文中使用了五个数据集。 不幸的是,由于我们对数据提供者的承诺,因此无法发布GitHub-Sec数据集。 其他四个数据集可用。 解压缩下载的文件后,您可以分别看到对应于这四个数据集的四个文件夹。 数据集 文件夹名称 #文件 #班 类名(该类中的#Repository) bio/ 876 10 序列分析(210),基因组分析(176),基因表达(6
1
Chinese-Text-Classification-Pytorch-master。 数据齐全,说明文档详细。点击即用! # 训练并测试: # TextCNN python run.py --model TextCNN # TextRNN python run.py --model TextRNN # TextRNN_Att python run.py --model TextRNN_Att # TextRCNN python run.py --model TextRCNN # FastText, embedding层是随机初始化的 python run.py --model FastText --embedding random # DPCNN python run.py --model DPCNN # Transformer python run.py --model Transformer
2023-03-20 10:32:05 15.94MB Chinese-Text-Cla
1
胶囊网络的文本分类 EMNLP18接受了我们的论文的实现。 要求:代码是用Python(2.7)编写的,并且需要Tensorflow(1.4.1)。 链接到我们最近的胶囊项目: : ACL19预印本: 资料准备 reuters_process.py提供了清除原始数据并生成Reuters-Multilabel和Reuters-Full数据集的功能。 若要快速入门,请参阅以获取Reuters-Multilabel数据集。 对于其他数据集,请访问。 更多说明 utils.py包含几个包装的基本功能,例如_conv2d_wrapper,_separable_conv2d_wrapper和_get_variable_wrapper等。 这些layers.py实现的胶囊网络包括主胶囊层,卷积胶囊层,胶囊扁平化层和FC胶囊层。 network.py提供了两种胶囊网络的实现以及用于比较的基
2023-03-09 10:35:03 13KB Python
1
让我们从具有Amazon产品评论的数据集开始,构建结构化的类:6个“级别1”类,64个“级别2”类和510个“级别3”类。探索用于分层文本分类的各种方法。 train_40k.csv unlabeled_150k.csv val_10k.csv
2023-03-07 22:34:42 37.3MB 数据集
1
Chatbot_CN 基于深度学习、强化学习、对话引擎的多场景对话机器人 • • • • • • • • Made by Xu • :globe_with_meridians: 项目说明     Chatbot_CN 是一个基于第三代对话系统的多轮对话机器人项目,旨在于开发一个结合规则系统、深度学习、强化学习、知识图谱、多轮对话策略管理的 聊天机器人,目前随着时间的慢慢发展,从最初的一个 Chatbot_CN 项目,发展成了一个 Chatbot_* 的多个项目。目前已经包含了在多轮任务型对话的场景中,基于话术(Story)、知识图谱(K-G)、端到端对话(E2E)。目的是为了实现一个可以快速切换场景、对话灵活的任务型机器人。 同时,Chatbot_CN 不仅仅是一个对话系统,而是一套针对客服场景下的完整人工智能解决方案。对话是解决方案的核心和最重要一环,但不仅限于对话,还包括智能决策
1
HiAGM:层次结构文本分类的层次结构感知全局模型 该存储库实现了层次结构感知的结构编码器,用于标签空间和文本特征之间的相互交互。 这项工作已被接受为ACL 2020中的长篇论文《的》。该存储库中提出了NYTimes(《纽约时报》)和WoS(Web of Science)的数据集拆分。 层次感知全局模型 具有层次结构意识的全局模型利用预先定义的层次结构的先验知识改进了常规文本分类模型。 项目文件夹由以下部分组成: config:配置文件(json格式) 数据:数据目录,可以在配置文件中更改(带有示例数据) data_modules:数据集/ DataLoader /整理器/ Vocab 助手:配置/ Hierarchy_Statistic /记录器/实用工具 模型:StructureModel / EmbeddingLayer / TextEncoder / TextPropaga
1
How to Fine-Tune BERT for Text Classification
2022-08-08 09:06:38 599KB bert
1
NLP_pytorch_project 1-聊天机器人 001-transformer_chatbot 实现方式是标准的transformer。 002-bert_chatbot 参考UNILM 2嵌入 001-skipgram-word2vec.py 002-bert.py 003-albert.py 004-NPLM.py 3-NMT 001-transformer_NMT 002-gru_seq2seq_attention 003-lstm_seq2seq_attention 4文本分类 001-TextCNN.py 002-BILSTM+Attention.py 003-CharCNN 004-BERT_Classification 005-ERNIE_Classification 006-ALB
2022-06-14 17:54:50 71.2MB text-classification chatbot mrc text-generation
1