这是一个简单的文本分类示例,其中使用了用Python编写的潜在语义分析(LSA)并使用了scikit-learn库。 该代码与我在撰写的LSA教程博客文章一起提供。 脚步: [可选]:运行getReutersTextArticles.py下载Reuters数据集并提取原始文本。 已经为您执行了此步骤,并且数据集存储在“数据”文件夹中。 运行runClassification_LSA.py将LSA应用于数据集,然后测试分类准确性。 运行inspect_LSA.py可以深入了解LSA在做什么。
2021-10-15 19:16:40 2.94MB Python
1
面向非对称和多标签的文本分类技术软件研究.docx
2021-10-15 16:03:05 73KB C语言
RCV1-2 是一个路透社(Ruters)英文新闻文本及对应新闻类别数据,可用以进行文本分类和其它自然语言处理(NLP)任务。
1
中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,下载时请耐心等待。
1
达观数据是中国知名的文本智能处理企业,利用先进的文字语义自动分析技术,提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率
1
基于改进型特征选择算法的文本分类方法之计算机研究.docx
2021-10-08 23:11:49 77KB C语言
基于bert预训练模型和pytorch深度学习框架实现文本分类
1
本项目是自然语言处理NLP在中文文本上的一些简单应用,如文本分类、情感分析、命名实体识别等。 文本分类 数据集用的是头条的标题和对应文章分类数据。数据集来自这里: 文本分类的例子对应zh_article_classify_bilstm_attention.ipynb,这里构建的是BiLSTM+Attention的模型结构。 具体模型搭建如下: def create_classify_model(max_len, vocab_size, embedding_size, hidden_size, attention_size, class_nums): # 输入层 inputs = Input(shape=(max_len,), dtype='int32') # Embedding层 x = Embedding(vocab_size, embedding_size)(
2021-10-08 11:53:47 107.97MB 附件源码 文章源码
1
本节资料是练习CNN 文本分类的数据,数据有是10类别,模型采用两层的神经网络。数据包含了测试集,训练集和验证集,并且代码讲解很详细,是联系CNN卷积网络实现的好数据。
2021-10-08 01:13:38 71.65MB CNN datas
1
自然语言处理
2021-10-07 21:19:53 72.33MB 自然语言处理
1