复旦大学谭松波中文文本分类语料库 中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。
2021-05-20 21:20:22 50.38MB 1
1
该算法用Python实现了朴素贝叶斯分类器,并用于文本分类,实现垃圾邮件的检测。
2021-05-20 12:54:05 15KB 朴素贝叶斯
1
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。
2021-05-18 20:06:10 906KB 多标签 文本分类
1
计划赶不上变化快的fasttext来啦~ 包括代码和分好词的训练集、测试集、停词表,测试集F1值0.941,虽然没比TextCNN高但是快啊!fasttext模块安装麻烦一点,具体看博客内容吧。
2021-05-17 12:28:51 35.59MB NLP fasttext 文本分类 python
1
基于深度学习的新闻文本分类算法的研究与实现,张维,何所惧,文本分类属于自然语言处理领域一个非常典型的问题,应用普遍。使用深度学习算法处理文本分类任务可以避免繁杂的人工特征工程,但
2021-05-15 19:08:06 541KB 文本分类
1
这是基于朴素贝叶斯的文本分类代码,内涵老师给的数据集,最终输出精确度,F1,召回率及混淆矩阵,只需修改文本路径即可使用。
1
闲聊机器人(chatbot),BERT句向量-相似度(Sentence Similarity),文本分类(Text classify) 数据增强(text augment enhance),同义句同义词生成,句子主干提取(mainpart),中文汉语短文本相似度,文本特征工程,keras-http-service调用
2021-05-14 22:47:34 2.15MB Python开发-自然语言处理
1
中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下整理和标注的一个中文情感本体库。该本体从不同角度描述一个词语或者短语,包括词语词性种类、情感类别、情感强度及极性等信息
2021-05-14 18:03:09 1.16MB 情感词典 情感分类 文本分类
1
This repo contains a PyTorch implementation of a pretrained BERT model for multi-label text classification.
2021-05-14 10:30:38 50KB Python开发-自然语言处理
1
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn
1