Transformers_for_Text_Classification 基于Transformers的文本分类 基于最新的出品的v2.2.2代码进行重构。为了保证代码日后可以直接复现而不出现兼容性问题,这里将放到本地进行调用。 强调 支持transformer模型后接各种特征提取器 支持测试集预测代码 精简原始变形金刚代码,使之更适合文本分类任务 优化日志记录终端输出,使之输出内容更加合理 支持 型号: 伯特 伯特·cnn bert_lstm 伯特·格鲁 互联网 xlnet_cnn xlnet_lstm xlnet_gru 阿尔伯特 内容 数据集:存放数据集 pretrai
1
模糊支持向量机及其在文本分类中的应用,朱健,刘斌,当文本分类采用多类分类时,标准支持向量机会混分和漏分样本。针对这一问题,提出了模糊支持向量机,模糊支持向量机为了提高分类
2021-09-14 17:50:08 266KB 支持向量机
1
20newsgroups数据集有三个版本。第一个版本19997是原始的并没有修改过的版本。第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集,不包含交叉文档和新闻组名(新闻组,路径,隶属于,日期)。第三个版本18828不包含交叉文档,只有来源和主题名。
2021-09-13 12:31:29 13.79MB sklearn 文本分类 20newsgroups 20newsbydate
1
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度 考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法 ( FS) ,并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的。实验表明,该方法在不 影响分类准确率的情况下,分类的速度明显提高。 关键词: 计算机应用; 中文信息处理; 关键词提取; Web文档分类
2021-09-13 10:51:26 192KB 文本分类 关键词提取 nlp
1
本数据集为2000~2019年大部分英文文献摘要集合的子集,分agriculture、anatomy、business、chemistry、economics、education、geology等十六类。 每条数据由五部分组成:序号、分类、文献名称、摘要、期刊名称。 注意是英文!!!摘要!!! 可用于数据挖掘等工程。 具体应用可参考博客:https://blog.csdn.net/erwugumo/article/details/104610584 请使用python进行数据分析。 需要更大规模的数据请咨询QQ:2450520622。 全部数据集约三百万条。
2021-09-10 16:03:03 646KB python 机器学习 数据挖掘 文本分类
1
1、run_cnews_classifier.py 原生bert实现的文本分类 原文链接: 2、run_tnews_classifier.py 基于keras_bert实现的文本分类 原文链接: 3、run_lcqmc_similarity.py 基于bert4keras实现的文本相似度计算 原文链接: 4、run_kashgari_classifier.py 基于kashgari实现的文本分类 原文链接: 5、run_ChineseDailyNerCorpus.py 基于kashgari + bert/albert实现的ner 原文链接: 6、Bert_Train.py 基于bert训练模型,并保存为pb格式 原文链接: 7、Bert_Predict.py requests调用tf serving中的bert模型 原文链接: 8、fastbert.py 基于fastbert实现文本分类
2021-09-09 19:11:30 6.44MB 附件源码 文章源码
1
自己设计的小项目,初始想法很简单,检验自己爬虫和nlp基本技能(分词、词向量(tokenize\onehot\tfidf\word2vec))和各类算法(朴素贝叶斯、svm、CNN、LSTM)掌握情况,进一步查漏补缺,提升工程能力和算法应用能力:) ** 第一部分:爬虫 ** 分析新浪网各类新闻网页结构,应用requests库,爬取并解析新浪各类新闻,包括汽车、教育、金融、娱乐、体育、科技共六类, 对于有“滚动”新闻链接的板块(如sport、tech、entertaimment),通过滚动新闻爬取数据:此类数据多为动态链接,需要异步加载,即自行分析json格式获取其中新闻url 对于没有“滚
2021-09-09 13:32:33 747KB 分类 文本分析 文本分类
1
这是SVM文本分类程序源码,既有java版本,也有C++版本。
2021-09-07 19:53:56 12.72MB SVM文本分类程序源码
1
本代码利用长短期记忆神经网络(LSTM)进行文本分类,支持中英文文本分类,简单易上手,有相应视频教程介绍使用方法。
RCV1-2 是一个路透社(Ruters)英文新闻文本及对应新闻类别数据,可用以进行文本分类和其它自然语言处理(NLP)任务。
1