text_classify 以复旦中文文本分类语料库为样本,用python实现的文本分类算法 由于训练集和测试集太大,所以给出的是训练集和测试集的下载地址,以及停用词表hlt_stop_words.txt Python版本为2.7 运行顺序: step1:corpus_segment.py step2: corpus2Bunch.py (需要提前创建目录train_word_bag和test_word_bag) step3: TFIDF_space.py step4:NBayes_Predict.py
2021-08-20 18:08:05 9KB Python
1
一种基于聚类的PU主动文本分类方法.pdf
2021-08-20 09:13:54 1.32MB 聚类 算法 数据结构 参考文献
文本分类(自然语言处理 NLP)
2021-08-20 01:37:55 251KB 文本分类 自然语言处理 NLP
基于cnn的中文文本分类算法(python).zip
2021-08-12 22:10:33 13.31MB cnn python
使用sklearn进行中文文本分类-附件资源
2021-08-08 21:44:55 23B
1
使用keras-bert实现 谭松波 酒店评论 文本分类(情感分析)-附件资源
2021-08-06 21:53:41 23B
1
AI智能文本分类系统项目
2021-08-06 09:12:02 15.5MB AI智能文本分类系统项目
1
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
2021-08-04 18:11:29 158KB 语料库 自然语言处理 分词
多标签分类综述 意义 网络新闻往往含有丰富的语义,一篇文章既可以属于“经济”也可以属于“文化”。给网络新闻打多标签可以更好地反应文章的真实意义,方便日后的分类和使用。 难点 类标数量不确定,有些样本可能只有一个类标,有些样本的类标可能高达几十甚至上百个。  类标之间相互依赖,例如包含蓝天类标的样本很大概率上包含白云,如何解决类标之间的依赖性问题也是一大难点。 多标签的训练集比较难以获取。 如下方法来解决这个问题: 1.在传统机器学习的模型中对每一类标签做二分类,可以使用SVM、DT、Naïve Bayes、DT、Xgboost等算法;在深度学习中,对每一类训练一个文本分类模型(如:text
2021-08-04 14:39:04 41KB 分类 分类器 多标签分类
1
这里是正面词汇大概有2w左右个中文正面词汇,负面词汇我会在另一份资源上传。(因为好像不能同时上传两份词汇)这里是正面词汇大概有2w左右个中文正面词汇,负面词汇我会在另一份资源上传。(因为好像不能同时上传两份词汇)
2021-08-04 11:01:18 158KB NLP 文本分类 情感分类
1