基于词典约简及多分类算法的文本分类系统的设计与开发.pdf
2022-01-01 12:01:28 380KB 分类算法 数据结构 算法 参考文献
文本分类 @作者:明亮的安静@Email:sina dot com的brighthush 英文自述文件 项目介绍 这是一个用于中文文本分类的python项目。 我完成了这个项目作为自然语言理解课程的家庭作业。 在这个实验中,我使用了搜狗-文本-分类开放语料库。 我使用 TF/IDF 和信息增益作为特征提取算法。 由于我很懒,所以只实现了两个简单的分类算法,它们是 K-Nearest-Neighbour 和朴素贝叶斯分类。 在提取文本特征时,我们总是需要将句子分割成单词。 我用jieba做分词。 你也可以从获取这个模块。 代码中的命名约定 modeule_name, package_name, method_name, function_name, instance_var_name, function_parameter_name, local_var_name globa_var_n
2021-12-29 16:28:12 12KB Python
1
朴素贝叶斯(二)文本分类朴素贝叶斯的一般流程用python进行文本分类准备数据:从文本中构建词向量训练算法:从词向量计算概率测试算法:朴素贝叶斯分类函数文档词袋模型 朴素贝叶斯的一般流程 (1)收集数据:任何方法 (2)准备数据:数值型、布尔型 (3)分析数据:特征多,用直方图效果好 (4)训练算法:计算不同的独立特征的多条件概率 (5)测试算法:计算错误率 (6)使用算法:一般应用于文档分类,也可以在任意分类场景 用python进行文本分类 以在线社区留言板为例,构建快速过滤器,判断是否是侮辱性言论。用1和0分别表示。 准备数据:从文本中构建词向量 #创建一些实验样本 def loadDat
2021-12-29 13:15:51 49KB 分类 学习 实战
1
20newsgroups-text-classification 对20 newsgroups 数据集 进行文本分类 方法 基于传统机器学习方法的文本分类 基于深度学习的文本分类 测试结果 传统机器学习方法 MultinomialNB准确率为: 0.8960196779964222 SGDClassifier准确率为: 0.9724955277280859 LogisticRegression准确率为: 0.9304561717352415 SVC准确率为: 0.13372093023255813 LinearSVC准确率为: 0.9749552772808586 LinearSVR准确率为: 0.00022361359570661896 MLPClassifier准确率为: 0.9758497316636852 KNeighborsClassifier准确率为: 0.4584078711
2021-12-29 10:41:48 6KB sklearn text-classification-python Python
1
课程目标 (1)采用PyTorch深度学习工具进行实战操作,掌握PyTorch基本使用; (2)掌握工业界短文本处理解决方案,如:对话系统,智能客服,新闻领域分类等; (3)词向量项目案例应用,掌握文本的表示方法; (4)通过项目案例实战,掌握TextCNN短文本分类在工业界应用,可以直接应用在如下领域 例如:对话系统意图识别,智能客服问答意图识别,资讯短文本分类等文本分类场景。 适用人群 (1)想要从事NLP的在校学生、NLP研发工程师 (2)自然语言处理从业者、深度学习爱好者 课程简介 短文本分类作为自然语言处理的基础技术之一NLP领域的热门应用,常用在对话语言平台,文章分类,智能客服,FAQ智能问答等多个场景。 因此深入掌握短文本分类技术,是作为自然语言处理从业者必备技能,本课程以案例驱动出发,结合多个工业级解决方案,了解当下文本分类实际工业界的应用。 课程要求: (1)开发环境:python版本:Python3.x;PyTorch深度学习工具; (3)学员基础:需要一定的Python基础,及深度学习基础; (4)学员收货:掌握深度学习PyTorch工具使用;掌握Text
1
自然语言处理动手学Bert文本分类视频教程,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着杨博一行一行代码撸起来。
2021-12-29 09:12:25 697B 自然语言处理 bert 文本分类
1
基于bert的代码 :bert+dnn、bert +textcnn、bert_wwm+textcnn、bert+12层cls+textcnn
2021-12-28 18:03:59 365.1MB python
1
2021-12-27 16:59:30 1.87MB 数据集
1
总结了文本分类中的常用算法,包括8种传统算法:k临近、决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、逻辑回归和支持向量机概念及其实现代码
今天小编就为大家分享一篇Pytorch实现基于CharRNN的文本分类与生成示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2021-12-26 17:13:12 178KB Pytorch CharRNN 文本分类
1