随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。
1
零基础入门NLP-新闻文本分类 test_b.csv test_a_sample_submit.csv test_a.csv test_b_sample_submit.csv train_set.csv
2022-05-31 17:44:08 354.74MB 数据集
1
几种常用文本分类算法性能比较与分析.docx
2022-05-30 09:08:51 236KB 文档资料 分类 数据挖掘 人工智能
2022NUK-NLP大作业:基于深度学习的文本分类.zip
2022-05-29 09:08:32 1.45MB 自然语言处理 深度学习 分类 文档资料
分析了几种典型的文本分类算法的特点。其中,支持向量机算法具有最优性能,但处理大量数据时,耗时比较大;K-NN方法与K值的选取有很大关系,而且实时性不够良好;朴素贝叶斯方法在实际应用中可以得到比较好的效果;神经网络方法提供了比较容易的方式预测非线性系统,训练过程很慢,不能适应大数据量的学习。
2022-05-28 15:18:21 280KB 自然科学 论文
1
文本分类之KNN与SVM融合算法.ppt
2022-05-26 19:08:20 550KB 支持向量机 算法 分类 文档资料
【摘要】 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 【Abstract】 In recent years, there have been extensive studies and rapid progresses in automatic text categorization, which is one of the hotspots and key techniques in the information retrieval and data mining field. Highlighting the state-of-art challenging issues and research trends for content information processing of Internet and other complex applications, this paper presents a survey on the up-to-date development in text categorization based on machine learning, including model, algorithm and evaluation. It is pointed out that problems such as nonlinearity, skewed data distribution, labeling bottleneck, hierarchical categorization, scalability of algorithms and categorization of Web pages are the key problems to the study of text categorization. Possible solutions to these problems are also discussed respectively. Finally, some future directions of research are given. 还原
1
人工智能课程设计实现文本分类源码+ppt+报告分析 适用于软件工程专业的课程设计,只需微改即可使用。
2022-05-22 14:08:22 698KB 课程设计 人工智能 python 文本分类
包括十个类,环境,计算机,交通,教育,经济,军事,体育,医药,艺术,政治
2022-05-21 17:10:32 2.55MB 文本分类语料
1
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2022-05-21 16:37:46 51.14MB 语料库 复旦 测试
1