随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络信息爆炸式 增长,而其中绝大部分信息以文本形式存在。如何从这海量的信息中快速高效的获取数 据,成为信息处理领域亟待解决的问题。文本自动分类技术作为处理和组织大量文本数 据的关键技术应运而生并取得了快速的发展。 基于主题的文本分类是根据文本的内容将文本划分到预先定义好的类别中去。机器 学习方法由于其自身的灵活性并能够取得较好的分类效果,因此在文本分类中得到了广 泛的应用。机器学习方法要经过文本的预处理,特征选择,特征加权,训练分类器并进 行分类等过程。特征加权是文本分类中的重要环节,对文本的分类性能有直接的影响。 通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了 提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度 因子,提出了一种基于改进的互信息特征加权方法,实验表明,该方法比传统的特征加 权方法TFIDF具有更好的分类性能。 情感分类是文本分类的重要分支,它已经逐渐成为了信息检索和自然语言处理领域 的热点研究问题。机器学习方法同样适用于文本的情感分类,但是其效果却与传统的
2022-04-27 16:05:45 7.62MB 机器学习 分类 文档资料 人工智能
利用Python实现KNN算法,完成鸢尾花分类任务,实现步骤: 1. 数据集的准备。 (1)使用SCIKIT-LEARN的自带的鸢尾花数据集,获取数据集的后两个特征,形成原始数据集D。 (2)待决策样本集D1的产生:在原始二维特征空间,基于该数据集的两种特征取值的最小值、最大值,获取该数据集的矩形包围盒,并在该的矩形区域上下左右各个方向扩充1的基础上,以step=0.02为两种特征的采样间隔,在该矩形区域等间隔抽取离散位置,构成原始待决策的样本集D1。 (3)训练集与测试集的产生:将原始数据集D按照类别分层随机打乱,以hold-out方式划分为训练集(80%),以及测试集(20%) 2. 模型的选择 训练集的规范化预处理,并记录预处理使用的参数。 3. 基于测试集的K-近邻分类模型的评价。 (1)对测试集的每个样本进行预处理; (2)基于K值优选结果(或你设定的K值),对预处理之后的每个测试样本进行类别预测,得到所有测试样本的类别预测结果。 (3)结合测试集各样本的类别预测结果及真实类别答案,生成混淆矩阵,并可视化混淆矩阵 .... 4.K-近邻分类模型的使用。 .....
2022-04-27 16:05:37 5KB 机器学习 分类 sklearn 人工智能
1
机器学习模型在遥感图像分类
2022-04-27 11:05:50 56KB 机器学习 分类 源码软件 人工智能
文本分类,使用机器学习算法,如朴素贝叶斯、逻辑回归、支持向量机等
2022-04-27 11:05:47 204KB 算法 机器学习 分类 逻辑回归
基于机器学习的新闻标题分类系统
2022-04-27 11:05:45 10MB 机器学习 分类 人工智能 数据挖掘
机器学习中的多示例包层次SVM分类算法 【核心代码】Bag_KI_SVM.m KI-SVM ├── Bag KI-SVM │ ├── Bag_KISVM_prediction.m │ ├── Bag_KI_SVM.m │ ├── Find_y.m │ ├── Find_y_linear.m │ ├── Max_Violated_y_set.m │ ├── Readme.htm │ ├── celltomatrix.m │ ├── genIndex.m │ └── normalization_gaussian.m ├── Instance KI-SVM │ ├── Find_y.m │ ├── Find_y_linear.m │ ├── Inst_KISVM_prediction.m │ ├── Inst_KI_SVM.m │ ├── Max_Violated_y_set.m │ ├── Readme.htm │ ├── celltomatrix.m │ ├── genIndex.m │ └── normalizat
2022-04-13 22:05:28 648KB 支持向量机 机器学习 分类 算法
西南交通大学研究生课程 机器学习与人工智能作业,按照软件学报格式
2022-04-13 17:06:31 32KB 人工智能 算法 机器学习 分类
1.机器学习实战项目——分类&回归.zip 2.波斯顿房价问题等
2022-04-12 09:07:51 2.23MB 机器学习 分类 回归
内部包含Iris数据集、帕尔默企鹅数据集、共享单车需求数据集、葡萄酒分类数据集、波士顿住房数据集、电离层数据集、Fashion MNIST 数据集、威斯康星州乳腺癌(诊断)数据集、情绪分析Sentiment 数据集、BBC 新闻数据集、垃圾短信分类器数据集、CelebA 数据集、纸币验证数据集、皮马印第安人糖尿病数据集、小麦种子数据集、鲍鱼数据集、MNIST数据集等,包含数据集及详细的数据集简介,帮助你快速找到需要的数据集。
2022-04-06 21:55:47 188.41MB 机器学习 分类 big data
1
机器学习,字符分类
2022-04-06 16:06:58 3KB 机器学习 分类 人工智能 数据挖掘
1