【课程简介】 本课程适合所有需要学习机器学习技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:https://download.csdn.net/download/qq_27595745/85274948 【全部课程列表】 day01-机器学习概述、特征工程、机器学习算法 共127页.pptx day02-sklearn、knn、朴素贝叶斯、决策树、随机森林 共102页.pptx day03-线性回归、岭回归、逻辑回归、分类、聚类算法 共86页.pptx day04-Tensorflow基础与进阶 共74页.pptx day05-Tensorflow IO操作-队列和线程、文件读取、图片处理 共40页.pptx day06-Tensorflow、人工神经网络、卷积神经网络、图片识别 共65页.pptx day07-CIFAR图像分类 图像识别、分布式会话函数、分布式TensorFlow、推荐系统 共76页.pptx
2022-05-04 12:05:55 16.59MB 人工智能 机器学习 文档资料 深度学习
实现了高斯、多项式、伯努利三种朴素贝叶斯模型,能够处理离散型数据和连续型数据,并提供预测结果概率。对于像鸢尾花这类的连续型数据可以直接采用MyGaussianNB预测。离散型数据采用MyMultinomialNB预测。离散型数据,且特征值只有0,1两种取值情况的采用MyBernoulliNB预测。三种模型都可以通过score方法评估模型准确率,都可以通过predict_proba方法输出预测结果概率。 此外,为了优化和改进模型,使MyMultinomialNB和MyBernoulliNB能够预测连续型数据,还实现了基于numpy和pandas的分箱函数MyDiscretizer以及二值化函数MyBinarizer。
2022-05-04 04:55:43 47KB 人工智能 python 朴素贝叶斯算法
1
竞赛中,数据集中包括60秒的传感器数据序列进行分类,指示受试者在序列期间是否处于两种活动状态之一。 train.csv : 训练集,包括约26000个60秒的13个生物传感器的记录,供近1000名实验参与者使用 - sequence: 序列,每个序列的唯一id - subject: 受试者,实验中受试者的唯一id - step: 步长,录制的时间步长,以1秒为间隔 - sensor_00-sensor_12: 13个传感器在该时间步的值 train_labels: 标签, csv-每个序列的类标签。 - sequence: 序列,—每个序列的唯一id。 - state:状态,与每个序列关联的状态。这就是你试图预测的目标。 test.csv :测试集。对于12000个序列中的每一个,您都应该预测该序列状态的值。 sample_submission.csv :提交样品,csv-正确格式的示例提交文件。 后继将写一篇关于如何使用数据集的文章,敬请关注。
2022-05-03 17:05:45 171.31MB 机器学习 kaggle sklearn
1
概述 调用sklearn.linear_model中的LogisticRegression库,尝试通过对率回归对离散数据进行划分,对每个属性进行预测,选取正确率最大的属性作为根节点,并对该节点的每个属性取值进行划分选择,依此类推,最终绘制一棵决策树。 程序功能 对于给定西瓜数据集3.0,将字符串类型的属性取值转换为数值类型以便模型进行训练,并将连续属性离散化以便选取划分点,通过正确率来选取根节点,最终得到决策树数组。通过dealanddraw(n0, pngname)函数将数组转化为字典类型,绘制决策树,将决策树以图片形式保存在程序的同一目录下。 收获 通过该代码读者能够掌握机器学习课程中对率回归决策树的基本绘制方法,能够根据自己的需求快速的更换数据集,具有一定的应用价值。 不足 对于正确率相同的节点,选取优先遍历的属性作为根节点,与基于信息增益进行划分选择的方法相比,可知两种方法绘制的决策树正确率均为100%,但对率回归方法容易忽略在同一正确率下划分较佳的节点,从而使决策树层数增多,变得更加复杂。
2022-04-28 16:06:41 362KB 机器学习 人工智能 决策树 sklearn
该数据集为sklearn.datasets模块中的人脸识别数据fetch_lfw_people,因为下载速度很慢,可以使用直接导入数据集的方式。数据集的信息为:5749个不同人的类别,13233个样本,数据维度为5828。
2022-04-28 10:09:05 232.07MB sklearn 人脸识别 数据集
1
利用Python实现KNN算法,完成鸢尾花分类任务,实现步骤: 1. 数据集的准备。 (1)使用SCIKIT-LEARN的自带的鸢尾花数据集,获取数据集的后两个特征,形成原始数据集D。 (2)待决策样本集D1的产生:在原始二维特征空间,基于该数据集的两种特征取值的最小值、最大值,获取该数据集的矩形包围盒,并在该的矩形区域上下左右各个方向扩充1的基础上,以step=0.02为两种特征的采样间隔,在该矩形区域等间隔抽取离散位置,构成原始待决策的样本集D1。 (3)训练集与测试集的产生:将原始数据集D按照类别分层随机打乱,以hold-out方式划分为训练集(80%),以及测试集(20%) 2. 模型的选择 训练集的规范化预处理,并记录预处理使用的参数。 3. 基于测试集的K-近邻分类模型的评价。 (1)对测试集的每个样本进行预处理; (2)基于K值优选结果(或你设定的K值),对预处理之后的每个测试样本进行类别预测,得到所有测试样本的类别预测结果。 (3)结合测试集各样本的类别预测结果及真实类别答案,生成混淆矩阵,并可视化混淆矩阵 .... 4.K-近邻分类模型的使用。 .....
2022-04-27 16:05:37 5KB 机器学习 分类 sklearn 人工智能
1
1. 数据集的获取。 使用SCIKIT-LEARN自带的数据读取函数load_wine(),获取原始葡萄酒数据集。 2. 获取数据集内,样本数目、类别数目,各类样本数目 3. 样本集基本信息获取: (1)获取并输出该数据集的类别信息(含:类别数目,类别名称); (2)获取数据集的特征数目、特征名称;样本数目、各类别样本数目。 4.样本集的描述统计,获取并输出显示样本集内每个特征的描述性统计指标 包括:均值、标准差、最小值、最大值、第1四分位、第2四分位、第3四分位。 5. 认识每一种特征的分布情况 (1)估计每个特征分布的斜度 (2)以单变量直方图形式可视化样本集关于每个特征取值的分布情况 (3)以单变量密度曲线方式可视化每个特征的分布 6. 了解任意一对特征之间的线性相关程度: (1)估计任意一对特征之间的相关系数,得到相关系数矩阵,并进行可视化; (2)绘制散点矩阵,借助散点矩阵,理解两特征之间的线性相关性 7. 基于箱式图的各特征取值分布的可视化,理解各特征关于不同类别样本的类鉴别特性:针对每个特征,基于原始样本集及其类别信息,在相同的图形窗口,绘制箱型图
2022-04-27 16:05:36 5KB sklearn 源码软件 python 人工智能
1
1.数据集的获取。 使用SCIKIT-LEARN的自带的鸢尾花数据集,获取该数据集150个样本的后两个特征及相应类别标签。 2.数据集的最小包围盒的获取,以及数据集的划分。 (1)获取原始二维空间中150个样本的最小包围矩形[x1_min, x1_max]*[x2_min,x2_max],并记录有关参数值。 (2)将数据集按照类别标签分层随机打乱,基于hold-out法,构建训练集(80%)与测试集(20%) 3. 模型的学习。 利用训练集,学习两种复杂程度不同的CART分类树,可视化两个分类树的学习结果。 4. 基于测试集的分类树的评价。 (1)结合测试集各样本的类别预测结果及真实类别答案,生成混淆矩阵,并可视化混淆矩阵 (2)基于混淆矩阵,估计每个类别的查准率、查全率、F1值,以及宏查准率、宏查全率、宏F1值;估计总体预测正确率. 5. 分类树的使用。 (1)在原始二维空间的矩形区域[x1_min-1, x1_max+1]*[x2_min-1,x2_max+1]内,分别在水平、垂直方向以0.02为间隔,细分生成离散格子点。 (2)分别以每个格子点作为一个待决策样本,对其分类
2022-04-27 16:05:35 5KB 分类 sklearn 数据挖掘 人工智能
1
1. 原始数据集的获取。 使用SCIKIT-LEARN的自带的鸢尾花数据集,获取原始鸢尾花数据集。 2.模型的评价方式之一--基于oob_score的模型性能评价 以整个鸢尾花数据集为训练集,分别考察: (1) 决策树数目=10,100,500三种情况下,随机森林的分类性能,性能评价采用: RandomForestClassifier模型的属性“oob_score” (2) 决策树数目=10,100,500三种情况下,bagging模型的分类性能,性能评价采用: BaggingClassifier模型的属性“oob_score” 3. 模型评价方式之二--基于交叉验证的集成模型性能评价 将原始数据集按照类别分层随机打乱,分成K=5等分. (1) 采用K-折交叉验证平均预测错误率(及标准差)为评价指标,分别考察决策树数目=10,100,500三种情况下,随机森林模型的分类性能。 (2) 采用K-折交叉验证平均预测错误率(及标准差)为评价指标,分别考察决策树数目=10,100,500三种情况下,bagging模型的分类性能。
2022-04-27 16:05:34 6KB 随机森林 分类 sklearn 算法
1
sklearn-feature-engineering 前言 博主最近参加了几个kaggle比赛,发现做特征工程是其中很重要的一部分,而sklearn是做特征工程(做模型调算法)最常用也是最好用的工具没有之一,因此将自己的一些经验做一个总结分享给大家,希望对大家有所帮助。大家也可以到我的博客上看 有这么一句话在业界广泛流传,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程主要分为三部分: 数据预处理 对应的sklearn包: 特征选择 对应的sklearn包: 降维 对应的sklearn包: 本文中使用sklearn中的IRIS(鸢尾花)数据集来对特征处理功能进行说明,首先导入IRIS数据集的代码如下: 1 from sklearn.datasets
2022-04-25 12:37:34 8KB sklearn kaggle feature-engineering Python
1