1.集成学习简介 一个牛逼的算法和10个简单的算法比,后者更好一点。 所以在解决过拟合和欠拟合问题的时候,使用boosting 和bagging 的方法。 欠拟合问题解决:弱弱组合变强 boosting 过拟合问题解决:相互牵制变壮 bagging 2. Bagging bagging集成过程 采样:从所有样本中又放回的采样一部分特征 学习:训练弱n个学习器 集成:平权投票n 个若学习器 随机森林 定义:随机森林 = Bagging + 决策树 流程 在所有样本里选m个数据 在m个数据里选k个特征 训练n 个弱决策树 重复上三条 平权投票 注意:有放回的取出数据。选取的特征远小于所有特征
2021-10-06 13:58:07 51KB 决策树 学习 集成
1
鸢尾花数据集8:2划分训练集和测试集,并进行决策树分类算法练习Graphviz的安装训练集、测试集的划分输出训练模型可视化树状图训练模型的精度F1-Score测试集的精度F1-Score遇到的问题 针对鸢尾花数据集,按照80%训练集、20%测试集的划分,进行决策树分类算法的训练(在训练集上)和预测(测试集上)。要求:1)输出训练模型的可视化树状图 ;2)输出训练模型的精度 F1-score;3)输出测试集的精度 F1-score; Graphviz的安装 决策树要用到Graphviz,所以要先安装。 首先在Graphviz官网上下载Graphviz-2.38.msi 然后进行安装,双击后,一
2021-10-06 11:29:46 66KB 决策 决策树 分类
1
【清华大学大数据 数据分析 统计学 系列课程】 全套清华大学数据分析 统计学 系列课程 01 第一章 统计学习方法概论 (共32页).pptx 全套清华大学数据分析 统计学 系列课程 02 第二章 感知机 (共28页).pptx 全套清华大学数据分析 统计学 系列课程 03 第三章 k 近邻法 (共20页).pptx 全套清华大学数据分析 统计学 系列课程 04 第四章 朴素贝叶斯法 (共17页).pptx 全套清华大学数据分析 统计学 系列课程 05 第五章 决策树-2016-ID3CART (共85页).pptx 全套清华大学数据分析 统计学 系列课程 06 第六章 Logistic回归 逻辑斯的回归与最大熵模型(共54页).pptx 全套清华大学数据分析 统计学 系列课程 07 第七章 支持向量机 (共95页).pptx 全套清华大学数据分析 统计学 系列课程 08 第八章 提升方法 (共58页).pptx 全套清华大学数据分析 统计学 系列课程 09 第九章 EM算法及其推广 (共46页).pptx 全套清华大学数据分析 统计学 系列课程 10 第十章 隐马尔科夫模型 (共50页).pptx 全套清华大学数据分析 统计学 系列课程 11 第十一章 条件随机场 (共60页).pptx 全套清华大学数据分析 统计学 系列课程 12 第十二章 统计学习方法总结.pptx
2021-10-04 18:07:19 1.56MB 大数据 统计学 统计模型 统计算法
完整的ID3决策树算法,采用了scala语言来实现,代码完整。
2021-10-04 16:11:22 2KB ID3,决策树
1
对SVM,决策树和朴素贝叶斯分类器的应用
2021-10-04 13:00:29 1.09MB svm分类 贝叶斯 SVM分类 分类
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。 分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
2021-10-03 18:23:00 2KB 机器学习 人工智能 决策树 python
1
不管对决策树的知识了解有多少,这次通过一个简单的例子来就能够了解它的原理和明白实现的方法。 实际场景 对于一个眼科医生而言,当面对病人是否需要佩戴隐形眼镜时,只需要通过几个问题就能够判断出病人是需要带软,硬还是不能带隐形眼镜。因此我们的数据集就是病人的四个特征(‘age’, ‘prescript’, ‘astigmatic’, ‘tearRate’)的组合以及对应的结论(‘soft’,‘hard’,‘no lenses’),获取数据点击这里,提取码tvj6 先加载数据,如下: # 加载数据 def loadData(): bigString = open(r'路径\lenses.txt
2021-10-02 17:29:47 116KB python python函数 python机器学习
1
决策树之ID3 算法源码及数据文件,在博客上数据文件格式被打乱,因此直接上传上来
2021-10-01 15:01:28 6KB 决策树之ID3 算法源码 数据文件
1
决策树的三种数据挖掘算法,使用了python实现可视化。
2021-10-01 14:49:51 454KB hadoop EM ID3 C4.5
1
Decision_tree-python 决策树分类(ID3,C4.5,CART) 三种算法的区别如下: (1) ID3算法以信息增益为准则来进行选择划分属性,选择信息增益最大的; (2) C4.5算法先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的; (3) CART算法使用“基尼指数”来选择划分属性,选择基尼值最小的属性作为划分属性. 本次实验我的数据集如下所示: 共分为四个属性特征:年龄段,有工作,有自己的房子,信贷情况; 现根据这四种属性特征来决定是否给予贷款 为了方便,我对数据集进行如下处理: 在编写代码之前,我们先对数据集进行属性标注。 (0)年龄:0代表青年,1代表中年,2代表老年; (1)有工作:0代表否,1代表是; (2)有自己的房子:0代表否,1代表是; (3)信贷情况:0代表一般,1代表好,2代表非常好; (4)类别(是否给贷款):no代表否,
2021-10-01 14:43:40 1.36MB Python
1