sklearn库学习心得
2024-03-20 02:39:11 74KB sklearn
1
PCA降维+利用svd降维+利用sklearn库svd降维
2023-02-14 13:36:13 5KB pca降维
1
Scikit学习 Scikit-learn:是用于Python编程语言的免费软件机器学习库。 它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值和科学库NumPy和SciPy互操作。 机器学习中任何项目的步骤: 数据文件并附加数据 数据清理,并从功能之间的关联中学习。 功能选择 数据缩放 数据分割 选择最佳算法(回归分类-SVM-KMeans-KNN .....)。
2023-01-09 13:48:09 8.98MB JupyterNotebook
1
sklearn安装 解压放在自己xx:\xx\Anaconda3\Lib\site-packages中即可
2022-12-26 19:31:14 5.6MB python
1
4.机器学习项目 我已经使用sklearn库实现了一些机器学习项目。
2022-12-03 19:49:27 674KB JupyterNotebook
1
利用Python实现KNN算法,完成鸢尾花分类任务,实现步骤: 1. 数据集的准备。 (1)使用SCIKIT-LEARN的自带的鸢尾花数据集,获取数据集的后两个特征,形成原始数据集D。 (2)待决策样本集D1的产生:在原始二维特征空间,基于该数据集的两种特征取值的最小值、最大值,获取该数据集的矩形包围盒,并在该的矩形区域上下左右各个方向扩充1的基础上,以step=0.02为两种特征的采样间隔,在该矩形区域等间隔抽取离散位置,构成原始待决策的样本集D1。 (3)训练集与测试集的产生:将原始数据集D按照类别分层随机打乱,以hold-out方式划分为训练集(80%),以及测试集(20%) 2. 模型的选择 训练集的规范化预处理,并记录预处理使用的参数。 3. 基于测试集的K-近邻分类模型的评价。 (1)对测试集的每个样本进行预处理; (2)基于K值优选结果(或你设定的K值),对预处理之后的每个测试样本进行类别预测,得到所有测试样本的类别预测结果。 (3)结合测试集各样本的类别预测结果及真实类别答案,生成混淆矩阵,并可视化混淆矩阵 .... 4.K-近邻分类模型的使用。 .....
2022-04-27 16:05:37 5KB 机器学习 分类 sklearn 人工智能
1
1. 数据集的获取。 使用SCIKIT-LEARN自带的数据读取函数load_wine(),获取原始葡萄酒数据集。 2. 获取数据集内,样本数目、类别数目,各类样本数目 3. 样本集基本信息获取: (1)获取并输出该数据集的类别信息(含:类别数目,类别名称); (2)获取数据集的特征数目、特征名称;样本数目、各类别样本数目。 4.样本集的描述统计,获取并输出显示样本集内每个特征的描述性统计指标 包括:均值、标准差、最小值、最大值、第1四分位、第2四分位、第3四分位。 5. 认识每一种特征的分布情况 (1)估计每个特征分布的斜度 (2)以单变量直方图形式可视化样本集关于每个特征取值的分布情况 (3)以单变量密度曲线方式可视化每个特征的分布 6. 了解任意一对特征之间的线性相关程度: (1)估计任意一对特征之间的相关系数,得到相关系数矩阵,并进行可视化; (2)绘制散点矩阵,借助散点矩阵,理解两特征之间的线性相关性 7. 基于箱式图的各特征取值分布的可视化,理解各特征关于不同类别样本的类鉴别特性:针对每个特征,基于原始样本集及其类别信息,在相同的图形窗口,绘制箱型图
2022-04-27 16:05:36 5KB sklearn 源码软件 python 人工智能
1
1.数据集的获取。 使用SCIKIT-LEARN的自带的鸢尾花数据集,获取该数据集150个样本的后两个特征及相应类别标签。 2.数据集的最小包围盒的获取,以及数据集的划分。 (1)获取原始二维空间中150个样本的最小包围矩形[x1_min, x1_max]*[x2_min,x2_max],并记录有关参数值。 (2)将数据集按照类别标签分层随机打乱,基于hold-out法,构建训练集(80%)与测试集(20%) 3. 模型的学习。 利用训练集,学习两种复杂程度不同的CART分类树,可视化两个分类树的学习结果。 4. 基于测试集的分类树的评价。 (1)结合测试集各样本的类别预测结果及真实类别答案,生成混淆矩阵,并可视化混淆矩阵 (2)基于混淆矩阵,估计每个类别的查准率、查全率、F1值,以及宏查准率、宏查全率、宏F1值;估计总体预测正确率. 5. 分类树的使用。 (1)在原始二维空间的矩形区域[x1_min-1, x1_max+1]*[x2_min-1,x2_max+1]内,分别在水平、垂直方向以0.02为间隔,细分生成离散格子点。 (2)分别以每个格子点作为一个待决策样本,对其分类
2022-04-27 16:05:35 5KB 分类 sklearn 数据挖掘 人工智能
1
1. 原始数据集的获取。 使用SCIKIT-LEARN的自带的鸢尾花数据集,获取原始鸢尾花数据集。 2.模型的评价方式之一--基于oob_score的模型性能评价 以整个鸢尾花数据集为训练集,分别考察: (1) 决策树数目=10,100,500三种情况下,随机森林的分类性能,性能评价采用: RandomForestClassifier模型的属性“oob_score” (2) 决策树数目=10,100,500三种情况下,bagging模型的分类性能,性能评价采用: BaggingClassifier模型的属性“oob_score” 3. 模型评价方式之二--基于交叉验证的集成模型性能评价 将原始数据集按照类别分层随机打乱,分成K=5等分. (1) 采用K-折交叉验证平均预测错误率(及标准差)为评价指标,分别考察决策树数目=10,100,500三种情况下,随机森林模型的分类性能。 (2) 采用K-折交叉验证平均预测错误率(及标准差)为评价指标,分别考察决策树数目=10,100,500三种情况下,bagging模型的分类性能。
2022-04-27 16:05:34 6KB 随机森林 分类 sklearn 算法
1
DBSCAN算法实现,基于Python语言,非调用sklearn库,参考了周志华《机器学习》的算法流程,代码清晰易懂。
2022-04-17 09:50:31 3KB Python 机器学习 数据可视化 DBSCAN
1