第五章 探索性数据分析,结合了dplyr和ggplot2 1.简介 提出问题→通过可视化,转换和建模来解决问题→优化并提出新问题 2.提出问题 变量自身会发生何种变动? 变量之间会发生何种相关变动? 术语:在tidydata(整洁的数据)中,行是观测,列是变量。 变量:一种可测量的数量、质量或属性。 值:变量在测量时的状态。变量值在每次测量之间可以发生改变。 观测:或称个案,指在相同条件下进行的一组测量(通常,一个观测中的所有测量是在同一时间对同一对象进行的)。一个观测会包含多个值,每个值关联到不同的变量。有时我们会将观测称为数据点。 表格数据:一组值的集合,其中每个值都关联一个变量和一个观测
2023-03-03 09:30:57 77KB aes diamonds 变量
1
预测钻石价格 竞争的目的是根据钻石的特征(克拉,重量,颜色,切工...)预测钻石的价格。 这是为Ironhack Data Analytics训练营的学生创建的学术竞赛。
2022-05-04 22:39:34 970KB JupyterNotebook
1
公开数据集中的diamonds(钻石)数据。该数据包含53940行,有carat(钻石的重量)、cut(钻石的切工)、color(钻石的颜色)、clarity(钻石的纯净度)、depth(钻石的深度比例)、table(钻石的桌面比例)、price(钻石的价格)、x(钻石的长)、y(钻石的宽)、z(钻石的高)共10列,对应每个钻石的一些参数值,本实验主要是对钻石的切工、钻石的颜色、钻石的纯净度进行统计及可视化分析,并且对钻石的重量、钻石的切工、钻石的颜色、钻石的纯净度对价格的影响进行统计及可视化分析和数据挖掘分析。
2022-04-27 23:30:44 3.2MB 数据统计 excel python 数据挖掘
1
钻石无处不在 介绍 在世界上,钻石因其美观和特性而成为人们最垂涎的对象。 他们昂贵的采购和稀缺性使钻石产品在市场上具有很高的价值。 但是,可以根据钻石的特性计算出该值吗? 在这个项目中,我们打算使用监督学习来创建预测模型,该模型使用一系列钻石变量来预测其他钻石的市场价值。 过程 打扫 清理过程首先检查数据集。 发现存在分类变量和数字变量的地方。 还观察到没有空值。 消除了无用的列,并对分类变量进行了编码,我们选择按序数形式对它们进行分类,因为存在分类顺序,因此考虑到顺序,将分类值替换为数值。 造型 使用的模型是线性回归,使用HyperOpt选择超参数的随机森林Reggresor,以及由Pycaret选择的第三个模型,最终将成为LightGradientBoostingMachine。 使用的度量是“ mean_square_error”。 数据 该项目使用的数据数据是从以下获得的
2021-12-01 09:01:59 1.22MB JupyterNotebook
1
这个文档描述POV-Ray基本的作图操作和规则,后面部分与Diamonds作图相结合.
2021-04-19 12:03:14 308KB POV-Ray Diamonds
1
Diamonds_In_Mathematical_Inequalities
2021-04-11 16:31:01 2.20MB Mathematical Inequalities
1
diamonds数据集,凑个字数,必须要大于50字节,还不够么.
2019-12-21 21:47:27 2.64MB 数据集
1