我在学习python数据分析与挖掘做的笔记,希望对你们有用!当然我上传是为了以后更好的查看与学习。里面的内容有假设检验,卡方检验,方差检验,Pearson相关系数,线性回归,以及复合分析等的相关知识点与代码。
2023-04-10 14:08:36 1.58MB python 数据分析
1
第五章 探索性数据分析,结合了dplyr和ggplot2 1.简介 提出问题→通过可视化,转换和建模来解决问题→优化并提出新问题 2.提出问题 变量自身会发生何种变动? 变量之间会发生何种相关变动? 术语:在tidydata(整洁的数据)中,行是观测,列是变量。 变量:一种可测量的数量、质量或属性。 值:变量在测量时的状态。变量值在每次测量之间可以发生改变。 观测:或称个案,指在相同条件下进行的一组测量(通常,一个观测中的所有测量是在同一时间对同一对象进行的)。一个观测会包含多个值,每个值关联到不同的变量。有时我们会将观测称为数据点。 表格数据:一组值的集合,其中每个值都关联一个变量和一个观测
2023-03-03 09:30:57 77KB aes diamonds 变量
1
心血管疾病使用决策树和随机森林分类器 决策树算法可用于预测心血管疾病并使用随机森林分类器和探索性数据分析来提高准确性
2023-02-08 15:13:46 778KB
1
FOURPLOT(X) 为 X 中的值创建一个“四图”,允许对四个底层进行强大而高效的视觉检查单变量统计分析的假设。 描述性统计在命令窗口中打印出来。 X 是观测值的向量。 它应该是数字和不能包含 NaN 或 Inf。 在四个子图中,运行序列图 (X[k] vs k)、滞后图 (X[k] 对比 X[k-1])、直方图和正态概率图。 之内在这些轴上,X 的平均值绘制为一条直线。 在此外,第 5 个面板显示了 X 的盒须图。 如果四个基本假设成立,则四个图将有一个特征外观。 1.如果固定位置假设成立,那么运行序列图将是平坦且不漂移的。 2. 如果固定变差假设成立,那么在运行序列图将大致相同整个水平轴。 3.如果随机性假设成立,则滞后图将为无结构和随机。 4. 如果固定分布假设成立,特别是如果固定正态分布成立,那么直方图将是钟形,正态概率图将是线性的。 盒须图将显示中值(红线)、均值和 SD(在
2022-12-15 21:00:55 4KB matlab
1
EDA FIFA数据集的探索性数据分析
2022-12-03 16:20:56 421KB JupyterNotebook
1
探索性数据分析-汽车数据集 UCI机器学习存储库 资料来源: : 该项目涉及两个主要分析: 汽车符号值与其车身样式和物理参数的关系 汽车价格与其车身样式,尺寸和发动机规格的关系 用于分析工作的Python笔记本: 参考: 美国公路安全保险学会| 公路损失数据研究所-
2022-05-26 10:08:54 40.65MB JupyterNotebook
1
股市探索数据分析笔记本 使用库Numpy,Matplotlib和Pandas进行股票市场数据集探索性数据分析的Jupyter Notebook。 数据集具有以下功能: serial_number:每个变量的唯一标识符 time_stamp:捕获数据的日期 open_value:指定日期的期初值 maximum_value:在特定日期达到的索引的最高值 minimum_value:特定日期的索引的最低值 resolve_value:结算当天的值 volume_sell:卖出指数的数量
2022-05-07 10:02:42 469KB numpy exploratory-data-analysis pandas matplotlib
1
巧克力条评级数据集的探索性数据分析 s 柏林阿西杜 芭芭拉·阿萨玛 本尼迪克·纳蒂 别林达·奥塞图图 介绍 探索性数据分析(EDA)是数据科学项目中最关键的步骤之一。 EDA的基本术语是“借助可视化和描述性统计数据了解数据”的一种方式。 巧克力是可可可粉经过烘焙和磨碎的制剂,以液体,糊状或块状形式制成,也可以在其他食品中用作调味成分。 巧克力是全世界儿童和成人喜爱的糖果。 巧克力基本上是由可可和其他一些添加剂制成的。 这些数据的探索将基于数据分析周期:了解数据,提出问题,提出假设,数据清理,数据分析,发现和建议。 该报告详细说明了分析Chocolate Bar Ratings数据集所使用的步骤和过程。 这是对来自世界各地的1795块巧克力条的分析。 从数据中,我们将查看巧克力棒的各种制造地点,可可豆的原产国和总体评级以及其他各种其他信息。 数据来自曼哈顿巧克力协会的布雷迪·布雷林斯基。
2022-03-29 11:40:00 2.51MB JupyterNotebook
1
伊达 自动探索性数据分析
2022-03-03 21:46:35 12KB Python
1
探索性数据分析 机器学习模型 结论 所有特征都显示出对葡萄酒质量的影响。当考虑每个变量的相关性时,我们可以看到一些特征是相互关联的。这是因为固定酸、柠檬酸等特征是 pH 值等特征的一部分。主要发现是酸度对决定葡萄酒的质量有很大影响。此外,消费者表示,优质葡萄酒不应含有过多的残糖。这意味着非常甜的葡萄酒不是优质葡萄酒的特征。酒精含量的增加也被视为优质葡萄酒的一个特征,但不应增加到将葡萄酒归类为烈酒的程度。 从机器学习模型中,我们得到堆叠分类器和随机森林分类器比其他模型具有更高的性能。堆叠分类器是精度最高的分类器,达到 85.94%。我们可以看到,在不重新采样的情况下,准确度略有提高。因此没有 SMOTE 重采样的模型是最好的模型。可以通过使用 scikit learn 随机网格搜索调整这些模型的超参数来提高准确性 有问题可以call me
2022-02-21 09:17:46 1.71MB 数据分析 数据挖掘