数据分析案例--红数据集分析 介绍: 这篇⽂章主分析了红的通⽤数据集,这个数据集⼀共有1600个样本,11个红的理化性质,以及红的品质(评分从0到10)。这⾥主 要⽤python进⾏分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析数据之前,⼀定要先了解数据。 1.导⼊python中相关的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns # 颜⾊ color = sns.color_palette() # 数据print精度 pd.set_option('precision',3) 2.读取数据 注意:读取数据之前应该先看⼀下数据⽂件的格式,再进⾏读取 我们看到这个数据使⽤';'进⾏分隔的,所以我们⽤';'进⾏分隔读取 pandas.read_csv(filepath, sep=', ' ,header='infer', names=None) filepath:⽂本⽂件路径;sep:分隔符;header默认使⽤第⼀⾏作为列名,如果header=None则pandas为其分配默认的列名;也可使⽤ names传⼊列表指定列名 data=pd.read_csv(r'H:\阿⾥云\红数据集分析\winequality-red.csv',sep=';') data.head() 先读取数据的前五⾏ 然后我们也可以把这个整理好的数据,再另存为csv⽂件或者excel⽂件 data.to_csv(r'H:\阿⾥云\红数据集分析\winequality-red2.csv') data.to_excel(r'H:\阿⾥云\红数据集分析\winequality-red3.xlsx') winequality-red2.csv如图: winequality-red3.xlsx如图: 这样呢,我们就保存好了⽂件。这也是整理⽂件的⼀种⽅式 3.查看数据集的数据类型和空值情况等 可以看出没有缺失值,数据整齐 4.单变量分析 #简单的数据统计 data.describe() 5.绘图 # 获取所有的⾃带样式 plt.style.available # 使⽤⾃带的样式进⾏美化 plt.style.use('ggplot') #获取所有列索引,并且转化成列表格式 colnm = data.columns.tolist() fig = plt.figure(figsize = (10, 6)) for i in range(12): #绘制成2⾏6列的图 plt.subplot(2,6,i+1) #绘制箱型图 #Y轴标题 sns.boxplot(data[colnm[i]], orient="v", width = 0.5, color = color[0]) plt.ylabel(colnm[i],fontsize = 12) #plt.subplots_adjust(left=0.2, wspace=0.8, top=0.9) plt.tight_layout() print('\nFigure 1: Univariate Boxplots') colnm = data.columns.tolist() plt.figure(figsize = (10, 8)) for i in range(12): plt.subplot(4,3,i+1) #data.hist绘制直⽅图 data[colnm[i]].hist(bins = 100, color = color[0]) plt.xlabel(colnm[i],fontsize = 12) plt.ylabel('Frequency') plt.tight_layout() print('\nFigure 2: Univariate Histograms') 品质 这个数据集的⽬的是研究红品质和理化性质之间的关系,品质的评价范围是0-10,这个数据集中的范围是3到8,有82%的红品质是5 或6 酸度相关的特征 这个数据集有7个酸度相关的特征:fixed acidity, volatile acidity, citric acid, free sulfur dioxide, total sulfur dioxide, sulphates, pH。前6个特征都与红的pH的相关。pH是在对数的尺度,下⾯对前6个特征取对数然后作histogram。另外,pH值主要是与fixed acidity有关fixed acidity⽐volatile acidity和citric acid⾼1到2个数量级(Fi
2023-01-12 16:16:52 789KB 文档资料
1
机运行状态(Html模板、大数据模板、大屏echarts模板).zip
2022-12-29 11:20:51 4.44MB
2022最新桌小游戏喝小程序源码_带流量主 喝神器3.6,我修改增加了广告位,根据文档直接替换即可,原版本没有广告位 直接上传源码到开发者端即可 通过后改广告代码,然后关闭广告展示提交,通过后打开即可
2022-12-26 17:23:12 3.8MB 源码
数据分析大作业-红数据集的分析
2022-12-15 14:42:01 202KB 数据分析
1
2022最新桌小游戏喝小程序源码_带流量主 喝神器3.6,我修改增加了广告位,根据文档直接替换即可,原版本没有广告位 直接上传源码到开发者端即可 通过后改广告代码,然后关闭广告展示提交,通过后打开即可
2022-12-08 11:22:49 3.93MB 小程序 小程序源码
1
仁怀酱宝:类商城模板(微信小程序源码)
2022-11-26 20:21:59 372KB 小程序
1
红色时尚大气红企业网站html5模板_红色 时尚 大气 红 精品 企业 html5 css3 精致 水墨风格 幻灯 整站 商城 购物.rar
2022-11-26 19:22:30 2.31MB html5
海报设计PSD免费海报适用于红海报设计
2022-11-25 14:49:59 30.97MB 红酒海报 葡萄酒 红酒
1
计算机辅助工业设计
2022-11-18 19:17:15 3.01MB 计算机 工业设计
具体的介绍和截图看这里: https://blog.csdn.net/qq_36303853/article/details/127646962
2022-11-02 14:09:53 1.31MB 游戏 小程序 源码 流量主
1