数据分析案例--红酒数据集分析.pdf

上传者: 43934844 | 上传时间: 2023-01-12 16:16:52 | 文件大小: 789KB | 文件类型: PDF
数据分析案例--红酒数据集分析 介绍: 这篇⽂章主分析了红酒的通⽤数据集,这个数据集⼀共有1600个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10)。这⾥主 要⽤python进⾏分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析数据之前,⼀定要先了解数据。 1.导⼊python中相关的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns # 颜⾊ color = sns.color_palette() # 数据print精度 pd.set_option('precision',3) 2.读取数据 注意:读取数据之前应该先看⼀下数据⽂件的格式,再进⾏读取 我们看到这个数据使⽤';'进⾏分隔的,所以我们⽤';'进⾏分隔读取 pandas.read_csv(filepath, sep=', ' ,header='infer', names=None) filepath:⽂本⽂件路径;sep:分隔符;header默认使⽤第⼀⾏作为列名,如果header=None则pandas为其分配默认的列名;也可使⽤ names传⼊列表指定列名 data=pd.read_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red.csv',sep=';') data.head() 先读取数据的前五⾏ 然后我们也可以把这个整理好的数据,再另存为csv⽂件或者excel⽂件 data.to_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red2.csv') data.to_excel(r'H:\阿⾥云\红酒数据集分析\winequality-red3.xlsx') winequality-red2.csv如图: winequality-red3.xlsx如图: 这样呢,我们就保存好了⽂件。这也是整理⽂件的⼀种⽅式 3.查看数据集的数据类型和空值情况等 可以看出没有缺失值,数据整齐 4.单变量分析 #简单的数据统计 data.describe() 5.绘图 # 获取所有的⾃带样式 plt.style.available # 使⽤⾃带的样式进⾏美化 plt.style.use('ggplot') #获取所有列索引,并且转化成列表格式 colnm = data.columns.tolist() fig = plt.figure(figsize = (10, 6)) for i in range(12): #绘制成2⾏6列的图 plt.subplot(2,6,i+1) #绘制箱型图 #Y轴标题 sns.boxplot(data[colnm[i]], orient="v", width = 0.5, color = color[0]) plt.ylabel(colnm[i],fontsize = 12) #plt.subplots_adjust(left=0.2, wspace=0.8, top=0.9) plt.tight_layout() print('\nFigure 1: Univariate Boxplots') colnm = data.columns.tolist() plt.figure(figsize = (10, 8)) for i in range(12): plt.subplot(4,3,i+1) #data.hist绘制直⽅图 data[colnm[i]].hist(bins = 100, color = color[0]) plt.xlabel(colnm[i],fontsize = 12) plt.ylabel('Frequency') plt.tight_layout() print('\nFigure 2: Univariate Histograms') 品质 这个数据集的⽬的是研究红酒品质和理化性质之间的关系,品质的评价范围是0-10,这个数据集中的范围是3到8,有82%的红酒品质是5 或6 酸度相关的特征 这个数据集有7个酸度相关的特征:fixed acidity, volatile acidity, citric acid, free sulfur dioxide, total sulfur dioxide, sulphates, pH。前6个特征都与红酒的pH的相关。pH是在对数的尺度,下⾯对前6个特征取对数然后作histogram。另外,pH值主要是与fixed acidity有关fixed acidity⽐volatile acidity和citric acid⾼1到2个数量级(Fi

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明