数据分析案例--红酒数据集分析 介绍: 这篇⽂章主分析了红酒的通⽤数据集,这个数据集⼀共有1600个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10)。这⾥主 要⽤python进⾏分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析数据之前,⼀定要先了解数据。 1.导⼊python中相关的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns # 颜⾊ color = sns.color_palette() # 数据print精度 pd.set_option('precision',3) 2.读取数据 注意:读取数据之前应该先看⼀下数据⽂件的格式,再进⾏读取 我们看到这个数据使⽤';'进⾏分隔的,所以我们⽤';'进⾏分隔读取 pandas.read_csv(filepath, sep=', ' ,header='infer', names=None) filepath:⽂本⽂件路径;sep:分隔符;header默认使⽤第⼀⾏作为列名,如果header=None则pandas为其分配默认的列名;也可使⽤ names传⼊列表指定列名 data=pd.read_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red.csv',sep=';') data.head() 先读取数据的前五⾏ 然后我们也可以把这个整理好的数据,再另存为csv⽂件或者excel⽂件 data.to_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red2.csv') data.to_excel(r'H:\阿⾥云\红酒数据集分析\winequality-red3.xlsx') winequality-red2.csv如图: winequality-red3.xlsx如图: 这样呢,我们就保存好了⽂件。这也是整理⽂件的⼀种⽅式 3.查看数据集的数据类型和空值情况等 可以看出没有缺失值,数据整齐 4.单变量分析 #简单的数据统计 data.describe() 5.绘图 # 获取所有的⾃带样式 plt.style.available # 使⽤⾃带的样式进⾏美化 plt.style.use('ggplot') #获取所有列索引,并且转化成列表格式 colnm = data.columns.tolist() fig = plt.figure(figsize = (10, 6)) for i in range(12): #绘制成2⾏6列的图 plt.subplot(2,6,i+1) #绘制箱型图 #Y轴标题 sns.boxplot(data[colnm[i]], orient="v", width = 0.5, color = color[0]) plt.ylabel(colnm[i],fontsize = 12) #plt.subplots_adjust(left=0.2, wspace=0.8, top=0.9) plt.tight_layout() print('\nFigure 1: Univariate Boxplots') colnm = data.columns.tolist() plt.figure(figsize = (10, 8)) for i in range(12): plt.subplot(4,3,i+1) #data.hist绘制直⽅图 data[colnm[i]].hist(bins = 100, color = color[0]) plt.xlabel(colnm[i],fontsize = 12) plt.ylabel('Frequency') plt.tight_layout() print('\nFigure 2: Univariate Histograms') 品质 这个数据集的⽬的是研究红酒品质和理化性质之间的关系,品质的评价范围是0-10,这个数据集中的范围是3到8,有82%的红酒品质是5 或6 酸度相关的特征 这个数据集有7个酸度相关的特征:fixed acidity, volatile acidity, citric acid, free sulfur dioxide, total sulfur dioxide, sulphates, pH。前6个特征都与红酒的pH的相关。pH是在对数的尺度,下⾯对前6个特征取对数然后作histogram。另外,pH值主要是与fixed acidity有关fixed acidity⽐volatile acidity和citric acid⾼1到2个数量级(Fi
2023-01-12 16:16:52 789KB 文档资料
1
数据分析大作业-红酒数据集的分析
2022-12-15 14:42:01 202KB 数据分析
1
红色时尚大气红酒企业网站html5模板_红色 时尚 大气 红酒 精品 企业 html5 css3 精致 水墨风格 幻灯 整站 商城 购物.rar
2022-11-26 19:22:30 2.31MB html5
红酒海报设计PSD免费海报适用于红酒海报设计
2022-11-25 14:49:59 30.97MB 红酒海报 葡萄酒 红酒
1
计算机辅助工业设计
2022-11-18 19:17:15 3.01MB 计算机 工业设计
文件包含一个数据集(csv文件)和一个可执行代码(py文件),是对红酒数据集的分类训练与测试。可作为人工智能、机器学习初学者的学习资料。 模型训练基于逻辑回归算法,数据集和测试集按照8:2的比例进行划分。 数据集前11列为红酒的属性,最后一列是红酒的分类标签,此处红酒总共有六类(标签分别为3、4、5、6、7、8),每一行为一个红酒样本。通过对机器学习分类模型输入特征值,得出此红酒的种类。 需要Python版本3.8及以上;需要引入第三方库pandas和sklearn。
1
模式识别高分课设,使用Matlab搭建神经网络和KNN分类,实现对Wine红酒数据集的分类,并且进行参数对比分析,还包含对比效果图和代码流程图,可直接用在报告中。
2022-07-25 13:05:29 160KB 模式识别 matlab
1
红酒商城网站建设方案书word格式
2022-07-09 09:10:02 76KB 文档资料
高端品牌红酒酒业类网站模板(带手机端).rar
2022-05-09 19:11:40 22.87MB html5
红酒电商平台产品需求原型,Axure源文件版本,首页,分类,发现,购物车,我的。供参考和学习使用。
2022-05-03 14:06:45 1.55MB axure 分类 文档资料 数据挖掘