数据分析案例--红酒数据集分析 介绍: 这篇⽂章主分析了红酒的通⽤数据集,这个数据集⼀共有1600个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10)。这⾥主 要⽤python进⾏分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析数据之前,⼀定要先了解数据。 1.导⼊python中相关的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns # 颜⾊ color = sns.color_palette() # 数据print精度 pd.set_option('precision',3) 2.读取数据 注意:读取数据之前应该先看⼀下数据⽂件的格式,再进⾏读取 我们看到这个数据使⽤';'进⾏分隔的,所以我们⽤';'进⾏分隔读取 pandas.read_csv(filepath, sep=', ' ,header='infer', names=None) filepath:⽂本⽂件路径;sep:分隔符;header默认使⽤第⼀⾏作为列名,如果header=None则pandas为其分配默认的列名;也可使⽤ names传⼊列表指定列名 data=pd.read_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red.csv',sep=';') data.head() 先读取数据的前五⾏ 然后我们也可以把这个整理好的数据,再另存为csv⽂件或者excel⽂件 data.to_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red2.csv') data.to_excel(r'H:\阿⾥云\红酒数据集分析\winequality-red3.xlsx') winequality-red2.csv如图: winequality-red3.xlsx如图: 这样呢,我们就保存好了⽂件。这也是整理⽂件的⼀种⽅式 3.查看数据集的数据类型和空值情况等 可以看出没有缺失值,数据整齐 4.单变量分析 #简单的数据统计 data.describe() 5.绘图 # 获取所有的⾃带样式 plt.style.available # 使⽤⾃带的样式进⾏美化 plt.style.use('ggplot') #获取所有列索引,并且转化成列表格式 colnm = data.columns.tolist() fig = plt.figure(figsize = (10, 6)) for i in range(12): #绘制成2⾏6列的图 plt.subplot(2,6,i+1) #绘制箱型图 #Y轴标题 sns.boxplot(data[colnm[i]], orient="v", width = 0.5, color = color[0]) plt.ylabel(colnm[i],fontsize = 12) #plt.subplots_adjust(left=0.2, wspace=0.8, top=0.9) plt.tight_layout() print('\nFigure 1: Univariate Boxplots') colnm = data.columns.tolist() plt.figure(figsize = (10, 8)) for i in range(12): plt.subplot(4,3,i+1) #data.hist绘制直⽅图 data[colnm[i]].hist(bins = 100, color = color[0]) plt.xlabel(colnm[i],fontsize = 12) plt.ylabel('Frequency') plt.tight_layout() print('\nFigure 2: Univariate Histograms') 品质 这个数据集的⽬的是研究红酒品质和理化性质之间的关系,品质的评价范围是0-10,这个数据集中的范围是3到8,有82%的红酒品质是5 或6 酸度相关的特征 这个数据集有7个酸度相关的特征:fixed acidity, volatile acidity, citric acid, free sulfur dioxide, total sulfur dioxide, sulphates, pH。前6个特征都与红酒的pH的相关。pH是在对数的尺度,下⾯对前6个特征取对数然后作histogram。另外,pH值主要是与fixed acidity有关fixed acidity⽐volatile acidity和citric acid⾼1到2个数量级(Fi
2023-01-12 16:16:52 789KB 文档资料
1
数据分析大作业-红酒数据集的分析
2022-12-15 14:42:01 202KB 数据分析
1
文件包含一个数据集(csv文件)和一个可执行代码(py文件),是对红酒数据集的分类训练与测试。可作为人工智能、机器学习初学者的学习资料。 模型训练基于逻辑回归算法,数据集和测试集按照8:2的比例进行划分。 数据集前11列为红酒的属性,最后一列是红酒的分类标签,此处红酒总共有六类(标签分别为3、4、5、6、7、8),每一行为一个红酒样本。通过对机器学习分类模型输入特征值,得出此红酒的种类。 需要Python版本3.8及以上;需要引入第三方库pandas和sklearn。
1
模式识别高分课设,使用Matlab搭建神经网络和KNN分类,实现对Wine红酒数据集的分类,并且进行参数对比分析,还包含对比效果图和代码流程图,可直接用在报告中。
2022-07-25 13:05:29 160KB 模式识别 matlab
1
华师统计与机器学习_红酒数据集 sample_output.csv Wine_test.csv Wine_train.csv
2021-12-16 11:35:08 89KB 数据集
1
随机森林基础——load_wine红酒数据集.ipynb
2021-12-12 21:00:12 66KB python
1
决策树基础———wine红酒数据集实列.ipynb
2021-12-07 18:00:17 123KB python
1
红酒数据集winequality-red 这个数据集有1599个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10) 数据集基本情况探索: fixed acidity 非挥发性酸 volatile acidity 挥发性酸 citric acid 柠檬酸 residual sugar 剩余糖分 chlorides 氯化物 free sulfur dioxide 游离二氧化硫 total sulfur dioxide 总二氧化硫 density 密度 pH 酸碱性 sulphates 硫酸盐 alcohol 酒精 quality 质量
2021-09-24 14:02:29 26KB 红酒数据集
这个数据集有1599个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10) 数据集基本情况探索: fixed acidity 非挥发性酸 volatile acidity 挥发性酸 citric acid 柠檬酸 residual sugar 剩余糖分 chlorides 氯化物 free sulfur dioxide 游离二氧化硫 total sulfur dioxide 总二氧化硫 density 密度 pH 酸碱性 sulphates 硫酸盐 alcohol 酒精 quality 质量
1
暂无描述
2021-07-11 11:21:39 23KB 数据集
1