数据分析案例--红酒数据集分析 介绍: 这篇⽂章主分析了红酒的通⽤数据集,这个数据集⼀共有1600个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10)。这⾥主 要⽤python进⾏分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析数据之前,⼀定要先了解数据。 1.导⼊python中相关的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns # 颜⾊ color = sns.color_palette() # 数据print精度 pd.set_option('precision',3) 2.读取数据 注意:读取数据之前应该先看⼀下数据⽂件的格式,再进⾏读取 我们看到这个数据使⽤';'进⾏分隔的,所以我们⽤';'进⾏分隔读取 pandas.read_csv(filepath, sep=', ' ,header='infer', names=None) filepath:⽂本⽂件路径;sep:分隔符;header默认使⽤第⼀⾏作为列名,如果header=None则pandas为其分配默认的列名;也可使⽤ names传⼊列表指定列名 data=pd.read_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red.csv',sep=';') data.head() 先读取数据的前五⾏ 然后我们也可以把这个整理好的数据,再另存为csv⽂件或者excel⽂件 data.to_csv(r'H:\阿⾥云\红酒数据集分析\winequality-red2.csv') data.to_excel(r'H:\阿⾥云\红酒数据集分析\winequality-red3.xlsx') winequality-red2.csv如图: winequality-red3.xlsx如图: 这样呢,我们就保存好了⽂件。这也是整理⽂件的⼀种⽅式 3.查看数据集的数据类型和空值情况等 可以看出没有缺失值,数据整齐 4.单变量分析 #简单的数据统计 data.describe() 5.绘图 # 获取所有的⾃带样式 plt.style.available # 使⽤⾃带的样式进⾏美化 plt.style.use('ggplot') #获取所有列索引,并且转化成列表格式 colnm = data.columns.tolist() fig = plt.figure(figsize = (10, 6)) for i in range(12): #绘制成2⾏6列的图 plt.subplot(2,6,i+1) #绘制箱型图 #Y轴标题 sns.boxplot(data[colnm[i]], orient="v", width = 0.5, color = color[0]) plt.ylabel(colnm[i],fontsize = 12) #plt.subplots_adjust(left=0.2, wspace=0.8, top=0.9) plt.tight_layout() print('\nFigure 1: Univariate Boxplots') colnm = data.columns.tolist() plt.figure(figsize = (10, 8)) for i in range(12): plt.subplot(4,3,i+1) #data.hist绘制直⽅图 data[colnm[i]].hist(bins = 100, color = color[0]) plt.xlabel(colnm[i],fontsize = 12) plt.ylabel('Frequency') plt.tight_layout() print('\nFigure 2: Univariate Histograms') 品质 这个数据集的⽬的是研究红酒品质和理化性质之间的关系,品质的评价范围是0-10,这个数据集中的范围是3到8,有82%的红酒品质是5 或6 酸度相关的特征 这个数据集有7个酸度相关的特征:fixed acidity, volatile acidity, citric acid, free sulfur dioxide, total sulfur dioxide, sulphates, pH。前6个特征都与红酒的pH的相关。pH是在对数的尺度,下⾯对前6个特征取对数然后作histogram。另外,pH值主要是与fixed acidity有关fixed acidity⽐volatile acidity和citric acid⾼1到2个数量级(Fi
2023-01-12 16:16:52 789KB 文档资料
1
数据集是关于糖尿病的检测的。请各个组用今天学的方法,跑一下糖尿病的检测的数据集。分析一下8种特征,构建一个模型跑一下结果。
2022-11-12 10:18:39 1.76MB 数据分析
1
自动泊车代码Matlab 499-数据集分析 团队成员 吴文堂(ID 40028075) 郑义(ID 40028478) 拉兹万·索斯(Razvan Soos)(ID 40030524) 抽象的 此项目是的数据集分析,以JSON文件形式向公众开放。 我们将使用Apache Spark应用本课程中看到的两种技术。 结果将被讨论和解释。 Yelp数据集是业务,评论和用户数据的子集,写在yelp评论网站上,旨在用于个人或教育目的。 使用Yelp数据集的方式有多种,包括根据各种因素(如餐馆密度,评论数,评分和相对于周围餐馆的价格)预测餐馆,受欢迎程度等。 另外,yelp数据集提供了留给企业的用户信息,评论或提示,可用于研究用户与食物,饮料,菜单或餐馆的图片之间的模式(可用于图像分类)。 在此报告中,我们分析了基于yelp数据集构建的推荐系统的结果,以便向与他们评价很高的餐厅相似的用户推荐餐厅。 本报告旨在讨论我们用于处理原始yelp数据的方法以及系统的性能。 一,引言 上下文 推荐系统是一种算法,它通过查找数据集中的模式或相似性来向给定的用户提供相关信息。 该算法将对项目进行评分,并向用户显示
2022-10-09 10:39:10 10.81MB 系统开源
1
passengerid: 乘客 ID class: 舱位等级 (1 = 1st, 2 = 2nd, 3 = 3rd)** name: 乘客姓名 sex: 性别 age: 年龄 sibsp: 在船上的兄弟姐妹/配偶个数 parch: 在船上的父母/小孩个数 ticket: 船票信息 fare: 票价 cabin: 客舱 embarked: 登船港口 (C = Cherbourg, Q = Queenstown, S = Southampton) survived: 变量预测为值 0 或 1(这里 1 表示幸存,0 表示遇难)
2022-10-03 14:05:41 62KB python 机器学习 数据分析
1
该项目是大三下学期的课程设计,使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集,以Python为编程语言,使用大数据框架Spark对数据进行了预处理,然后分别从多个方面对数据进行了分类和分析,并对分析结果进行可视化。里面包含我的课程设计报告和完整的代码。希望对你们有帮助。
2022-06-24 19:07:37 3.43MB python big data spark
DFT的matlab源代码MovieLens数据集分析 马修·约翰逊(Matthew Johnson) 数据集包含4个与电影分级有关的csv文件。 我想探索: 哪些类型与评级趋势或分布最相关? 用户评分习惯(高/低方差,高/低趋势)。 与正面评分与负面评分相关的标签。 预算/工期与评分是否有任何关系? DataFrame形状:电影:(9125,3),评分:(100004,4),标签:(1296,3),链接:(9125,3) % matplotlib inline import numpy as np import matplotlib . pyplot as plt import pandas as pd import seaborn as sns movies = pd . read_csv ( 'movies.csv' ) ratings = pd . read_csv ( 'ratings.csv' ) tags = pd . read_csv ( 'tags.csv' ) movies_2 = pd . read_csv ( 'movies_exploded.csv' ) im
2022-05-20 10:56:23 2.43MB 系统开源
1
matlab中云滴代码2020 年 Kaggle 机器学习和数据科学调查 语境 这个存储库中的代码是我为了从 Kaggle 的 . 此外,为了查看原始的 Kaggle Notebook,请遵循此 。 数据预处理 调查数据具有特定的结构,可以方便地清理和更改数据框的某些属性。 一些问题: 列名很冗长,它们不是描述性的。 列名已通过将“ Part ”和“_”替换为“.”,将“OTHER”替换为“0”来更改: # Formating the columns for comfortable access column_dict = {} # Getting the dictionary needed to change the column names for col in res . columns : n_col = col . replace ( '_Part_' , '.' ) n_col = n_col . replace ( '_' , '.' ) n_col = n_col . replace ( 'OTHER' , '0' ) column_dict [ col ] = n_c
2022-05-12 15:07:29 12.42MB 系统开源
1
连续傅里叶变换matlab代码电生理学 一些用于进行电生理数据集分析的最小Matlab代码。 入门 最好的选择是看一下包含典型用例的要点: getting_started_spikes显示了一个简单的示例,该示例加载峰值数据并在PSTH上绘制。 getting_started_LFP说明了绘制时间/频率图的过程。 加载Plexon数据 为了从Plexon文件加载数据, gplx_load , gplx_events_to_fields和gplx_event_ts_byname简化并简化了该过程。 但是,它们要求在您的系统上安装Plexon(对于非Windows用户,可能需要编译)。 请注意,这些功能仅用于处理原始的PLX格式文件,而不用于处理较新的PL2格式。 样本数据 文件sample_events , sample_spikes和sample_lfp都包含用于测试和运行sample_lfp示例数据。 加工钉 通常,峰值会从文件中加载为时间戳数组。 功能eventRaster , loopyPSTH和looplessPSTH处理将这些以分级放电数,通常与选项来选择围绕一组给定事件的时
2022-02-18 21:44:24 1.54MB 系统开源
1
黑色星期五数据集分析预测
2021-12-30 11:50:46 5.37MB
1
这是包含肺腺癌单细胞数据集分析的存储库 入门 克隆 repo 从下面的链接下载 Data_input 文件夹到 repo: ://drive.google.com/drive/folders/1sDzO0WOD4rnGC7QfTKwdcQTx3L36PFwX?usp=sharing 脚本 导入和创建 Seurat 对象 01_Import_data_and_metadata.Rmd :导入原始数据和元数据。 此 scipt 的输出保存为"S01_Data_and_metadata.RData" 。 02_Create_Seurat_object.Rmd :从脚本 01 导入 .RData 对象。创建初始 Seurat 对象并执行初始质量控制。 最终输出对象保存为"S02_Main_Seurat_object_filtered.RData" 。 02.1_Create_Seurat_o
2021-12-18 23:09:30 34.59MB HTML
1