数据分析项⽬之:链家⼆⼿房数据分析 数据分析项⽬之:链家⼆⼿房数据分析 项⽬分享⽬的:在学习完Numpy,Pandas,matplotlib后,熟练运⽤它们的最好⽅法就是实践并总结。在下⾯的分享中,我会将每⼀步进⾏ 分析与代码展⽰,        希望能对⼤家有所帮助。 项⽬名称:链家⼆⼿房数据分析 项⽬概述:本项⽬主要利⽤上⾯提到的三个⼯具进⾏数据的处理,从不同的维度对北京各区⼆⼿房市场情况进⾏可视化分析,为后续      数据挖掘建模预测房价打好基础。 分析步骤:⼯具库导⼊--->数据加载--->数据清洗--->数据可视化分析 导包 导包 # 数据分析三剑客 import numpy as np import seaborn as sns import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt sns.set_style({'font.sans-serif':['simhei','Arial']}) %matplotlib inline # 设置忽略警告 import warnings warnings.filterwarnings('ignore') # 设置全局字体 plt.rcParams['font.sans-serif'] = 'Songti SC' plt.rcParams['axes.unicode_minus'] = False 数据载⼊ 数据载⼊ lj_data = pd.read_csv('./lianjia.csv') display(lj_data.head(),lj_data.shape) 查看数据概况 查看数据概况 display(lj_data.info(),lj_data.describe()) ''' 通过观察: 1. Elevator列存在严重的数据缺失情况 2. Size列最⼩值为2平⽶,最⼤值为1019平⽶,跟据常识,初步判断为异常值 ''' 添加新属性房屋均价( 添加新属性房屋均价(PerPrice) ),并且重新排列列位置 并且重新排列列位置 ''' 观察发现: 1. ID属性对于本次分析没有什么意义,所以可以将其移除; 2. 由于房屋单价分析起来⽐较⽅便,简单使⽤总价/⾯积即可得到,所以增加⼀列PerPrice(只⽤于分析,不是预测特征); 3. 原数据属性的顺序⽐较杂乱,所以可以调整⼀下。 ''' # 添加 PerPrice(单位均价) 列 df = lj_data.copy() df['PerPrice'] = (lj_data['Price']/lj_data['Size']).round(2) # 重新摆放列位置 columns = ['Region','District','Garden','Layout','Floor','Year','Size','Elevator', 'Direction','Renovation','PerPrice','Price'] df = pd.DataFrame(df,columns = columns) # 重新查看数据集 df.head(3) 数据可视化分析 数据可视化分析 1. Region特征分析 特征分析 对于区域特征,我们可以分析不同区域房价和数量的对⽐ 对于区域特征,我们可以分析不同区域房价和数量的对⽐ # 对⼆⼿房区域分组,对⽐⼆⼿房数量和每平⽶房价 df_house_count = df.groupby('Region')['Price'].count().sort_values(ascending = False).to_frame().reset_index() df_house_mean = df.groupby('Region')['PerPrice'].mean().sort_values(ascending = False).to_frame().reset_index() # display(df_house_count.head(2),df_house_mean.head(2)) 绘图 绘图 1 # 创建⼦视图对象 2 f,[ax1,ax2,ax3] = plt.subplots(3,1,figsize = (20,18)) 3 4 # 设置绘图参数 5 sns.barplot(x='Region',y='PerPrice',palette='Blues_d',data=df_house_mean,ax=ax1) 6 ax1.set_title('北京各区⼆⼿房单位平⽶价格对⽐',fontsize=15) 7 ax1.set_xlabel('区域') 8 ax1.set_ylabe
2023-02-23 19:25:29 180KB 文档资料
1
SPSS(Statistical Product Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X,Linux/Ubuntu版本。 SPSS软件主要应用于问卷调查、医药、人文社科类统计分析领域。各种统计检验分析等都可直接出结果。 开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全 SPSS数据分析Linux/Ubuntu安装文件,命令安装方便快捷
2023-02-23 19:06:38 694.05MB SPSS Linux 数据分析 ubuntu
1
一、研究背景与目的 二、实习招聘信息数据的获取与说明 三、LDA 主题模型提取技能要求 四、LDA 主题模型量化技能要求
2023-02-23 17:44:40 1.46MB 数据分析
1
Python数据可视化-seaborn Seaborn属于Matplotlib的一个高级接口,为我们进行数据的可视化分析提供了极大的方便。 依赖程序及库一览 - Python 2.7+ or Python 3 - Pandas - Matplotlib - Seaborn - Jupyter Notebook(可选)
2023-02-23 17:09:42 198KB python seaborn 数据分析 数据可视化
1
《数据分析之道 用数据思维指导业务实战》读书笔记;主要包含以下内容 数据思维: 1.什么是数据思维; 2.为什么数据思维如此重要; 3.数据思维如何培养; 数据指标体系: 1.数据埋点; 2.数据标签体系; 3.数据指标体系。
1
The dataset contains Number of Air passengers of each month from the year 1949 to 1960. We can use this data to forecast the future values and help the business. https://www.kaggle.com/datasets/abhishekmamidi/air-passengers
2023-02-22 16:38:13 27.66MB python
1
6000条企业倒闭数据分析
2023-02-22 13:17:44 636KB
1
上面的代码执行以下操作:从Excel文件加载数据并将其保存在变量data中。分别使用平均值、中位数、std和var函数计算数据的平均值、中位数、标准偏差和方差。使用直方图函数绘制数据的直方图,该函数显示数据的分布。使用偏度和峰度函数计算数据的偏度和峰度。这两个值描述了数据分布的形状。使用disp函数将结果打印到命令窗口。对各部分结果的解释如下:均值:这是数据的平均值。它表示数据的集中趋势。中位数:当数据按升序或降序排序时,数据的中间值。它是集中趋势的稳健度量,不受异常值的影响。标准偏差:这是对数据分布的衡量。它表示数据值与平均值之间的距离。标准差越小,数据就越紧密地聚集在平均值附近。方差:这是标准偏差的平方。它给出了数据值与平均值之差的平方的平均值。偏度:这是对数据分布的不对称性的度量。正偏度表示分布尾部在正侧较长,而负偏度表示分布尾部在负侧较长。峰度:这是数据分布峰度的度量。峰度高的分布具有较多的峰值。
2023-02-21 20:07:49 990B Matlab 数据分析 代码
1
本课程是NumPy数据分析课程,课程从NumPy环境搭建讲起,到最后股票分析项目结束,全程实战讲解了NumPy数据分析的方方面面,内容涵盖:NumPy数组创建、NumPy数组操作、NumPy广播、NumPy字符串、NumPy统计函数、排序、矩阵和股票分析项目。
2023-02-21 19:41:17 16KB 数据分析 numpy Python 编程语言
1
目前,许多城市都推出了租赁自行车,以提高出行舒适度。重要的是,在适当的时间向公众提供租赁自行车,因为它缩短了等待时间。最终,为城市提供稳定的租赁自行车供应成为一个主要问题。关键部分是预测每小时所需的自行车数量,以稳定租赁自行车的供应。 The dataset contains weather information (Temperature, Humidity, Windspeed, Visibility, Dewpoint, Solar radiation, Snowfall, Rainfall), the number of bikes rented per hour and date information. Attribute Information: - Date : year-month-day - Rented Bike count - Count of bikes rented at each hour - Hour - Hour of he day - Temperature-Temperature in Celsius - Humidity - % - Wind
2023-02-21 12:53:33 725KB python
1