数据分析项⽬之:链家⼆⼿房数据分析 数据分析项⽬之:链家⼆⼿房数据分析 项⽬分享⽬的:在学习完Numpy,Pandas,matplotlib后,熟练运⽤它们的最好⽅法就是实践并总结。在下⾯的分享中,我会将每⼀步进⾏ 分析与代码展⽰,        希望能对⼤家有所帮助。 项⽬名称:链家⼆⼿房数据分析 项⽬概述:本项⽬主要利⽤上⾯提到的三个⼯具进⾏数据的处理,从不同的维度对北京各区⼆⼿房市场情况进⾏可视化分析,为后续      数据挖掘建模预测房价打好基础。 分析步骤:⼯具库导⼊--->数据加载--->数据清洗--->数据可视化分析 导包 导包 # 数据分析三剑客 import numpy as np import seaborn as sns import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt sns.set_style({'font.sans-serif':['simhei','Arial']}) %matplotlib inline # 设置忽略警告 import warnings warnings.filterwarnings('ignore') # 设置全局字体 plt.rcParams['font.sans-serif'] = 'Songti SC' plt.rcParams['axes.unicode_minus'] = False 数据载⼊ 数据载⼊ lj_data = pd.read_csv('./lianjia.csv') display(lj_data.head(),lj_data.shape) 查看数据概况 查看数据概况 display(lj_data.info(),lj_data.describe()) ''' 通过观察: 1. Elevator列存在严重的数据缺失情况 2. Size列最⼩值为2平⽶,最⼤值为1019平⽶,跟据常识,初步判断为异常值 ''' 添加新属性房屋均价( 添加新属性房屋均价(PerPrice) ),并且重新排列列位置 并且重新排列列位置 ''' 观察发现: 1. ID属性对于本次分析没有什么意义,所以可以将其移除; 2. 由于房屋单价分析起来⽐较⽅便,简单使⽤总价/⾯积即可得到,所以增加⼀列PerPrice(只⽤于分析,不是预测特征); 3. 原数据属性的顺序⽐较杂乱,所以可以调整⼀下。 ''' # 添加 PerPrice(单位均价) 列 df = lj_data.copy() df['PerPrice'] = (lj_data['Price']/lj_data['Size']).round(2) # 重新摆放列位置 columns = ['Region','District','Garden','Layout','Floor','Year','Size','Elevator', 'Direction','Renovation','PerPrice','Price'] df = pd.DataFrame(df,columns = columns) # 重新查看数据集 df.head(3) 数据可视化分析 数据可视化分析 1. Region特征分析 特征分析 对于区域特征,我们可以分析不同区域房价和数量的对⽐ 对于区域特征,我们可以分析不同区域房价和数量的对⽐ # 对⼆⼿房区域分组,对⽐⼆⼿房数量和每平⽶房价 df_house_count = df.groupby('Region')['Price'].count().sort_values(ascending = False).to_frame().reset_index() df_house_mean = df.groupby('Region')['PerPrice'].mean().sort_values(ascending = False).to_frame().reset_index() # display(df_house_count.head(2),df_house_mean.head(2)) 绘图 绘图 1 # 创建⼦视图对象 2 f,[ax1,ax2,ax3] = plt.subplots(3,1,figsize = (20,18)) 3 4 # 设置绘图参数 5 sns.barplot(x='Region',y='PerPrice',palette='Blues_d',data=df_house_mean,ax=ax1) 6 ax1.set_title('北京各区⼆⼿房单位平⽶价格对⽐',fontsize=15) 7 ax1.set_xlabel('区域') 8 ax1.set_ylabe
2023-02-23 19:25:29 180KB 文档资料
1
一、实战场景 二、知识点 python 基础语法 python 文件读写 pandas 数据处理 flask web 框架 echarts 图表 jinja 模版 三、菜鸟实战 初始化 Flask 框架,设置路由 各行政区房屋均价柱状图分析 echarts 渲染柱状图 各面积区间房屋占比饼状图 echarts 渲染饼状图 运行结果 运行截图 数据示例
1
一、实战场景 二、知识点 python 基础语法 python 文件读写 pandas 数据处理 flask web 框架 echarts 图表 bootstrap jinja 模版 三、菜鸟实战 初始化 Flask 框架,设置路由 各行政区房屋数量柱状图分析 区域二手房房源朝向分布情况 二手房单价最高Top10 图 echarts 渲染房屋数量柱状图 运行结果 运行截图 数据示例
1
一、实战场景 Python 如何实现采集二手房列表信息并存储文件 二、知识点 • python 基础语法 • python 文件读写 • BeautifulSoup 网页解析 • requests 发送网络请求 • tqdm 进度条
2023-02-07 18:09:36 28KB python 数据采集 python文件操作 pandas
1
北京二手房分析-数据分析. 共3个文件,2个csv数据源,1个ipynb 建议用jupyter notebook打开ipynb文件进行学习 手把手教pandas读取数据、预处理数据、业务分析数据并进行绘图、数据筛选,过程写了详细的注释,保证新手小白也能看懂。 适合人群:pandas入门者,略有编程基础即可 建议有了基本的pandas基础的同学可用此作为实践项目练手。
2022-12-31 17:03:08 1.13MB 数据分析 pandas python matplotlib
1
二手房数据元数据文件供下载学习
2022-12-30 18:57:27 1.2MB 数据
1
使用python爬虫,爬取安居客网站新盘和二手房商品信息,并按类别,地区存储在文件夹中。从主网站一直到房产详细页面爬取信息。
2022-12-23 00:31:57 3KB python爬虫 爬虫爬取安居客
1
人工智能大作业二手房房产市场分析项目源码+文档资料.zip数据收集、说明及处理 (1)数据源选择 通过在网上对几个主流的房产信息网站的二手房价格的比较(如图), 安居客二手房房价信息 房天下二手房房价信息 链家二手房房价信息 可以看到,其实各个房产网站展示的二手房的房价信息差别不大,另外根据百度上查到链家网的房价与实际的房价差距较小,所以就把链家网的房价数据作为数据源,以供爬虫爬取信息。 本文采用上海市二手房作为数据集的主要原因在于:目前上海市的新房房源数量较少。链家网上上海市的新房房源信息只有约400套,数据集过小,不适合进行训练和挖掘,所以选择了二手房信息作为数据集进行训练与挖掘。在链家网上,上海二手房数据有几万套,可以进行数据挖掘从而得到有用的信息。 (2)数据说明 (3)数据收集 使用爬虫从链家网上爬取房价信息的数据,爬虫使用python编写,并存入mongoDB数据库,以备之后的训练,共计爬取二手房房源37460条。(爬虫代码见附录,画红线的为爬取的二手房房源的总计,详细数据可见电子版的人工智能大作业二手房房产市场分析项目源码+资料.zip
第九章 广州二手房数据爬取与数据分析及可视化 (上课的).ipynb
2022-12-14 16:19:01 395KB
1
中图网爬取的二手房数据——NoSQL综合项目数据集,对HBase、Redis、MongoDB、Neo4j等NoSQL数据库进行增删改查操作,并对MongoDB进行基本的统计分析。
2022-12-08 13:15:54 1024KB NoSQL 书籍数据
1