人工智能大作业二手房房产市场分析项目源码+文档资料.zip数据收集、说明及处理
(1)数据源选择
通过在网上对几个主流的房产信息网站的二手房价格的比较(如图),
安居客二手房房价信息
房天下二手房房价信息
链家二手房房价信息
可以看到,其实各个房产网站展示的二手房的房价信息差别不大,另外根据百度上查到链家网的房价与实际的房价差距较小,所以就把链家网的房价数据作为数据源,以供爬虫爬取信息。
本文采用上海市二手房作为数据集的主要原因在于:目前上海市的新房房源数量较少。链家网上上海市的新房房源信息只有约400套,数据集过小,不适合进行训练和挖掘,所以选择了二手房信息作为数据集进行训练与挖掘。在链家网上,上海二手房数据有几万套,可以进行数据挖掘从而得到有用的信息。
(2)数据说明
(3)数据收集
使用爬虫从链家网上爬取房价信息的数据,爬虫使用python编写,并存入mongoDB数据库,以备之后的训练,共计爬取二手房房源37460条。(爬虫代码见附录,画红线的为爬取的二手房房源的总计,详细数据可见电子版的人工智能大作业二手房房产市场分析项目源码+资料.zip