链家二手房爬虫工具 本工具分为爬虫端与客户端,爬虫端用于爬取链家页面二手房数据并存储于数据库,客户端用于分析展示数据库数据。 实现功能 爬虫端(Python) 二手登山爬取,可指定城市,地区,户型以及价格范围。 每日数据存储,数据库为sqlite3,数据库文件为./lianjia.db 已售的记录记录,当某套房源不再能被抓取取到时,转换套房源从交换表迁移到售出表,保留售出前历史数据。 客户端(Nodejs) 数据可视化展示,使用电子实现跨平台,展示内容包括包括id,小区,户型,面积,朝向,偏移,年份,建筑类型,总价,单价。出。 历史价格展示,预先设定的预期高度后可进入历史价格页面,展示每次抓取获取到的价格,逐步价格的变化用箭头标出。 卖出上市展示,展示已售出上市及售出日期(最后一次抓取日期) 目录结构 . ├── README.md ├── config │   └── config.js
2023-11-13 15:09:46 4.95MB
1
house_spider Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis 简介 - 基于Java8 +、开源爬虫框架WebMagic、Springboot的一个链家爬虫,上手即用,可以指定需要爬取的城市名称、或者爬取全国。 - 数据存Mysql,默认根据搜索城市+日期自动建表,如搜索“南京”,则会通过JDBC新建表:“南京_20191127” - 没有用WebMagic的Pipeline来存DB,而是直接用JDBC存的,默认爬虫线程数为1,每翻页1页批量插入Mysql。 - 由于链家限制爬取页数为100页,所以一个城市下,先查出所有行政区,再遍历行政区下的所有街道,以每个街道为单位,进行最大100页的爬取,这样基本上能爬下城市的所有房源数据。(部分别墅、车位直接忽略没存DB) 使用 基础依赖:安装mysq
2022-05-28 23:58:23 80KB Java
1
在链家网站的已成交数据中按照广州各区进行房源信息的爬取,包括小区名、成交日期、区名、成交价格、楼型、装修风格等信息,并包含数据的部分(对数据的列进行的分隔和单位的去除)预处理和数值化过程。
2022-02-19 19:56:55 4KB 爬虫 lianjia 房源信息 按区域
1
利用爬虫工具爬起了链家网2020年1月8号基本上全网的数据(共8万多条),CSV文件格式,并进行了简单的数据清洗,去除了一些重复值和异常值,可由Python进行分析
2022-02-07 09:15:23 8.51MB Python数据分析 链家网全网数据
1
LIANJIA-data-analysis 链家广州二手房爬虫-数据分析-可视化 使用requests + pandas进行数据获取 分析各区房价情况(平均值-最大值) 分析房价总价分布情况 分析房间类型受关注情况 分析朝向单价影响程度 分析标签词云 分析二手房频次地理热力图
2021-12-24 16:22:01 1.49MB python pandas requests pyecharts
1
链家网房产数据爬虫与数据分析和可视化 房子虽然买不起,但是看看应该可以,没事的时候打开看看,好好搬砖,为国接盘。 主要技术为 django + vue +mysql + requests 搬砖快乐 Stargazers over time
2021-12-06 22:49:28 166KB python Python
1
目标:爬取链家官方网站新房的数据(3-5页即可,太多可能被封禁ip) 网址:https://bj.fang.lianjia.com/loupan/ 要求:将楼盘名称、价格、平米数等(可以拓展)数据保存到一个json文件中。 交付:整个project的压缩包(rar或zip格式)。压缩包名要求为 "ID-作业序号"! 我的答案
2021-05-12 12:36:36 18.93MB 学堂在线 爬取链家官方网站新房 python
1
通过编写python脚本(爬虫)从二手房交易数据网站上获取北京二手房数据集。该资源主要是介绍一个北京二手房数据分析的项目,目的是熟悉python数据分析的及可视化的一些常用方法。
2021-04-13 13:45:41 2.12MB 数据分析 Python 数据可视化
1