上传者: 27595745
|
上传时间: 2022-05-17 22:35:47
|
文件大小: 1.77MB
|
文件类型: PDF
摘 要
随着社会经济的快速发展,城镇化的加速建设,房地产交易越来越火,尤其二手房交易市场居高不下,互联网涌现大批网上二手房交易网站,但是由于提供的房源质量参差不齐,对于个人用户的需求不够精确,无法做到房源精准投放,因此需要实现二手房房源推荐系统来解决用户需求,而房源推荐系统的实现首要就是需要获得足够多的房源信息,所以本毕设通过实现二手房数据爬取系统来爬取房源数据,为房源推荐系统提供数据支持。
本系统使用多线程多端爬虫的优势,设计一个基于Redis的分布式主题爬虫。本系统采用Scrapy爬虫框架来开发,使用Xpath网页提取技术对下载网页进行内容解析,使用Redis做分布式,使用MongoDB对提取的数据进行存储,使用Django开发可视化界面对爬取的结果进行友好展示,设计并实现了针对链家网二手房数据的分布式爬虫系统。
经过开发验证,本系统可以完成对链家二手房房源数据的分布式爬取,可以为房源推荐系统提供数据支持,也可以为数据分析师提供二手房数据分析的数据源。
关键词:二手房:分布式爬虫:Scrapy:可视化