Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法。 Scrapy的Item Pipeline(项目管道)是用于处理数据的组件。 当Spider将收集到的数据封装为Item后,将会被传递到Item Pipeline(项目管道)组件中等待进一步处理。Scrapy犹如一个爬虫流水线,Item Pipeline是流水线的最后一道工序,但它是可选的,默认关闭,使用时需要将它激活。如果需要,可以定义多个Item Pipeline组件,数据会依次访问每个组件,执行相应的数据处理功
2021-11-23 18:49:29 2.16MB c cra em
1
通过爬虫获取的链家网东莞二手房2020.04.07数据,其中包含14个字段,分别area 、title、community、position、tax、total_price、unit_price、hourseType、hourseSize、direction、fitment、floor、built_time、type等字段
2021-11-12 09:31:44 2.84MB 链接网 东莞
1
双 0.8 中 每个经纪 人 sasl.login.refresh.windo w.jitter 相对于凭证生命周期中添加到登录刷新线程的休眠时间的最大随机抖动 量。合法值介于 0和 0.25(25%)之间;如果未指定值,则使用默认值 0.05 (5%)。目前仅适用于 OAUTHBEARER。 双 0.05 中 每个经纪 人 sasl.mechanism.inter.bro ker.protocol SASL 机制用于代理间通信。默认为 GSSAPI。 串 GSSAPI 中 每个经纪 人 sasl.server.callback.han dler.class 实现AuthenticateCallbackHandler接口的SASL服务器回调处理程序类的 标准名称。服务器回调处理程序必须以小写的前缀和侦听器前缀和 SASL 机 制名称作为前缀。例如, listener.name.sasl_ssl.plain.sasl.server.callback.handler.class = com.example.CustomPlainCallbackHandler。 类 空值 中 只读 security.inter.broker.pr otocol 用于在代理之间进行通信的安全协议。有效值包括:PLAINTEXT,SSL, SASL_PLAINTEXT,SASL_SSL。同时设置 this 和 inter.broker.listener.name 属性是错误的。 串 纯文本 中 只读 ssl.cipher.suites 密码套件列表。这是用于使用 TLS 或 SSL 网络协议协商网络连接的安全设 置的身份验证,加密,MAC 和密钥交换算法的命名组合。默认情况下,支持 所有可用的密码套件。 名单 “” 中 每个经纪 人 ssl.client.auth 配置 kafka 代理以请求客户端身份验证。以下设置很常见:  ssl.client.auth=required如果设置为所需的客户端身份验证。  ssl.client.auth=requested这意味着客户端验证是可选的。与请求不同, 如果设置了此选项,则客户端可以选择不提供有关自身的身份验证信息  ssl.client.auth=none这意味着不需要客户端身份验证。 串 没有 [必填,要求,无] 中 每个经纪 人 ssl.enabled.protocols 为 SSL 连接启用的协议列表。 名单 TLSv1. 2 工作, TLSv1. 1,使用 TLSv1 中 每个经纪 人 ssl.key.password 密钥库文件中私钥的密码。这对于客户来说是可选的。 密码 空值 中 每个经纪 人 ssl.keymanager.algorithm 密钥管理器工厂用于 SSL 连接的算法。默认值是为 Java 虚拟机配置的密钥 管理器工厂算法。 串 SunX50 9 中 每个经纪 人 ssl.keystore.location 密钥库文件的位置。这对于客户端是可选的,可用于客户端的双向身份验 证。 串 空值 中 每个经纪 人 ssl.keystore.password 密钥库文件的商店密码。这对于客户端是可选的,仅在配置了 ssl.keystore.location 时才需要。 密码 空值 中 每个经纪 人 ssl.keystore.type 密钥库文件的文件格式。这对于客户来说是可选的。 串 JKS 中 每个经纪 人 ssl.protocol 用于生成 SSLContext 的 SSL 协议。默认设置为 TLS,在大多数情况下都可 以。最近的 JVM 中的允许值是 TLS,TLSv1.1 和 TLSv1.2。较旧的 JVM 可能 支持 SSL,SSLv2 和 SSLv3,但由于已知的安全漏洞,不鼓励使用它们。 串 TLS 中 每个经纪 人 ssl.provider 用于 SSL 连接的安全提供程序的名称。默认值是 JVM 的默认安全提供程序。串 空值 中 每个经纪 人 ssl.trustmanager.algorit hm 信任管理器工厂用于 SSL 连接的算法。默认值是为 Java 虚拟机配置的信任 管理器工厂算法。 串 PKIX 中 每个经纪 人 ssl.truststore.location 信任库文件的位置。 串 空值 中 每个经纪 人 ssl.truststore.password 信任库文件的密码。如果未设置密码,则仍可访问信任库,但禁用完整性 检查。 密码 空值 中 每个经纪 人 ssl.truststore.type 信任库文件的文件格式。 串 JKS 中 每个经纪 人 alter.config.policy.clas s.name alter configs 应该用于验证
2021-11-07 18:36:32 1.65MB kafka
1
北京朝阳区二手房成交数据,可以简单进行数据分析
2021-10-30 00:20:26 573KB 北京 二手房数据
1
Price-prediction-and-recommendation-of-second-hand-housing-in-Shanghai Price prediction and recommendation of second-hand housing in Shanghai(上海地区二手房价格预测及推荐) 先上系统运行的截图: 1、本系统为本人读研数据课课程project。 2、本系统主要功能:爬取链家上海地区二手房信息,使用postgresql的机器学习库MADlib,采用KNN算法对用户输入的需求信息预测房价及推荐五个相似房源。 3、开发环境:centos7 64位、PostgreSQL9.5、MadLib1.13、pgAdmin4.2、Python2.7(web部分)、python3.6(数据爬取及处理部分) 本系统web显示界面在好友蒋雯协助下完成,其他工作由我完成。 da
2021-10-28 20:47:43 3.58MB Python
1
主要实现分地区链家二手房信息爬取功能,更直观详细、全面且实时的展示数据,并且提供二手房信息下载功能,数据将以excel形式下载。
2021-10-26 10:21:51 390KB python pyqt5 链家二手房 excel
1
锐理2021年6月重庆中心城区二手房市场研究报告202107-16页.pdf
2021-10-25 11:01:27 1.53MB 交通
通过对阿里司法拍卖数据收集及整理,借助银行资源,找到0首付房源,房源数据截止2021年10月20日
2021-10-23 09:03:00 52KB python 法拍房 司法拍卖 二手房
1
计划买房子,看中法拍房,所以在阿里司法上抓取部分数据供研究,用于后续成交价预测,数据时间范围:2020年6月1日-2021年5月31日,共8088条记录
2021-10-14 17:10:06 1.47MB 法拍房 二手房 阿里司法 房地产
1
随着经济的发展,北、上、广、深这四大都市迅速发展,在经济、政治等方面有突出的表现,而且工作机会多,生活质量较高,是大多数人所向往的地方。但是要在这些城市定居是一件不容易的事情,这样来说购买二手房是一个可以选择的方案,说到这我们一定会想了解这些地区的房源大概情况。所以本项目是对深圳链家二手房房源进行的分析,希望可以帮助部分人解决购房问题,从多维度出发分析,帮助买家拿定主意,实现合理的购房。 (一)分析结果 房源数量最多的区有龙岗区、罗湖区、福田区、南山区,在这四个区中南山区宝安区、福田区的总价比较高都在700百万以上。 对于想选择好地段、价钱差不多就行的人,推荐选择宝安中心的房源。因为宝安中心价格在排名前十的地段中位于第5,说明地段不错,房价在前十中不算很高,值得推荐。 小区的选择可以参照二手房均价(总价)排名前十的小区,进行选择。房屋朝向推荐朝南,朝东南的方向。 对于普通大众,房屋朝向,装修可供选择的种类还是挺多的。
2021-10-14 14:04:43 2.06MB 数据分析