互联网成了海量信息的载体,目前是分析市场趋势、监视竞争对手或者获取销售线索的最佳场所,数据采集以及分析能力已成为驱动业务决策的关键技能。《计算机行业岗位招聘数据分析》旨在利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到Mysql数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。 爬取招聘网站(智联招聘)上的计算机行业数据,字段为公司招聘链接,公司名称,公司规模,公司性质,职位领域,职位名称,学历要求,职位类别,职位亮点(福利),工资水平,城市,工作经验,简历统计,公司打分,工作地址,职位要求,人员需求,公司业务范围,进行数据清洗及数据维度分析进行数据可视化。 此项目完成之后将大大节约我们查找招聘岗位的时间,它的重大意义是让我们查看工作岗位信息数据进行了数据化、规范化、自动化、可视化管理。它可以帮助我们了解行业的薪资分布、城市岗位分布、岗位要求关键字、岗位经验要求等等一系列的数据。
2023-03-01 11:36:23 3.43MB 分布式 hadoop spark Python爬虫
1
confluent kafka 这个库使用不复杂,前期没有选择这个开发库的主要原因,是它的依赖比较多,前期一直跑不起来,在经过多方找寻后,终于跑通 了,开发库已经上传,大家可以在这个地址下载。除了依赖库,还提供了监测工具,以及一份说明文档,整个demo跑起来的必备一些软件包等。demo使用confluent kafka版本0.11.4
2023-02-28 15:47:00 70.71MB kafka confluent kafka c#
1
大数据Spark企业级实战版 带书签
2023-02-26 23:43:23 111.09MB Spark
1
Spark+GraphX大规模图计算和图挖掘的第一部分,,本文详细的介绍了如果用spark技术来处理graph的技术.
2023-02-22 20:22:33 37.06MB spark graphx
1
cmdline-jmxclient-0.10.3.jar和KafkaOffsetMonitor-assembly-0.2.0 .jar
2023-02-20 21:12:39 48.77MB jmx  kafka
1
Spark Atlas连接器 用于跟踪Spark SQL / DataFrame转换并将元数据更改推送到Apache Atlas的连接器。 此连接器支持跟踪: SQL DDL,例如“创建/删除/更改数据库”,“创建/删除/更改表”。 SQL DML,例如“ CREATE TABLE tbl AS SELECT”,“ INSERT INTO ...”,“ LOAD DATA [LOCAL] INPATH”,“ INSERT OVERWRITE [LOCAL] DIRECTORY”等。 具有输入和输出的DataFrame转换 机器学习管道。 该连接器将与Hive,HDFS等其他系统关联,以跟踪Atlas中数据的生命周期。 如何建造 要使用此连接器,您将需要最新版本的Spark(Spark 2.3+),因为大多数功能仅在Spark 2.3.0+中存在。 要构建此项目,请执行: mv
2023-02-17 16:41:24 318KB apache-spark apache-atlas Scala
1
本书是以kafka 0.10版本来进行分析的,带目录,可编辑的pdf,介绍超详细
2023-02-15 22:14:58 110.76MB Kafka 0.10
1
tsdb InfluxDB数据库Java客户端 介绍 代理网关influxdb-proxy 使用influxdb-java客户端连接InfluxDB数据库。 数据处理data-handling 连接kafka服务器从其中获取数据,处理数据之后调用代理网关influxdb-proxy将数据插入数据库。 查询代理query 预处理查询语句,过滤危险查询代码,调用查询InfluxDB数据库。 公用模块common 变量、常量、异常、接口和工具类。 注册中心ra 代理网关influxdb-proxy中的接口由其他模块公用,使用SpringCloud微服务方式提供接口,可以将项目拓展为集群式高可用的服务。 项目编译运行 项目技术栈 Maven + (Spring Boot 1.5.12 + kafka + Jedis + Redis + Influxdb-java) 构建 本项目使用Maven来进行
2023-02-15 17:22:43 107KB Java
1
spark-sql-性能 一组针对Spark SQL的性能测试
2023-02-15 14:54:20 18KB Scala
1
1.高可靠性 2.高扩展性 3.高效性 4.高容错性 5.低成本
2023-02-11 18:41:56 2.46MB Hadoop kafka spark CDH
1