自己研究学习大数据spark 整合 spring , mybati,maven写的例子,自己测试没有问题了,分享一下,有问题请拍砖。
2023-03-07 19:29:30 22.94MB spring mybatis spark mysql
1
Spark中动态分区算法的设计与实现,阎逸飞,王智立,Spark是一种被广泛使用的分布式计算框架。在分布式环境中,一个重要且常见的问题是数据倾斜。为解决Spark shuffle过程中中间数据倾斜导
2023-03-06 18:25:19 480KB 计算机系统结构
1
HDP3.1.5自定义服务Kylin4.0.1 spark3.1.1的statck包
2023-03-02 13:00:51 1.49MB ambari kylin spark
1
互联网成了海量信息的载体,目前是分析市场趋势、监视竞争对手或者获取销售线索的最佳场所,数据采集以及分析能力已成为驱动业务决策的关键技能。《计算机行业岗位招聘数据分析》旨在利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到Mysql数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。 爬取招聘网站(智联招聘)上的计算机行业数据,字段为公司招聘链接,公司名称,公司规模,公司性质,职位领域,职位名称,学历要求,职位类别,职位亮点(福利),工资水平,城市,工作经验,简历统计,公司打分,工作地址,职位要求,人员需求,公司业务范围,进行数据清洗及数据维度分析进行数据可视化。 此项目完成之后将大大节约我们查找招聘岗位的时间,它的重大意义是让我们查看工作岗位信息数据进行了数据化、规范化、自动化、可视化管理。它可以帮助我们了解行业的薪资分布、城市岗位分布、岗位要求关键字、岗位经验要求等等一系列的数据。
2023-03-01 11:36:23 3.43MB 分布式 hadoop spark Python爬虫
1
大数据Spark企业级实战版 带书签
2023-02-26 23:43:23 111.09MB Spark
1
Spark+GraphX大规模图计算和图挖掘的第一部分,,本文详细的介绍了如果用spark技术来处理graph的技术.
2023-02-22 20:22:33 37.06MB spark graphx
1
Spark Atlas连接器 用于跟踪Spark SQL / DataFrame转换并将元数据更改推送到Apache Atlas的连接器。 此连接器支持跟踪: SQL DDL,例如“创建/删除/更改数据库”,“创建/删除/更改表”。 SQL DML,例如“ CREATE TABLE tbl AS SELECT”,“ INSERT INTO ...”,“ LOAD DATA [LOCAL] INPATH”,“ INSERT OVERWRITE [LOCAL] DIRECTORY”等。 具有输入和输出的DataFrame转换 机器学习管道。 该连接器将与Hive,HDFS等其他系统关联,以跟踪Atlas中数据的生命周期。 如何建造 要使用此连接器,您将需要最新版本的Spark(Spark 2.3+),因为大多数功能仅在Spark 2.3.0+中存在。 要构建此项目,请执行: mv
2023-02-17 16:41:24 318KB apache-spark apache-atlas Scala
1
spark-sql-性能 一组针对Spark SQL的性能测试
2023-02-15 14:54:20 18KB Scala
1
1.高可靠性 2.高扩展性 3.高效性 4.高容错性 5.低成本
2023-02-11 18:41:56 2.46MB Hadoop kafka spark CDH
1
SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现了一套扩展的,为TiDB定制的SQL前端(Parser,Planner和优化器):它了解TiDB如何组织数据,并知晓如何借助TiDB本身的计算能力加速查询,而不仅仅是一个Connector。凭借SparkTI,TiDB将成为Hadoop生态的一部分,铺平了OLTP系统和离线分析集群之间的鸿沟。
2023-02-10 09:29:34 307KB spark
1