Spark中动态分区算法的设计与实现,阎逸飞,王智立,Spark是一种被广泛使用的分布式计算框架。在分布式环境中,一个重要且常见的问题是数据倾斜。为解决Spark shuffle过程中中间数据倾斜导
2023-03-06 18:25:19 480KB 计算机系统结构
1
随着Internet技术的迅速发展,网络舆情监控系统正在得到广泛应用。网络舆情监控系统的数据量也急速膨胀,如何高效地存储和管理这些海量的非结构或半结构化数据成为网络舆情系统研发中的挑战课题。传统的关系数据库和分布式计算等数据处理的方式也越来越不能适应日益增长网络大数据。针对微博数据的特点建立了一种面向微博舆情应用的Hadoop存储平台的多层体系架构,并采用列数据库设计多种微博结构化数据的表结构,以及表之间的关系模型。测试结果表明,设计的存储管理平台具有检索响应速度快、可扩展性好等特点。
2023-03-06 13:41:00 504KB 舆情分析
1
内有安装包 apache-maven-3.6.1-bin.tar.gz eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz hadoop-2.7.7.tar.gz jdk-8u271-linux-x64.tar.gz repository.tar.gz
2023-03-03 15:55:58 696.11MB hadoop eclipse maven jdk
1
HDP3.1.5自定义服务Kylin4.0.1 spark3.1.1的statck包
2023-03-02 13:00:51 1.49MB ambari kylin spark
1
互联网成了海量信息的载体,目前是分析市场趋势、监视竞争对手或者获取销售线索的最佳场所,数据采集以及分析能力已成为驱动业务决策的关键技能。《计算机行业岗位招聘数据分析》旨在利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到Mysql数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。 爬取招聘网站(智联招聘)上的计算机行业数据,字段为公司招聘链接,公司名称,公司规模,公司性质,职位领域,职位名称,学历要求,职位类别,职位亮点(福利),工资水平,城市,工作经验,简历统计,公司打分,工作地址,职位要求,人员需求,公司业务范围,进行数据清洗及数据维度分析进行数据可视化。 此项目完成之后将大大节约我们查找招聘岗位的时间,它的重大意义是让我们查看工作岗位信息数据进行了数据化、规范化、自动化、可视化管理。它可以帮助我们了解行业的薪资分布、城市岗位分布、岗位要求关键字、岗位经验要求等等一系列的数据。
2023-03-01 11:36:23 3.43MB 分布式 hadoop spark Python爬虫
1
Hadoop hbase hive sqoop集群环境安装配置及使用文档
2023-03-01 11:02:31 133KB 大数据集群 hadoop hbase hive
1
基于云平台Hadoop的中医数据挖掘系统设计与实现.pdf
2023-02-28 21:58:34 1.63MB
1
1、创建一个文本文件main.html,用记事本打开 2、使用table完成布局和表格部分设计,网页宽度设计为1170px; 3、复制文本,使用等标记定义文本格式 4、复制网页链接地址 5、复制网页图片 hadoop.apache.org/releases.html
2023-02-28 18:47:49 36KB 前端 html
1
大数据Spark企业级实战版 带书签
2023-02-26 23:43:23 111.09MB Spark
1
xxxx: Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /usr/local/hadoop-2.4.0/lib/native/libhadoop.so which might have disabled stack guard. The VM will try to fix the stack guard now. xxxx: It's highly recommended that you fix the library with 'execstack -c ', or link it with '-z noexecstack'.
2023-02-25 00:09:42 2.41MB hadoop native
1