win8 上还是用32位的 cygwin吧,64位的cygwin 无法运行"ssh localhost"
2023-01-04 14:13:52 815KB cygwin hadoop windows linux
1
在Windows环境下开发spark程序,不可避免使用到部分Hadoop功能。为了避免在Windows上报错,给windows打补丁。
2023-01-04 13:25:08 626KB 大数据
1
分区Partitioner 分区操作是shuffle操作中的一个重要过程,作用就是将map的结果按照规则分发到不同reduce中进行处理,从而按照分区得到多个输出结果。 Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类HashPartitioner是mapreduce的默认partitioner。 计算方法是:which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks 注:默认情况下,reduceTask数量为1 很多时候MR自带的分区规则并不能满足我们需求,为了实
2023-01-03 20:20:54 101KB c ce do
1
Eclipse的Hadoop插件在开发hadoop应用程序中可以提供一些很方便的操作,可以直接Eclipse中浏览HDFS上的文件,可以直接新建选择MapReduce项目,项目自动包含所有需要的hadoop jar包,不必再手动拷贝。
2022-12-31 17:11:09 36.35MB hadoop eclipse 2.8.4 plugin
1
《Spark 调优攻略上册》是整合互联⽹优质的Blog与PPT形成的攻略,它主要对于企业级⼤规模数据计算引擎Spark多维度优化策略。本次整理不单单是Apache spark还涵盖了Data Lake和阿⾥云EMR智能团队研发的Jindo-Spark是如何基于Apache spark进⾏多维优化及实现原理,让读者能够知其然且知其所以然。
2022-12-31 14:23:20 25.42MB 攻略 大数据 Spark调优
1
电子商务中会产生海量的数据,蕴含着不可估量的数据价值,可通过数据分析来挖掘这些潜在价值,以提升平台的销量。本次实践项目利用 Hadoop 的分布式计算框架 MapReduce 来分析用户行为数据,计算得出商品点击排行、商品分类占比等统计指标,使得更加熟练掌握 MapReduce 程序的设计。 相关理论知识有,Map 和 Reduce 流程图如下:输入数据(INPUT)首先分割(SPLIT)成若干份,然后每份分别进行 MAP 过程;中间再经过 COMBINE 任务(可选)和 PARTTION 对 MAP 所得的结果进行聚合——把同 key 的结果放到同一组,最后再进行 REDUCE 过程。
2022-12-31 12:22:06 4.19MB 电子商务 大数据 Hadoop MapReduce
1
使用MongoDB,Hadoop大数据和Spring技术开发电子商务应用程序 该电子商务项目展示了如何使用MongoDB,Hadoop大数据和Spring技术来开发电子商务应用程序。 该应用程序包括几个基本的电子商务组件:“产品目录”组件,“库存管理”组件和“产品类别”组件。 分片的MongoDB集群为产品目录数据,产品库存数据和其他应用程序数据提供存储。 应用程序域模型基于MongoDB POJO类构建。 建立了一个包含100000多种产品的示例数据库,以支持E-Commerce应用程序。 Hadoop大数据技术用于自动发现电子商务应用程序中数据的用户见解。 Hadoop集成主要通过开发Map / Reduce作业来实现。 已开发的Map / Reduce作业在MongoDB和Ubuntu平台上运行。 Spring和Spring Boot技术用于为电子商务应用程序提供系统集成平台。
2022-12-30 21:41:09 18.64MB Java
1
Hadoop mapreduce 实现InvertedIndexer倒排索引,能用。
2022-12-30 10:34:30 7KB Hadoop mapreduce 倒排索引
1
本文SparkStream从磁盘文件、HDFS、KAFKA获取数据源,以单词频次统计作为入门案例,介绍了SparkStream模块API的使用。同时介绍了SparkStream的特点
2022-12-29 17:25:28 354KB 大数据 Spark SparkStreaming
1
预测航空公司延误 使用Hadoop通过2007年和2008年的数据预测奥黑尔机场的航班延误。使用Pig脚本,构建了一个特征矩阵,通过该矩阵我们可以训练和预测航空公司的延误,准确度约为80% 项目详情 建立了一个预测航空公司延误的模型,准确度约为80% 将航空公司数据集与UCI Repo的740万飞行记录一起使用 利用Pydoop实现MapReduce以构建特征矩阵 使用Pig脚本生成功能 使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建 技术指标 Python 2.7 Hadoop 2.7.3 Scikit学习 大熊猫 线性回
2022-12-29 17:10:00 6KB python hadoop random-forest scikit-learn
1