在学习了基础知识之后,感觉缺少点东西作为练习。这个可以作为一种考虑。
2022-12-19 17:03:29 114.49MB spark 实战
1
在windows11平台,基于hadoop3.3.4源码包编译,按需自取
2022-12-19 14:24:39 1.26MB hadoop winutils windows 编译
1
spark程序读取excel文件时必须要使用的所需jar包
2022-12-18 18:24:24 6.01MB spark excel
1
Learning-Spark-Lightning-Fast-Data-Analysis 高清版 pdf 电子书 带目录
2022-12-18 18:00:15 7.16MB Analysis Spark Data-
1
搭建环境:VMware 12、Centos7、Hadoop2.7.4 内容:亲自测试hadoop的搭建,当然出现的一些问题的解决方案也放在上面了
2022-12-18 11:24:13 537KB hadoop
1
数据载体 DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0许可提供您的贡献。 为什么要使用DataVec? 数据处理有时会很混乱,我们认为它应该与高性能代数库(例如nd4j或Deeplearning4j)区分开。 DataVec使从业人员可以获取原始数据并快速生成符合开放标准的矢量化数据(svmLight等)。 开箱即用支持的当前输入数据类型: CSV数据 原始文本数据(推文,文本文档等) 图片资料 支持库 SVMLight MatLab(MAT)格式 JSON,XML,YAML,XML Datavec从许多Hadoop生态系统工具中汲取了灵感,尤其是通过Hadoop API访问磁盘上的数据(就像S
2022-12-17 18:04:45 24.28MB machine-learning formatter schema spark
1
通过研究各种决策树分类算法的并行方案后,并行设计C4.5算法。同时根据Hadoop云平台的MapReduce编程模型,详细描述C4.5并行算法在MapReduce编程模型下的实现及其执行流程。最后,对输入的海量文本数据进行分类,验证了算法的高效性和扩展性。
2022-12-16 17:20:38 279KB 云计算
1
hadoop-2.8.1一键搭建脚本和配置文件说明,快速搭建出分布式集群
2022-12-16 10:59:26 9KB Hadoop-2.8.1
1
使用 SparkSQL 导入、分区和查询 AIS 数据 这个基于的项目由多个容器组成,用于实现数据的导入、分区和查询。 解析原始 CSV AIS 数据,并根据广播时间戳,将记录以hdfs:///yyyy/mm/dd/ais.csv的形式放入多个路径中,其中yyyy为年份, mm为月和dd是日。 HDFS 由它自己的 docker 容器提供服务。 外部表映射到这些 HDFS 路径上,以便可以使用查询 AIS 记录。 后者使用在同一个 HDFS 容器中执行,并作为公开。 Hive 位于数据库中,并从其自己的容器中提供服务。 临时导入过程在另一个容器中执行,该容器从映射到主机文件系统的卷中读取数据。 记录根据其数据/时间字段进行解析和分区,并使用多输出写入器写入 HDFS。 最后, 用于使用 Hive Server 2 节俭协议通过查询和呈现数据。 我在 Mac 上使用来启动这个项目。 提示
2022-12-15 19:30:13 22.2MB Python
1
没什么好介绍的
2022-12-15 17:02:49 138.06MB linux
1