搜索【spark 】的结果

spark-hive-udf:Spark Hive UDF示例

Spark Hive UDF示例建立项目 mvn clean package 将spark-hive-udf-1.0.0-SNAPSHOT.jar复制到边缘节点临时目录 spark-hive-udf]# cp target/spark-hive-udf-1.0.0-SNAPSHOT.jar /tmp 通过提供罐子来启动火花壳 spark-shell --master yarn --jars /tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar 创建名称为大写的函数并列出该函数 spark.sql("CREATE OR REPLACE FUNCTION uppercase AS 'com.ranga.spark.hive.udf.UpperCaseUDF' USING JAR '/tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar'") sp

2022-03-30 20:00:16 5KB Java

1

javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目

java sql笔试题示例 Hive UDF 项目介绍该项目只是一个示例，包含多个 (UDF)，用于 Apache Spark。它旨在演示如何在 Scala 或 Java 中构建 Hive UDF 并在 . 为什么要使用 Hive UDF？ Hive UDF 的一个特别好的用途是与 Python 和 DataFrames 一起使用。用 Python 编写的原生 Spark UDF 很慢，因为它们必须在 Python 进程中执行，而不是基于 JVM 的 Spark Executor。要让 Spark Executor 运行 Python UDF，它必须：将数据从分区发送到与 Executor 关联的 Python 进程，以及等待 Python 进程反序列化数据，在其上运行 UDF，重新序列化数据，然后将其发回。相比之下，一个 Hive UDF，无论是用 Scala 还是 Java 编写的，都可以在 Executor JVM 中执行，即使 DataFrame 逻辑是在 Python 中。实际上只有一个缺点：必须通过 SQL 调用 Hive UDF。您不能将其作为来自 D

2022-03-30 19:58:46 1.01MB 系统开源

1

集群环境搭建-Centos+kafka+zookeeper+hadoop+Spark

通过VirtualBox安装多台虚拟机，实现集群环境搭建。优势：一台电脑即可。应用场景：测试，学习。注意事项：请严格按照文档操作，作者已经按照文档操作实现环境搭建。内附百度网盘下载地址，有hadoop+zookeeper+spark+kafka等等·····需要的安装包和配置文件

2022-03-30 14:41:24 66B hadoop kafka zookeeper spark

1

MovieRecommender:基于Spark实现协同过滤推荐算法的电影推荐系统

异火团队 Scrum开发第一周ing ...

2022-03-30 14:12:46 217.48MB 系统开源

1

Spark集群及开发环境搭建（完整版）

Spark集群及开发环境搭建，适合初学者，一步一步并配有截图。目录一、软件及下载 2 二、集群环境信息 2 三、机器安装 2 1. 安装虚拟机VirtualBox 2 2. 安装CentOs7 2 四、基础环境搭建（hadoop用户下） 6 1. 机器名HostName 6 2. 关闭防火墙 6 3. 系统更新及常用工具安装 7 4. IP配置 8 5. JDK安装 8 五、 Hadoop安装及配置 9 1. 安装 9 2. 配置 10 六、机器集群搭建 12 1. 复制机器 13 2. 设置静态IP 13 3. 设置机器名hostname 14 4. ssh免密登录 14 5. hadoop集群测试 16 七、 Spark & Scala 集群安装 18 1. scala安装 18 2. spark安装 19 3. 测试spark集群 20 八、 Scala开发 20 1、插件下载 20 2、插件安装 21 3、scala开发 22 4、程序执行 22

2022-03-29 11:19:56 841KB spark hadoop 大数据 集群

1

ML与Spark MLlib.pdf

ML与Spark MLlib最佳实践，来自于阿里云得最佳实践操作......

2022-03-28 11:39:35 2.79MB spark

1

spark官方文档中文版

Spark Streaming编程指南中文PDF版,Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和kinesis的数据，也可以通过高阶函数map, reduce, join, window等复杂算法计算出数据

2022-03-27 20:39:45 1.97MB 参考手册

1

Spark：用Scala和Java实现WordCount

为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文末的参考资料。用Scala和Java实现WordCount，其中Java实现的JavaWordCount是spark自带的例子（$SPARK_HOME/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java）OS:RedHatEnterpriseLinuxServerrelease6.4(Santiago)Hadoop:Hadoop2.4.1JDK:1.

2022-03-27 16:28:50 239KB Spark：用Scala和Java实现WordCount

1

Word2VecSparkTraining:使用 Apache Spark 训练和使用 Word2Vec 向量的简单项目

为 Apache Spark 训练的 Word2Vec 使用 UMBC Webbase 语料库 [1] 作为训练数据，基于 Apache Spark 实用程序训练 Word2Vec 100 维单词相似度向量的简单项目。目前存在 3 种大小的向量： XS：在 10% 的网络语料库上训练 S : 在 25% 的网络语料库上训练 M：在 50% 的 webbase 语料库上训练所使用的预处理可以分为两个不同的组。对于这两个组，webbase 语料库的一段被视为单个文档 Unstemed 标记化预处理：简单地使用斯坦福核心 NLP 标记器 [2] 来标记给定的文本词干标记化处理：使用与上述相同的标记化。但是使用在 apache lucene 中实现的 porter stemmer 来阻止令牌 [3] 此外，还集成了余弦相似度方法以计算两个给定词向量之间的相似度。用法参见用法部分

2022-03-25 16:44:27 2.93MB Scala

1

美团用户行为分析系统.zip

提供JAVA和Scala两种实现，里面有详细操作步骤和注释美团真实业务完整源码实现:https://tech.meituan.com/2016/03/31/spark-in-meituan.html 美团的交互式用户行为分析系统，用于提供对海量的流量数据进行交互式分析的功能，系统的主要用户为公司内部的PM和运营人员。普通的BI类报表系统，只能够提供对聚合后的指标进行查询，比如PV、UV等相关指标。

2022-03-25 09:23:43 10.72MB 美团 大数据 spark 用户行为分析

1

个人信息

热门下载

最新下载

其他资源