Spark Hive UDF示例 建立项目 mvn clean package 将spark-hive-udf-1.0.0-SNAPSHOT.jar复制到边缘节点临时目录 spark-hive-udf]# cp target/spark-hive-udf-1.0.0-SNAPSHOT.jar /tmp 通过提供罐子来启动火花壳 spark-shell --master yarn --jars /tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar 创建名称为大写的函数并列出该函数 spark.sql("CREATE OR REPLACE FUNCTION uppercase AS 'com.ranga.spark.hive.udf.UpperCaseUDF' USING JAR '/tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar'") sp
2022-03-30 20:00:16 5KB Java
1
java sql笔试题示例 Hive UDF 项目 介绍 该项目只是一个示例,包含多个 (UDF),用于 Apache Spark。 它旨在演示如何在 Scala 或 Java 中构建 Hive UDF 并在 . 为什么要使用 Hive UDF? Hive UDF 的一个特别好的用途是与 Python 和 DataFrames 一起使用。 用 Python 编写的原生 Spark UDF 很慢,因为它们必须在 Python 进程中执行,而不是基于 JVM 的 Spark Executor。 要让 Spark Executor 运行 Python UDF,它必须: 将数据从分区发送到与 Executor 关联的 Python 进程,以及 等待 Python 进程反序列化数据,在其上运行 UDF,重新序列化数据,然后将其发回。 相比之下,一个 Hive UDF,无论是用 Scala 还是 Java 编写的,都可以在 Executor JVM 中执行,即使 DataFrame 逻辑是在 Python 中。 实际上只有一个缺点:必须通过 SQL 调用 Hive UDF。 您不能将其作为来自 D
2022-03-30 19:58:46 1.01MB 系统开源
1
通过VirtualBox安装多台虚拟机,实现集群环境搭建。 优势:一台电脑即可。 应用场景:测试,学习。 注意事项:请严格按照文档操作,作者已经按照文档操作实现环境搭建。 内附百度网盘下载地址,有hadoop+zookeeper+spark+kafka等等·····需要的安装包和配置文件
2022-03-30 14:41:24 66B hadoop kafka zookeeper spark
1
异火团队 Scrum开发第一周ing ...
2022-03-30 14:12:46 217.48MB 系统开源
1
Spark集群及开发环境搭建,适合初学者,一步一步并配有截图。 目录 一、 软件及下载 2 二、 集群环境信息 2 三、 机器安装 2 1. 安装虚拟机VirtualBox 2 2. 安装CentOs7 2 四、 基础环境搭建(hadoop用户下) 6 1. 机器名HostName 6 2. 关闭防火墙 6 3. 系统更新及常用工具安装 7 4. IP配置 8 5. JDK安装 8 五、 Hadoop安装及配置 9 1. 安装 9 2. 配置 10 六、 机器集群搭建 12 1. 复制机器 13 2. 设置静态IP 13 3. 设置机器名hostname 14 4. ssh免密登录 14 5. hadoop集群测试 16 七、 Spark & Scala 集群安装 18 1. scala安装 18 2. spark安装 19 3. 测试spark集群 20 八、 Scala开发 20 1、插件下载 20 2、插件安装 21 3、scala开发 22 4、程序执行 22
2022-03-29 11:19:56 841KB spark hadoop 大数据 集群
1
ML与Spark MLlib最佳实践,来自于阿里云得最佳实践操作......
2022-03-28 11:39:35 2.79MB spark
1
Spark Streaming编程指南 中文PDF版,Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和kinesis的数据,也可以通过高阶函数map, reduce, join, window等复杂算法计算出数据
2022-03-27 20:39:45 1.97MB 参考手册
1
为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWordCount是spark自带的例子($SPARK_HOME/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java)OS:RedHatEnterpriseLinuxServerrelease6.4(Santiago)Hadoop:Hadoop2.4.1JDK:1.
2022-03-27 16:28:50 239KB Spark:用Scala和Java实现WordCount
1
为 Apache Spark 训练的 Word2Vec 使用 UMBC Webbase 语料库 [1] 作为训练数据,基于 Apache Spark 实用程序训练 Word2Vec 100 维单词相似度向量的简单项目。 目前存在 3 种大小的向量: XS:在 10% 的网络语料库上训练 S : 在 25% 的网络语料库上训练 M:在 50% 的 webbase 语料库上训练 所使用的预处理可以分为两个不同的组。 对于这两个组,webbase 语料库的一段被视为单个文档 Unstemed 标记化预处理:简单地使用斯坦福核心 NLP 标记器 [2] 来标记给定的文本 词干标记化处理:使用与上述相同的标记化。 但是使用在 apache lucene 中实现的 porter stemmer 来阻止令牌 [3] 此外,还集成了余弦相似度方法以计算两个给定词向量之间的相似度。 用法参见用法部分
2022-03-25 16:44:27 2.93MB Scala
1
提供JAVA和Scala两种实现,里面有详细操作步骤和注释 美团真实业务完整源码实现:https://tech.meituan.com/2016/03/31/spark-in-meituan.html 美团的交互式用户行为分析系统,用于提供对海量的流量数据进行交互式分析的功能,系统的主要用户为公司内部的PM和运营人员。普通的BI类报表系统,只能够提供对聚合后的指标进行查询,比如PV、UV等相关指标。
2022-03-25 09:23:43 10.72MB 美团 大数据 spark 用户行为分析
1