scala个人学习时总结的脑图
2021-10-29 18:38:11 15.47MB scala
1
简介 本项目通过淘宝用户数据集进行统计分析 使用技术 Hadoop、Hive、Spark、Hbase、python matplotlib(数据展示) 数据来源 本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔 数据量 原始csv文件2.05G 所有行为数量 100,150,807 操作流程 数据集下载 创建hive表 create table user_behaviors(userId int,itemId int,categoryId int,behaviorType string,times string) row format delimited
2021-10-28 19:40:41 473KB Scala
1
JAVA例单模式源码Neo4j Scala 包装库 Neo4j Scala 包装器库允许您通过特定领域的语言使用。 这个包装器主要基于他的项目中完成的工作。 有关通常的 Neo4j 矩阵示例,请参阅此内容 你也可能会觉得很有趣。 所有讨论(如果有)请参阅 Google Group 建造 $ git clone git://github.com/FaKod/neo4j-scala.git $ cd neo4j-scala $ mvn clean install 或者使用 Maven 获取它(仅当您想使用 SNAPSHOT 版本时才需要 Sonatype Maven Repo): < repositories > < repository > < id >sonatype-snapshots</ id > < url >https://oss.sonatype.org/content/repositories/snapshots/</ url > </ repository > ... </ repositories > < dependencies > < dependency > <
2021-10-27 22:29:50 50KB 系统开源
1
scala-2.11.12-SDK.zip
2021-10-27 18:02:00 106.29MB scala
1
业务需求:对已有交通数据进行分析建立模型,从而对未来交通堵车情况进行预测; # TrafficForecast SparkMLlib智慧交通项目 ## 项目需求 对已有交通数据进行分析建立模型,从而对未来交通堵车情况进行预测 ## 使用步骤 1. 克隆项目到本地 2. 导入项目到IDEA 3. linux中安装配置各软件 4. 阅读代码,运行项目 ## 软件版本 1. hadoop-2.6.4 2. zookeeper-3.4.5 3. kafka_2.12-0.11.0.2 4. jdk-8u181-linux-i586 5. redis-2.6.16 ## 项目思路 ### 生产者模块 - 功能:模拟生产数据,发送到kafka,kafka接收数据后打印到控制台 - 操作步骤 1. 启动zookeeper(三台机器) > [hadoop@mini1 ~]$ zkServer.sh start 2. 启动hadoop > [hadoop@mini1 ~]$ start-all.sh 3. 启动kafka(三台机器) > [hadoop@mini1 kafka_2.12-0.11.0.2]$ bin/kafka-server-start.sh config/server.properties 4. 创建topic > [hadoop@mini1 kafka_2.12-0.11.0.2]$ bin/kafka-topics.sh \ --create \ --zookeeper mini1:2181 \ --replication-factor 1 \ --partitions 1 \ --topic traffic 5. 启动consumer > [hadoop@mini1 kafka_2.12-0.11.0.2]$ bin/kafka-console-consumer.sh \ --zookeeper mini1:2181 \ --topic traffic \ --from-beginning 6. 运行程序Producer ![produce](https://github.com/linwt/TrafficForecast-SparkMLlib/blob/master/picture/produce.png) ### 消费者模块 - 功能:消费kafka数据,并将处理后的数据存储到Redis中 - 操作步骤 1. 启动Redis > 服务端:[hadoop@mini1 redis]# bin/redis-server ~/apps/redis/etc/redis.conf \ > 客户端:[hadoop@mini1 redis]# bin/redis-cli 2. 运行程序SparkConsumer 3. 查看Redis数据库 > 127.0.0.1:6379> select 1 \ > 127.0.0.1:6379[1]> keys * \ > 127.0.0.1:6379[1]> hgetall “20180823_0015” ![redis](https://github.com/linwt/TrafficForecast-SparkMLlib/blob/master/picture/redis.png) ### 数据建模模块 - 功能:读取Redis数据库数据,进行数据建模,并将模型保存到hdfs - 操作步骤 1. 运行程序Train 2. web访问hdfs,查看保存结果 > mini1:50070 ![labelPoint](https://github.com/linwt/TrafficForecast-SparkMLlib/blob/master/picture/labelPoint.png)
2021-10-27 17:02:12 668KB Scala 智慧交通 交通 hadoop
卡夫卡 Playframework - 简单的 Kafka 示例 这个例子使用 Scala 2.11.1 游戏框架 2.3.8 卡夫卡 2.11_0.8.2.1 引导程序 3.3.2 AngularJS 1.2.18 关于 应用程序的作用: 按钮 (PUT /tick) 捕获当前服务器时间戳 时间戳被格式化为一个 json 块 json 生成到 kafka 主题 json 从 kafka topic 消费,广播到 iteratee chanel UI 显示来自 kafka 主题 (GET /feed/tick) 的消费时间戳的提要 截屏 卡夫卡设置 此应用程序依赖于 kafka 的运行实例 服务器设置和主题名称从 application.conf 中提取 您可以使用您选择的任何 Kafka 服务器设置。 最简单的方法是遵循 bin/zookeeper-server-start
2021-10-26 18:46:26 1.15MB Scala
1
项目背景 公司核心的实时业务用的是spark streaming2.3.0+kafka1.3的流式技术来开发的。在这里我把它做成了一个骨架项目并开源出来,希望后来的朋友可以借阅和参考,尽量少走些弯路。 下面是使用过程中记录的一些心得和博客,感兴趣的朋友可以了解下: 项目简介 该项目提供了一个在使用spark streaming2.3+kafka1.3的版本集成时,手动存储偏移量到zookeeper中,因为自带的checkpoint弊端太多,不利于项目升级发布,并修复了一些遇到的bug,例子中的代码已经在我们生产环境运行,所以大家可以参考一下。 主要功能 提供了快速使用 spark streaming + kafka 开发流式程序的骨架,示例中的代码大部分都加上了详细的注释 提供了手动管理kafka的offset存储到zookeeper的方法,并解决了一些bug,如kafka扩容分区,重启实
2021-10-26 17:13:10 14KB Scala
1
notepad++对于scala语言的支持
2021-10-26 17:03:03 21KB scala
1
flink安装包
2021-10-25 21:05:14 290.5MB flink
1
spark所需要的scalajar包依赖
2021-10-25 18:13:28 148.3MB 111
1