hadoop+spark分布式集群搭建及spark程序示例,例子程序为用二项逻辑斯蒂回归进行二分类分析和一个简单的求平均的程序,两种不同的运行方式
2021-11-30 18:37:32 767KB hadoop spark 大数据
1
刺激FP增长 #史卡拉·兰格恩(Scala Languange)的#Wirte
2021-11-30 17:41:27 3KB Scala
1
聚类分析常用算法FP-Growth的spark实现算法,
2021-11-30 17:37:49 740KB FP-Growth spark
1
Kafka属于Apache组织,是一个高性能跨语言分布式发布订阅消息队列系统[7]。本课程是精短视频教程,从初步认识,用户日志上报实时统计与分析,消息处理与集群维护、消费者与生产者实例(Python和java)、源码剖析。
2021-11-30 11:51:51 64B kafka java python
1
dmp大数据平台设计方案
2021-11-30 04:55:43 1.56MB dmp 用户画像 大数据方案 spark
1
基于Spark mlib 的垃圾邮件分类 实现文档 使用Scala实现
2021-11-29 18:18:37 283KB bayes
1
公安和情报部门作为维稳和维护社会治安的重要部门,多年积累建设了多个不 同类型数据库,存储了海量数据信息,但是由于大部分为传统关系型数据库,性能 被约束,无法发挥这些数据的价值。其缺点主要体现在:情报信息来源的分散化和 滞后性、维稳信息归档能力薄弱、数据查询和呈现的自动化/可视化程度不高、专属 业务模型应用数量少且数据的关联性没有得到利用等方面。如何挖掘这些海量数据 的关联关系,筛查重点人员并分析其人员关系网络,成为了公安机关急需解决的问 题。本文针对这方面的需求,设计了一个大数据人员信息管理系统,采用 HDFS 分 布式文件存储系统搭配 mysql 关系型数据库存储数据,应用 spark 分布式文件计算 引擎来进行数据分析和处理,再搭配 web 前端技术和 EChart 数据可视化等技术,设 计出可拓展性强、数据处理速度高效快速、实用性强、操作简单的人员信息管理系 统,为公安和情报部门者提供人员信息查询、人员信息数据可视化、人员信息数据 预测等功能,可用于公安侦查、治安管理、刑侦立案等工作。目前该系统已经在深 圳市某公安部门投入使用并取得了很好的效果
2021-11-29 17:41:56 5.23MB 大数据 spark
1
使用Ambari整合的各大数据组件版本(hadoop,spark,hbase,phoenix)等
2021-11-29 17:33:10 7KB Ambari 的pom.xml
1
DBSCAN分布式 DBSCAN集群算法的Scala + Spark实现 编译软件 下载和环境设置 首先在本地克隆存储库 git clone https://github.com/AlecioP/DBSCAN-distributed 然后移至本地存储库 cd DBSCAN-distributed 为了构建可以在EMR集群上远程执行的jar文件,我们使用包管理器(类似于MAVEN的JAVA和SCALA的包管理器) 要安装sbt,您必须已安装 ,请运行: MACOS brew install openjdk 如果您没有安装 /bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) " UBUNTU sudo apt-get install ope
2021-11-29 16:59:21 2.43MB Scala
1
使用Spark的GraphX库和GraphFrames创建图形 使用Spark GraphX( ),GraphFrames( )和D3( )库的教程在Spark中创建,分析和可视化图形。 tutorial.ipynb :Jupyter笔记本教程 d3.html :D3生成的图形视图 中等的
2021-11-29 14:01:45 1.42MB python spark graphx graphframes
1