随着大数据技术的发展,各大中型企业陆续建立起自己的大数据平台,依托大数据平台的海量数据存储处理能力和数据分析能力,研发各种大数据应用,但大数据平台与传统信息系统有着较大差异,需要对以往的运维体系进行调整,才能更好的适应大数据平台的运维需求.本文分析大数据平台运维体系工作,对比与传统信息系统的运维差异,关注大数据平台运维管理中的重点,为运维团队构建提出建议
2024-05-28 14:32:19 41KB hadoop 运维 实施规范 大数据平台
1
基于Hadoop的MapReduce并行apriori算法,实验设计在3台虚拟机上,搭建步骤:(1) 虚拟机上安装ubuntu系统,安装JDK、SSH、Hadoop。 (2) 配置JDK、Hadoop环境变量及MapReduce组件。 (3) 配置SSH免密登录。 (4) 使用hadoop namenode -format命令格式化NameNode,使用start-all.sh命令启动所有Hadoop进程。 (5) 在各节点命令行输入jps检查是否启动成功,若成功,使用wordcount示例进行测试,Hadoop平台搭建完成。 (6) 将数据集从本地传输到HDFS上,使用hadoop jar命令,输入驱动类规定参数,使用Apriori.jar包,运行AprioriDriver驱动类,实现算法效果。 (7) 运行结束使用hadoop fs -cat /output命令查看结果。
2024-05-23 22:38:14 1.63MB Hadoop MapReduc Apriori 大数据并行算法
1
YD_T 1754-2008_电信网和互联网 环境安全等级保护要求
2024-05-23 16:04:17 154KB 1754
1
互联网用户行为分析.pptx
2024-05-21 17:22:12 159KB
1
2022年智慧小镇特色小镇产业大数据建设综合解决方案.pptx
2024-05-18 13:37:43 22.32MB
1
力窃漏电用户自动识别 1.背景与数据分析目的 a.通过电力系统采集到的数据,提取出窃漏电用户的关键特征, b.构建窃漏电用户的识别模型:以实现自动检查、判断用户是否是存在窃漏电行为。 2.数据预处理 通过对拿到的数据进行数据质量分析,检查原始数据中存在的脏数据,通过查看原始数据中抽取的数据,发现存在数据缺失的现象,使用朗格拉日插值法:选取缺失值前5个数据作为前参考组,缺失值后5个数据作为后参考组,处理缺失值程序. 3.挖掘建模 从专家样本中随机选取20%作为测试样本,剩下的80%作为训练样本,初步选择常用的分类预测模型:CART决策树和LM神经网络。 3.1 构建CART决策树模型 3.2 LM神经网络模型 3.3 CART和LM模型对比 结论:LM神经网络的ROC曲线比CART决策树更加靠近单位方形的左上角且LM神经网络的ROC曲线下的面积更大,则LM神经网络预测模型的分类性能更好,更适合应用于窃漏电用户自动识别当中。 将处理后的数据作为模型输入数据,利用构建好的模型(位于工程的tmp中)计算用户的窃漏电结果,并与实际调查结果做对比,对模型进行优化,进一步提高识别准确率。 ——
2024-05-17 16:13:17 116KB 数据分析 数据挖掘 python
2019年TI 赞助的全国大学生电子设计竞赛赛题之一 —— 基于互联网的信号传输系统
2024-05-16 16:31:38 192KB 19电设 信号传输系统
1
1.# 基于docker技术搭建Hadoop与MapReduce分布式环境 2.# 基于hadoop与MapReduce的分布式编程 3.# HDFS基本操作实验 4.# 使用docker构建spark运行环境 5.# 使用mllib完成mnist手写识别任务
2024-05-12 17:51:14 4.61MB hadoop
1
若是你有几百万数据的一个文本,想把数据分割成每个1000条,若是人工手动分割的话。那可是累的够呛,有了这个批处理小程序,几分钟就可以搞定了,,
2024-05-03 14:08:43 67KB 文本分割 文本拆分
1
#用户消费行为预测比赛代码 第二届中国大数据技术创新大赛 电商赛题-用户消费行为预测 包含比赛用到的所有代码。
2024-04-29 11:54:45 20KB Python
1