1.# 基于docker技术搭建Hadoop与MapReduce分布式环境 2.# 基于hadoop与MapReduce的分布式编程 3.# HDFS基本操作实验 4.# 使用docker构建spark运行环境 5.# 使用mllib完成mnist手写识别任务
2024-05-12 17:51:14 4.61MB hadoop
1
⼤数据处理与并⾏计算 ⼤数据处理与并⾏计算 随着对地观测技术的发展,获取到的地理数据越来越精细,⽽数据量也越来越⼤,地理数据数据处理与分析的时间耗费就越⼤。因此,传统 的数据处理技术和串⾏计算技术难以满⾜⾼精细地理⼤数据处理的需求。SuperMap ⽀持并⾏计算,有效的提⾼了⼤数据处理的效率。 并⾏计算原理 并⾏计算是将⼀个任务分解成若⼲个⼩任务并协同执⾏以完成求解的过程,是增强复杂问题解决能⼒和提升性能的有效途径。并⾏计算可以 通过多种途径实现,包括多进程、多线程以及其他多种⽅式,SuperMap是通过多线程⽅式实现并⾏计算的,可充分和更加⾼效地利⽤多核 计算资源,从⽽降低单个问题的求解时间,节省成本,也能够满⾜更⼤规模或更⾼精度要求的问题求解需求。 下图对⽐了串⾏与并⾏两种计算⽅式。当⼀个任务被划分为 A、B、C 三个⼦任务时,串⾏需要依次执⾏三个⼦任务,⽽多线程并⾏则可以 通过三个线程同时执⾏三个⼦任务。 图1:并⾏计算⽰意图 下图是在并⾏计算⽀持下,⼀台普通的四核计算机上某次执⾏"提取等值线"分析时 CPU 的使⽤情况。当使⽤ 1 个线程分析时,CPU 利 ⽤率较低,只有⼀个 CPU 参与运算,当设置并⾏线程数为 4 时,所有四个 CPU 核⼼都参与运算,CPU 利⽤率最⾼可达 100%。 图2:CUP使⽤率 下⾯通过⼀个⽣成三维晕渲图的实例,对⽐多线程并⾏计算和单线程计算的操作时间。本实例应⽤的数据为某地区的DEM数据数据⾏列数 为15000*20000,数据量⼤⼩为884M,分别对其进⾏三维晕渲图操作,使⽤单线程的SuperMap iDesktop8C进⾏分析需要80秒(如 下图3所⽰),⽽通过并⾏计算只需15秒即可完成同样的操作(如下图4所⽰): 图3:单线程分析 图4:并⾏计算 通过上述实例可知,同样的数据处理通过并⾏计算可节省3-5倍的时间,⼤⼤的节省了时间成本,提⾼了分析的性能及⼯作效率。 图5:并⾏计算与单线程耗时对⽐图 ⽀持并⾏计算的功能 ⽬前,SuperMap ⽀持并⾏计算的功能有:栅格分析、⽔⽂分析、⽹络分析、拓扑预处理、叠加分析、空间查询等。 栅格分析:栅格分析功能模块中⽀持并⾏计算的功能有:插值分析、提取等值线、提取等值⾯、坡度分析、坡向分析、栅格填挖⽅、⾯填挖 ⽅、反算填挖⽅、表⾯⾯积量算、表⾯体积量算、查找极值、⽣成三维晕渲图、⽣成正射三维影像、单点可视域分析、多点可视域分析、栅 格重采样、栅格重分级、栅格聚合等。 ⽔⽂分析:⽔⽂分析功能模块中的所有功能都⽀持并⾏计算,即填充洼地、流向分析、计算累积汇⽔量、计算流长、计算流域盆地、⽣成汇 ⽔点栅格、流域分割、河流分级、连接⽔系、提取⽮量⽔系都⽀持并⾏计算。 ⽹络分析:⽬前,⽹络分析模块中最佳路径分析、最近设施查找、旅⾏商分析和物流配送等四个交通⽹络分析功能⽀持并⾏计算。 拓扑:拓扑功能模块中的拓扑预处理⽀持并⾏计算。但是,拓扑预处理中的"调整多边形⾛向"处理不⽀持并⾏计算。如果只进⾏该项预处 理,修改线程数不会降低分析时间。 叠加分析:对线⾯叠加分析都⽀持并⾏计算,包括线⾯的裁剪、擦除、合并、相交、同⼀、对称差、更新。 空间查询:⾯对象的包含和求交查询⽀持并⾏计算。 设置线程数⽬ 线程数⽬的设置有两种⽅式,⼀种是直接在"环境"对话框中设置;另⼀种是修改配置⽂件。具体设置⽅式如下: l. 单击"⽂件"按钮,在菜单中选择"选项",在弹出的"SuperMap iDesktop 8C选项"对话框的"环境"设置页⾯中,直接设置"并⾏ 计算线程数"即可; 2. 系统配置⽂件 SuperMap.xml 中的节点⽤于指定线程数⽬,初始值为 2。SuperMap.xml 位于组件产品安装⽬录\Bin ⽂件夹下。例 如,设置线程数⽬为 4,则配置⽂件应修改为: 4。 应⽤程序启动时会优先读取配置⽂件中的线程数,若在"并⾏计算线程数"处修改了线程数,则会⽴即⽣效,同时会⾃动修改配置⽂件中的 值;⽽配置⽂件中的线程数⽬只在应⽤程序启动时被读取⼀次,⼿动修改配置⽂件后,需要重新启动应⽤程序才能⽣效。线程数⽬的有效范 围为 1-16。如果配置⽂件中的线程数⽬超出范围,则设置⽆效,使⽤默认值 2;如果在"并⾏计算线程数"处设置的值⼤于16,则设置的 值会⾃动调整为16。 那么如何设置合理的线程数呢?您可参考⼀下两条建议进⾏设置: 1. 指定的多个线程将在计算机处理器所有核之间分配,当线程数⽬等于处理器总核数时,所有核都参与计算,可以充分利⽤计算机的计 算资源。 2. 线程数⽬多于计算机核数时,线程调度与负载均衡问题可能会导致占⽤更多时间,即使分析计算的时间进⼀步降低,也可能导致整体 性能提升不明显。因此不建议这样做。 地理空间分析具有算法逻辑复杂、数据规模⼤等普遍特点,是
2024-02-20 10:49:34 343KB 文档资料
1
python大数据处理与分析数据集与源代码
2023-12-24 01:34:24 36.51MB
1
<数据算法--Hadoop-Spark大数据处理技巧>.pdf全书686页,英文比中文容易理解 本资料共包含以下附件: 724f58d66ab6b3c4c6412e91117878cb.zip
2023-03-20 11:11:06 36.93MB 大数据 spark
1
大数据课程设计论文:关于酒店数据处理,总计十页,内容丰富。两个数据集共享相同的结构,通过31个特征,形成了描述H1的40060次观测数据和H2的79330次观测数据,每一条观测数据都代表一次酒店预订。本设计通过机器学习等数据分析技术,首先对数据进行了描述性的统计,完成了对数据的预处理;其次利用数据集对酒店运营状况、市场情况、客户画像进行了可视化分析;最后根据数据集建立客户是否会取消预订的预测模型。酒店旅游市场的快速发展使得行业内的竞争愈发激烈,客户对产品与服务信息获取渠道越来越多,酒店企业面临着产品同质化严重、同行竞争加剧,从而导致新增客户获取困难、成本增加等行业问题。为了更好地规划酒店的经营,大数据有极强的能力来了解消费者的行为特点,从而做出合理的决策。户流失预测可以帮助酒店预测流失趋势,构建适合酒店行业数据特性的影响因素指标体系,有针对性地提出挽留措施,提高商家利润,因此,酒店业的客户流失预测是酒店管理领域的一个重要研究方向。例如在消费者的视角里,什么时候是一年中预定酒店房间的最佳时间,为了获得最好的房价折扣而选择的最佳入住时间,酒店是否可能会收到不成比例的高数量的特殊请求。
2023-01-02 14:01:49 467KB 大学课程设计 数据处理 酒店数据
1
淘宝双11大数据处理作业的数据集
2022-12-22 18:17:34 426.77MB 大数据
1
淘宝双11大数据处理作业的数据集
2022-12-22 09:15:44 123.75MB 大数据
1
从大数据当前面临的挑战、粒计算作为大数据的新的研究方向、粒计算的研究现状等方面对基于粒计算的大数据处理分析进行了讨论。高度信息化的时代背景下,大数据的处理分析必将成为为社会进步与发展提供有效帮助的科技手段,如何提高大数据的处理分析,提升粒计算的性能都是必须要考虑的问题,对解决实际问题有着重要的参考价值。不断提高大数据的相关技术,对各行各业的发展都有着积极的意义
2022-10-08 09:05:42 1.2MB 粒计算
1
大数据处理实验一-VMware+Ubuntu+Hadoop安装
2022-09-26 18:06:08 5.87MB 虚拟机 VMware Hadoop Ubuntu
1
实际系统往往由大量类型各异、彼此交互的组件构成.当前大多数工作将其建模为同质信息网络,并未对网络中不同类型的对象及链接加以区分.近年来,越来越多的研究者将这些互联数据建模为由不同类型节点和边构成的异质信息网络,并利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现.随着大数据时代的到来,异质信息网络自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径.因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点.本文对异质信息网络分析与应用进行了全面综述.除介绍异质信息网络领域的基本概念外,重点聚焦基于元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进
2022-09-14 13:16:18 5.06MB 神经网络 机器学习 大数据
1