1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 2. 有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。 3. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 4. 海量日志数据,提取出某日访问百度次数最多的那个IP。(利用hash分而治之,然后上归并,堆) 5. 在2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数。
2021-12-19 16:58:40 152KB C语言 海量数据 数据处理 大数据
1
西电海量数据管理大作业,有图,有设计思路
2021-12-17 15:13:58 1.12MB 西电 海量数据管理 海量 大作业
1
随着北部湾海洋生态资源的开发和利用,海量海洋科学数据飞速涌现出来,利用海量数据存储平台合理管理和存储这些科学数据显得极为重要.这里提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台.系统由五大模块组成,有系统管理模块、并行加载存储模块、并行查询模块、数据字典模块、备份恢复模块,能够实现存储海量海洋科学数据.系统模块实现结果表明,该系统安全可靠、易维护、具有良好的可扩展性.
2021-12-13 17:29:48 1.13MB hadoop
1
MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。
2021-12-11 09:38:53 703KB 论文研究
1
传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop 是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率。
1
让Oracle跑得更快2:基于海量数据的数据库设计与优化 谭怀远 清晰扫描版 带书签目录
1
mathorcup大数据竞赛a题复赛一等奖论文
2021-11-23 19:09:53 2.03MB 海量数据挖掘
本资料主要是基于pyhton数据分析与挖掘实战书本中的源代码和数据。代码已测试通过。主要是通过python来进行数据分析和挖掘。通过数据获取,数据预处理及数据规范化,数据建模,及数据可视化。
2021-11-20 09:21:05 325.37MB 数据分析 海量数据挖掘
1
SpringBatch+SpringBoot构建海量数据企业批处理系统和性能优化,Spring Batch是一个基于Spring的企业级批处理框架,所谓企业批处理就是指在企业级应用中,不需要人工干预,定期读取数据,进行相应的业务处理之后,再进行归档的这类操作。SpringBatch为我们提供了统一的读写接口、丰富的任务处理方式、灵活的事务管理及并发处理、日志、监控、任务重启与跳过等特性,功能可谓是非常强大。
2021-11-18 14:04:27 703B SpringBatch SpringBoot
1
IBM PureData System介绍
2021-11-17 12:06:10 2.18MB 职场管理
1