GFS、MapReduce 和 BigTable。作为 Google 早期三驾马车,这三项革命性的技术不仅在大数据领域广为人知,更直接或间接性的推动了大数据、云计算、乃至如今火爆的人工智能领域的发展。
2021-12-28 22:20:35 2.81MB 大数据 GFS MapReduce BigTable
1
本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。 任务准备 单词计数(WordCount)的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大,每个文档又包含大量的单词,则无法使用传统的线性程序进行处理,而这类问题正是 MapReduce 可以发挥优势的地方。 在前面《MapReduce实例分析:单词计数》教程中已经介绍了用 MapReduce 实现单词计数的基本思路和具体执行过程。下面将介绍如何编写具体实现代码及如何运行程序。 首先,在本地创建 3 个文件:file00l、file002 和 file003,文件具体
2021-12-28 16:46:21 74KB c ce du
1
机电一体化 MapReduce 的余弦相似度 描述 该存储库说明了 CSMR 算法的实现。 说明 CSMR 算法的论文已在 2014 年人工智能应用和创新 (AIAI 2014) 会议上发表,标题为“CSMR: A Scalable Algorithm for Text Clustering with Cosine Similarity and MapReduce”。 纸 链接: : 指示 安装 Mahout 0.9 版本和 Hadoop 1.2.1 稳定版 进入 CSMR 目录: cd Cosine-Similarity-with-MapReduce 构建 CSMR: mvn install 在 Cosine-Similarity-with-MapReduce/bin 中添加带有原始格式文档的输入文件夹(将其命名为“输入”) 运行 CSMR: ./run-csmr.sh 查看
2021-12-28 16:41:59 18KB Java
1
这是一个wordcount的一个简单实例jar包,仅仅用来做测试。 map类:org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer
2021-12-28 10:43:53 4KB hadoop wordcount mapreduce
1
Hadoop分析气象数据完整版源代码(含Hadoop的MapReduce代码和SSM框架) 《分布式》布置了一道小作业,这是作业的所有代码,里面包含了Hadoop的MapReduce代码、和SSM框架显示数据的代码
2021-12-27 20:01:45 34.89MB Hadoop 气象数据 MapReduce
http://my.oschina.net/BreathL/blog/75112,文章描述代码整合引用。
2021-12-26 17:12:49 61KB 二度人脉 MapReduce Hadoop 数据文件
1
MapReduce-recomend 二度人脉好友推荐运用非常广泛,比如在一些主流的社交产品中就有可能认识的人这样的功能,一般来说可能认识的人是通过二度人脉搜索得到的,在传统的关系型数据库中,可以通过图的广度优先遍历算法实现,而且深度限定为2,然而在海量的数据中,这样的遍历成本太大,所以有必要利用MapReduce编程模型来并行化,本篇文章是二度好友推荐的mapreduce简单实现,难免会有不足和缺陷,希望大家能够指出,共同进步。 假如A和B是好友关系,B和C是好友关系,然而C和A不是好友关系,那么A和C是二度好友关系,他们可以通过B认识,B是中间人。我们定义一个符号“>”来代表follow,上面的例子可以这样表示 A>B B>C 在社交网络任何一个活跃的用户U都存在对应的两个集合,一个是粉丝集合,一个是关注集合,以用户U作为中间联系的2度人脉对,是粉丝集合和关注集合的笛卡尔积。 于是在M
2021-12-26 17:11:12 3KB Java
1
在qq 微博等众多社交平台中,用户a有n位好友,在这n位好友里面的好友中有m位不是a的直接好友(例如用户b)。但是通过朋友的朋友,a与b之间有多位共同好友,换而言之,a是b可能认识的人。
2021-12-26 17:08:14 4KB hadoop 好友推荐
1
全k近邻(all k-nearest neighbor,AkNN)查询,是k近邻查询的一个变型,旨在在一个查询过程中为给定数据集的每个对象确定k个最近邻。提出了一种在Hadoop分布式平台下处理高维大数据的AkNN查询算法。首先使用行条化思想结合p-stable LSH算法将高维数据对象降维,然后结合空间填充曲线Z-order的优良特性,把降维后的数据嵌入一维空间中,接着进行范围查询。整个过程使用MapReduce框架分布式并行处理。实验结果表明,所提出的算法可以高效处理高维大数据的AkNN查询。
1
目前只有 split切分流程 MapTask流程 与 ReduceTask流程 直接的学习源码截图
2021-12-25 19:12:03 4.92MB 大数据
1