基于随机游走的社团发现算法Hadoop版 以及一个graph生成程序。整个是个eclipse项目,没有把lib放上来。内容在 http://blog.csdn.net/lgnlgn/article/details/6561876 的下一篇博客
2022-05-16 17:45:47 27KB label propagation mapreduce
1
MapReduce-KNN Hadoop MapReduce的K最近邻居实现 这是一个旨在与MapReduce框架一起使用的Java程序。 在此示例中,将K最近邻分类方法(有监督的机器学习)应用于有关汽车类型和购买者特征的一些样本数据,以便用可能的汽车模型对购买者进行分类。 用法: hadoop jar KnnPattern.jar KnnPattern /home/mhi/knn/CarOwners.csv / home / mhi / knn / res /home/mhi/knn/KnnParams.txt KnnPattern.jar –包含源代码的jar文件。 KnnPattern –程序中的顶级类,包含Mapper和Reducer类以及main()方法。 第一个参数:/home/mhi/knn/CarOwners.csv –数据输入文件在HDFS中的位置。 第二个
2022-05-16 15:32:28 22KB Java
1
Hadoop_MapReduce 使用Hadoop进行大数据处理 该项目在Hadoop框架上使用Map-Reduce从零开始实现基本的文本处理任务,例如字数,n元语法,倒排索引,关系连接和k近邻算法。
2022-05-16 15:26:00 8.21MB hadoop map-reduce hdfs inverted-index
1
手把手教你搭建分布式Hadoop家族集群视频教程(视频+讲义+笔记+配置),内容包括 Hadoop,SQOOP,Hive,Hbase的安装配置及集群搭建。内容包括但不限于: 01_回顾集群架构及配置集群时间同步 02_配置主节点与从节点之间的SSH无密钥登录 03_ZK集群启动脚本编写及NN启动过程(fsimage和edits)及SNN功能 04_HADOOP中服务组件的高可用HA说明 05_搭建分布式HBase集群 06_SQOOP安装及导入数据到HBase表 07_HBase Backup Masters配置、启动、测试 08_HBase 压缩配置测试 09_分布式集群搭建:大数据框架回顾说明 10_分布式集群搭建:集群环境说明及基本配置 11_分布式集群搭建:集群安装配置 12_分布式集群搭建:安装配置部署Zookeeper 集群 13_分布式集群搭建:规划设计集群服务分布 14_分布式集群搭建:HADOOP分布式集群安装部署测试 ......
2022-05-16 14:07:52 978.16MB 大数据 Hadoop Hadoop集群 Hive
本文档是基于传统数仓转型到大数据平台(Hadoop)的分析报告,主要分为引言,可行性研究前提,对现有数据仓库的分析,Hadoop可行性分析,数据同步,数据处理与计算,可选方案,社会因素方面可行性等内容
1
hadoop-2.7.1及使用说明
2022-05-16 09:00:38 200.8MB hadoop 大数据 big data
1
本论文的主要工作是在基于云计算理论的基础上设计适合JEPAY 虚拟银行数据特点的云存储系统,系统的设计工作主要分为两个方面: 一个方面是设计能够为银行数据库提供文件支持的分布式文件系统。对于当前的云计算系统,因为文件只能写入不能修改,不能为银行提供数据支持。我们的工作就是在底层构架能够满足银行数据要求的分布式系统, 传统的分布式数据库的扩展性是不够灵活的,比如他们在动态的增减节点时付出的代价很大,并且他们把这种情况当作一种错误处理,严重影响系统的性能和扩展。在论文中我们参考了Hadoop的构架以后设计了能够弥补以上缺点的系统,同时使系统保持了云计算平台的优势。 工作的另一个方面是在我们构架的分布式文件系统的基础上设计我们的数据库管理系统,相对于云计算而言分布式数据库的技术是比较成熟的,也正因为如此他们不能很好的和基于云计算的文件系统很好的兼容,我们的工作是利用已经成熟的分布式数据库的技术在我们的云存储文件系统上面构架相应的数据库管理系统,因为我们的系统是针对JEPAY 虚拟银行的,所以我们的系统设计是基于关系数据模型的,在设计中主要包括如下几个方面:系统的查询,事务处理,目录管理,容错处理,和安全性等等。
2022-05-15 23:16:33 701KB 云计算; 虚拟银行; 海量数据; HADOOP
1
随着互联网技术的发展,数宇信息正在成指数增加,根据InternetDataCente:发布的DigitalUniverse报告显示,在未来8年中所产生的数据量将达到40ZB,相当于每人产生5200G的数据,如何高效地计算和存储这些海量数据成为互联网企业所要而对的挑战。传统的大规模数据处理大多采用并行计算、网格计算、分布式高性能计算等,耗费昂贵的存储与计算资源,而且对于大规模数据计算任务的有效分配和数据合理分割都需要复杂的编程才可以实现。基于Hadoop分布式云平台的出现成为解决此类问题的良好途径,本文将在综述Hadoop核心技术:HDFS和MapReduce基础上,利用VMware虚拟机搭建一
1
mapreduce、spark
2022-05-15 14:08:16 86KB hadoop spark 学习 综合资源
1
运行说明:在linux终端输入 $ hadoop jar test-1.0-SNAPSHOT.jar WordCount /input/* /MyOutput1/ 后两个参数是hdfs上面【输入】的文本文件目录和【输出】目录。 记得清空输出目录。
2022-05-15 10:45:42 6KB Hadoop
1