针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。
2022-01-31 21:44:11 566KB 论文研究
1
以MovieLens 的 ml-100k 为实验数据,基于 ItemCF 算法作推荐,实现代码。
2022-01-21 09:15:25 15KB mapreduce hadoop
1
博客推荐系统是向用户推荐可能感兴趣的博客的系统。分为游客状态和登录状态(功能:展示最新的博客、推荐热度最高的博客、按分类推荐博客、登录注册、点赞收藏、修改个人资料、发表管理博客、管理收藏的博客以及针对用户喜好推荐博客。)。压缩包中有博客数据采集的爬虫代码、建立数据表所需的数据、建表语句、Javaweb项目文件、MapReduce项目文件(推荐算法,基于物品的协同过滤算法)和打包好的jar包、自动化执行推荐算法的shell脚本。可作为javaweb或Hadoop结课作业的参考。
hadoop-mapreduce-client-common-2.7.1,java开发的jar包需要的直接下载
2022-01-12 22:47:56 734KB 大数据
1
对中文进行分词的java代码,分别在map reduce中实现。
2022-01-08 16:49:01 1.13MB 中文分词
1
基于Spark2.x新闻网大数据实时分析可视化系统.docx
2022-01-06 15:06:43 14.35MB hadoop mapreduce
Google大数据三篇经典论文翻译。 Google-File-System Google-MapReduce Google-Bigtable
2022-01-01 23:17:31 2.22MB MapReduce GFS BigTable
1
大数据课程——Hadoop集群程序设计与开发,教师版,提供教学大纲、教案、教学设计、实训文档等,课程内容包含教学准备环境、软件安装、作业、教学文档、演示视频,花费巨额时间亲自制作,下载后可私信提供上述所有教学资料,可按照ppt以及教学文档直接教授
Hadoop安装学习的学生、技术工程师
2021-12-29 12:05:06 799KB Hadoop
金庸的江湖————从金庸小说中获取人物关系 更多细节请访问: report文件夹
2021-12-28 23:06:50 5.85MB Java
1