到目前为止,利用大数据在商业,电子商务,社交媒体,网络等许多领域的优势,本文中的方法集中于安全性问题,如果今天不遇到这些问题,那么我们的未来将面临这些问题。在公共,私有数据的安全性方面。 数据可能是所有人都可以公开获得的,也可能是很少有系统或个人知道的一些机密信息。 大数据技术利用通过社交媒体网站和许多其他来源流动的海量数据集,对其进行分析并做出有利于智能的决策,即,不完全接受的不成熟输出可能会违反公司或系统的隐私问题,或者成为个人。 因此,维护数据机密性和数据完整性是我们今天的责任,这样我们以后就不会再遇到此类问题了。 我们提出了一些重要的,重大的安全问题,这些问题将在今天或明天出现。
2022-05-05 12:47:30 460KB Map Reduce Network Encryption
1
映射减少虹膜花 这些Map Reduce程序的目标是从著名的鸢尾花数据集中计算出萼片长度,萼片宽度,花瓣长度和花瓣宽度的最大值,最小值和平均值。
2022-05-04 14:30:29 10KB Java
1
MapReduce是目前广泛应用的并行计算框架,是Hadoop平台的重要组成部分。主要包括Map和Reduce函数,Map函数输出key-value键值对作为Reduce的输入。由于输入的动态性,不同主机上的Reduce处理的输入量存在不均衡性。如何解决Reduce的负载均衡是优化MapReduce的一个重要研究方向。对整体数据进行抽样,通过适量的样本分析数据,达到较小的代价获得可靠的key分布,提出贪心算法代替Hadoop平台默认的Hash算法来划分数据,实现Reduce负载均衡。提出的贪心算法主要思想
2022-04-07 14:57:43 1023KB 工程技术 论文
1
PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。PageRank的Page可是认为是网页,表示网页排名,也可以认为是LarryPage(google产品经理),因为他是这个算法的发明者之一,还是googleCEO(^_^)。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分钟后,跳转到该网页所指向的链接,这样无所事事、漫无目的地在网页上跳来跳去
2022-04-06 19:44:56 929KB PageRank算法简介及Map-Reduce实现
1
Map-Reduce源码.png
2022-04-06 02:49:57 536KB 大数据 mapReduce
1
介绍 基于HadoopETL和Hadoop和Storm的各种实用程序类 哲学 使用简单 CSV格式的输入输出 在简单的JSON文件中定义的元数据 可以通过许多配置旋钮进行高度配置 解决方案 各种关系代数运算,包括投影,联接等 数据提取ETL,可从非结构化数据中提取结构化记录 数据提取ETL以从JSON数据中提取结构化记录 具有可配置规则和统计参数的数据验证ETL 使用各种技术进行数据分析ETL 具有可配置转换规则的数据转换ETL 各种统计数据探索解决方案 数据归一化 季节性数据分析 各种统计参数计算 使用增量数据进行各种长期统计参数计算 批量插入,更新和删除Hadoop数据 Storm Spout和Bolt的基类 字符串,配置的实用程序类 Storm和Redis的实用程序类 网志 我的以下博客是详细信息的好来源。 这些是详细文档的唯一来源。 该项目中的Map reduce作业可用于其
2022-04-01 20:43:52 579KB Java
1
NULL 博文链接:https://sgq0085.iteye.com/blog/1879442
2022-02-02 20:34:43 15KB 源码 工具
1
NULL 博文链接:https://kf47453.iteye.com/blog/2273912
2021-12-15 16:54:07 2.31MB 源码 工具
1
为古腾堡免费书籍实现搜索引擎。 索引是使用 Apache Hadoop 使用 TF-IDF 算法完成的。内置索引使用数据存储存储在托管在Google App 引擎中。
2021-12-09 09:31:18 18.58MB Java
1
伦敦 使用Python和GraphX的Spark中的身份图。 参考 指示 创建虚拟环境 virtualenv -p python3 .env source .env/bin/activate pip install -r requirements.txt 构建Docker映像 ./bin/build.sh slave ./bin/build.sh master ./bin/build.sh zoo ./bin/build.sh network 运行Docker容器 ./bin/start.sh slave ./bin/start.sh master ./bin/start.sh zoo 使用Hadoop集群UI 访问http://0.0.0.0:8088/cluster 。 监控Docker容器 ./bin/status.sh 停止Docker容器 ./bin/stop.sh slave
2021-10-31 20:04:26 694KB python nlp docker natural-language-processing
1