运营商关于用户基站停留数据统计 一.功能需求概述 (1)数据源:pos.txt,上传到hdfs,保存的目录以个人学号区分 (2)程序运行支持传入时间段,比如“09-18-24”,表示分为0点到9点,9点到18点,18点到24点三个时间段。 (3)统计每个用户在不同时段中各个基站的停留时间
2023-03-23 14:44:28 1.22MB hadoop
1
考虑到大数据环境下传统的单机推荐算法无法高速有效地处理大规模的数据,为了提高图书推荐算法性能和解决图书推荐系统可扩展性的问题,通过Hadoop平台下的MapReduce编程模型,提出一种分布式加权型混合推荐算法。在分布式环境下采用基于矩阵分解的协同过滤推荐算法,改善数据稀疏性,然后将聚类模型结合矩阵分解算法,解决读者数据冷启动问题。在Hadoop上实现该算法不仅提升了算法的运行速率,而且能够有效解决算法的可扩展性问题。
1
Hadoop系统搭建,从虚拟机安装、克隆,到网络配置、SSH免密登录,再到Hadoop配置、测试,亲自搭建,步骤详细,易操作。
2021-10-14 12:07:12 8.96MB hadoop 系统安装
针对空间科学大数据的快速检索需求,提出了分布式区域检索算法。算法主要包括四维空间科学数据的索引方法和分布式四维空间科学数据的索引架构两部分。在KTS存储结构下,通过基于立方体的Block-Grid三维网格剖分方法建立两级空间索引结构,包括分布式节点间的全局索引和分布式节点内的局部索引;在分布式系统架构下,确定了索引在分布式主从节点的分布策略以及数据在分布式环境下的容错机制。基于Hadoop基础架构设计了NSSC-Hadoop系统,通过多组试验数据测试算法效率,并与直接基于Hadoop无索引遍历数据方式相比较,数据检索效率提高了将近50倍,随着数据量的增大,算法优势会更加明显。
1