随着微博用户数量的上升,微博信息量成倍增长,基于冗杂的微博信息向微博用户快速推荐感兴趣的好友是不容 回避的技术问题。针对这一问题,基于微博大数据,以Hadoop 为平台,HBase为基础,MapReduce为编程框架,提出了基于Apriori算法与 Item-based协同过滤算法的组合算法,并构建了推荐好友系统。该系统通过Apriori算法对冗杂的微博内容 记录进行频繁项集的计算,得出能表达用户喜好的标签,以提升系统的时间性能;通过Item-based算法对标签进行匹配推 荐,以缩短系统的推荐时间以及资源占用率。为了验证所构建系统的有效性和可靠性,分别进行了两组对比实验,第一组 实验为添加了Apriori算法的协同过滤算法与传统协同过滤算法在时间性能方面的对比测试,第二组实验则为Apriori算法 混合Item-based协同过滤算法与混合K-means 算法的对比测试。实验结果表明,在庞大的微博容量下,与传统协同过滤 算法相比,所提出算法的运行时间缩短了24%~44%;与混合 K-means 聚类算法相比,所提出算法在算法运行时间和CPU占用率均有1.2~1.5倍的提升。可见,提出
1