近年来,基于异质信息网络的研究受到国内外广泛的关注,很多研究工作(如聚类、分类、推荐等)都是在异质信息网络上开展的。异质信息网络是一种包含不同类型节点和边的网络,它具有更加复杂的网络结构和更加丰富的语义信息,可以更全面地表示系统的组成对象和他们之间的关系。在异质信息网络中,度量节点间的相似性是开展聚类、推荐等工作的基础。目前,国内外已提出许多相似性度量方法来解决异质信息网络节点相似性度量的问题,HeteSim算法就是其中一种代表性方法。HeteSim是一种基于双向随机游走的度量方法,目前HeteSim相似度计算均采用单节点计算模式,然而随着信息网络的急剧膨胀,传统的单节点计算模式已无法满足HeteSim快速计算的需求,开发在集群上运行的HeteSim并行化算法成为当务之急。本文基于分布式计算框架Spark,研究并实现了异质信息网络相似性度量方法HeteSim的并行化算法。首先,本文提出基于矩阵乘法的HeteSim并行化算法。HeteSim并行化的核心是矩阵乘法的并行化,本文针对传统矩阵乘法并行化算法内存消耗大,网络开销大,执行时间长的缺点,提出改进算法,并基于改进算法,实现了基于矩阵乘
2022-09-21 18:07:15
4.87MB
1