链接预测pyspark
用于链路预测的CNGFPyspark实现。
CNGF算法该有助于预测将来图中最可能连接的节点。 这可用于社交网络,以设想各种实体之间的连接。
与传统算法相比,该算法效率更高,因为它使用两个节点x和y的子图以及它们的公共邻居来预测将来的连接,而不是整个图。 它首先通过将子图中的公共邻居的度数除以整个图中该邻居的度数的对数来计算制导。 然后,它使用x和y的所有公共邻域的总和来计算相似度。 相似度越高,将来建立连接的机会就越大。
需要
Python 2.7以上
用法
要运行该程序,请克隆存储库并运行以下命令:
$SPARK_HOME/bin/spark-submit --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11 cngf.py file_path separator
它需要2个参数:
fi
1