上传者: 42134338
|
上传时间: 2021-11-21 13:07:45
|
文件大小: 1.96MB
|
文件类型: -
分布式计算-PySpark
该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。
文本分析:PySpark中的逐点相互信息
计算文本文件中出现的所有单词的一个或多个标记的PMI。
图/网络分析:PySpark中的个性化PageRank算法
实现PageRank算法的修改版本,其中参照给定的源节点执行排名。 修改有两个方面:
随机仅跳到源节点
由于节点悬空而造成的质量损失将完全转移到源节点,而不是在整个图形上重新分配
使用Spark数据帧和Spark SQL查询TPCH