Customer_Churn_PySpark 根据客户使用的电信服务预测客户流失。
2021-11-23 20:37:46 467KB JupyterNotebook
1
本地开发和运营 依存关系 确保您已将Python 2.7和pip一起安装。 然后运行: pip install -r requirements.txt 正在运行的工作 使用中央作业运行程序模块src/index.py运行所有作业。 您完全不需要编辑此文件。 python src/index.py 参数: src/spark_jobs.py定义的作业功能名称 生成的簇数 数据文件的文件路径(可以是项目中的绝对路径或本地路径) 这些作业可以占用多个文件。 这些应仅附加到命令中。 例如: python src/index.py user__reputation__to__upvotes_cast 3 tests/fixtures/users.xml 新增工作 所有作业均从src/s
2021-11-22 02:29:49 3.4MB python spark clustering pyspark
1
分布式计算-PySpark 该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。 文本分析:PySpark中的逐点相互信息 计算文本文件中出现的所有单词的一个或多个标记的PMI。 图/网络分析:PySpark中的个性化PageRank算法 实现PageRank算法的修改版本,其中参照给定的源节点执行排名。 修改有两个方面: 随机仅跳到源节点 由于节点悬空而造成的质量损失将完全转移到源节点,而不是在整个图形上重新分配 使用Spark数据帧和Spark SQL查询TPCH
2021-11-21 13:07:45 1.96MB graphs pmi networks text-analytics
1
带有PySpark的Spark和Python用于大数据:Spark机器学习项目
2021-11-18 17:27:38 117KB JupyterNotebook
1
PySpark大数据处理及机器学习Spark2.3视频教程,本课程主要讲解Spark技术,借助Spark对外提供的Python接口,使用Python语言开发。
2021-11-10 18:11:44 541B PySpark Spark2.3 大数据 机器学习
1
windows10上配置pyspark工作环境-附件资源
2021-10-28 22:20:27 106B
1
这是官网下载的配置好的 pyspark 安装包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz,可以直接解压使用
2021-10-24 19:35:44 203.52MB hadoop
1
PySpark-Learning PySpark实战指南(Leaning PySpark)代码
2021-10-19 21:58:29 7.08MB JupyterNotebook
1
09-SparkV1.2(PySpark)-LAPTOP-G48G0MSR.docx
2021-10-13 22:01:50 14.91MB pyspark
1
使用数据驱动方法检测大量文本中的常用短语。 发现的短语的大小可以是任意的。 可以用于英语以外的语言
2021-10-11 15:34:50 82.52MB Python开发-自然语言处理
1