PySpark-ClusterClassify 使用AWS Sagemaker在MNIST数据集上进行分布式KMeans聚类和XGBoost分类作业
2022-04-03 16:34:56 671KB JupyterNotebook
1
leetcode题库Bank_Marketing_Using_Pyspark_And_Using_Data_Science_Libraries。 在 Databricks 上使用 Pyspark 处理银行营销数据集,并使用 Python 在 Google Colab 上仅使用数据科学库。 关于存储库 该存储库包含 2 个文件 - 使用 Pyspark 实现的银行营销数据集和仅使用 Python 的数据科学库实现的其他文件。 在 Databricks 上使用 Pyspark - 此存储库包含与银行营销数据集相关的项目。 我已经应用逻辑回归、决策树和随机森林来比较算法在不同参数(如准确度、精度、召回率和许多其他参数)方面的比较。 还使用 5 折交叉验证进行了超参数调整,以评估与这些算法对应的模型并评估不同的参数。 在 Google Colab 上使用数据科学图书馆 - 总而言之,首先对数据进行清理和预处理。 然后我将不同的参数性能与目标变量进行了比较。 然后我应用了 6 种机器学习算法,比较了训练和测试的准确性,并为它绘制了 ROC 曲线。 6 种机器学习算法是:逻辑回归、随机森林、支持向
2022-04-02 23:02:23 2.42MB 系统开源
1
在构建大数据开发平台的过程中,想用Python对大数据进行开发,从spark官网下载速度太慢,耗费好久才下载下来,在这里与大家共享。
2022-03-23 21:48:32 175.81MB Spark 大数据 hadoop pyspark
1
今天小编就为大家分享一篇pyspark 读取csv文件创建DataFrame的两种方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2022-03-18 09:07:45 25KB pyspark csv DataFrame
1
Please note, this is MEAP version.
2022-03-17 21:08:49 24.19MB DataScience
1
推荐系统:Pyspark,ALS推荐系统
2022-03-11 18:01:15 101KB HTML
1
Perform effective data processing, machine learning, and analytics using PySpark Overcome challenges in developing and deploying Spark solutions using Python Explore recipes for efficiently combining Python and Apache Spark to process data
2022-02-11 23:48:29 6.58MB pyspark spark
1
波士顿房价预测相关代码
2022-01-16 23:21:02 185KB 波士顿房屋预测案例
1
【导读】我们知道,ApacheSpark在处理实时数据方面的能力非常出色,目前也在工业界广泛使用。本文通过使用SparkMachineLearningLibrary和PySpark来解决一个文本多分类问题,内容包括:数据提取、ModelPipeline、训练/测试数据集划分、模型训练和评价等,具体细节可以参考下面全文。ApacheSpark受到越来越多的关注,主要是因为它处理实时数据的能力。每天都有大量的数据需要被处理,如何实时地分析这些数据变得极其重要。另外,ApacheSpark可以再不采样的情况下快速处理大量的数据。许多工业界的专家提供了理由:whyyoushoulduseSparkfo
1
该资源为本地Windows下pyspark环境搭载,包含python、spark、hadoop、jdk、anaconda3、jupyter notebook(可参考资源进行搭载)如遇问题请查看专栏中的报错解决,亦可私信联系我
2021-12-24 17:08:34 1.81MB 本地spark环境搭载
1