用Python火花
Apache Spark
是技术领域中最热门的新趋势之一。 它是实现大数据与机器学习结合的成果的最大潜力框架。 它运行速度快(由于在内存中进行操作,因此比传统的快100倍,提供健壮的,分布式的,容错的数据对象(称为 ),并通过诸如的补充包与机器学习和图形分析领域完美集成和 。
Spark在上实现,并且主要用 (一种类似于Java的功能性编程语言)编写。 实际上,Scala需要在您的系统上安装最新的Java并在JVM上运行。 但是,对于大多数初学者来说,Scala并不是他们首先学习的语言,它可以涉足数据科学领域。 幸运的是,Spark提供了一个很棒的Python集成,称为PySpark,它使Python程序员可以与Spark框架进行交互,并学习如何大规模操作数据以及如何在分布式文件系统上使用对象和算法。
笔记本电脑
RDD和基础
数据框
使用Python 3和Jupyter Notebook设置Apache Spark
与大多数Python库不同,让PySpark开始正常工作并不像pip install ...和import ...那样简单。我们大多数基于P
1