GitHub Classroom创建的2019-big-data-project-sparkles
使用Spark机器学习进行图像分类
2019大数据项目火花
Yoo Na Cha,Nupur Neti,Michael Schweizer
执行摘要
通过这个项目,我们能够:
接触到将图像数据集读取到分布式文件系统中的机会
了解如何配置Spark集群以添加任何必要的库
练习使用Spark处理非常大的非结构化数据集
熟悉使用mllib和sparkdl在Spark中进行机器学习
导航
代码文件
介绍
在以前的项目中,我们遇到了以下问题:计算机内存没有足够的能力来执行模型,或者执行该模型的时间过长。 对于需要较大数据集和昂贵计算的图像分类项目,此问题尤其常见。
关于这一点,我们选择image classification作为该最终项目的主题,以探索如何应用在本课程中学习到的知识来克服此类限制。
1