上传者: taobai021
|
上传时间: 2021-09-28 14:16:33
|
文件大小: 1.31MB
|
文件类型: PDF
整体系统架构和软件栈,怎样利用和改进Spark来形成最终方案。
如何搭建快速强大的特征衍生,选择和转化流程(Pipeline)。我们会在细节方面展示真实数据所带来的挑战和我们开发的采样,填充,缩放和其他领域专用的特征转换模块。我们正在将其中的许多内容贡献给Spark社区。
深入分析我们使用的算法怎样解决数据的不平衡性及与其他算法的对比结果。
在实现过程中累积的其他开发经验