在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。市场上有各种用于数据清洗和特征工程的编程语言、框架和工具。它们之间的功能有重叠,也各有权衡。数据整理是数据预处理的重要扩展。它最适合在可视化分析工具中使用,这能够避免分析流程被打断。可视化分析工具与开源数据科学组件之间,如R、Python、KNIME、RapidMiner互为补充。避免过多地使用组件能够加速数据科学项目。因此,在数据准备步骤中利用流式获取框架或流式分析产品会是一个不错的选择。机器学习和深度学习项目在大多数企业中变得越来越重要。一个完整的项目流程包括数据准备(datapreparation)、构建分析模型
1