1.提出问题
明确要分析的问题,为后续的机器学习过程提供目标。
2.理解数据(采集并查看数据)
采集数据(根据研究问题采集数据);导入数据(从不同数据源读取数据);查看数据信息(描述统计信息、数据缺失值、异常值情况等,可以结合具体图表来直观查看数据)。
3.数据清洗(数据预处理)
数据预处理是数据分析过程中关键的一环,数据质量决定了机器学习分析的上限,而具体采用的算法和模型只是逼近这个上限。(包括缺失数据处理、异常值处理、数据类型转换、列名重命名、数据排序、选择子集、特征工程等步骤)
4.构建模型
根据研究的问题以及数据的特点选择合适的算法,将训练数据放入所选择的机器学习算法中构建相应的模型,有时需要对多种算法模型进行比较,甚至进行模型整合。
5.模型评估
利用测试数据对得到的模型效果进行评估,具体评估指标依据研究的问题及采用的模型进行选择,常用到的指标需根据模型的类型而定,如分类模型常用准确率、ROC-AUC等,而回归模型可以用决定系数等。
1