1.提出问题 明确要分析的问题,为后续的机器学习过程提供目标。 2.理解数据(采集并查看数据) 采集数据(根据研究问题采集数据);导入数据(从不同数据源读取数据);查看数据信息(描述统计信息、数据缺失值、异常值情况等,可以结合具体图表来直观查看数据)。 3.数据清洗(数据预处理) 数据预处理是数据分析过程中关键的一环,数据质量决定了机器学习分析的上限,而具体采用的算法和模型只是逼近这个上限。(包括缺失数据处理、异常值处理、数据类型转换、列名重命名、数据排序、选择子集、特征工程等步骤) 4.构建模型 根据研究的问题以及数据的特点选择合适的算法,将训练数据放入所选择的机器学习算法中构建相应的模型,有时需要对多种算法模型进行比较,甚至进行模型整合。 5.模型评估 利用测试数据对得到的模型效果进行评估,具体评估指标依据研究的问题及采用的模型进行选择,常用到的指标需根据模型的类型而定,如分类模型常用准确率、ROC-AUC等,而回归模型可以用决定系数等。
2023-04-06 09:49:44 52KB 程序设计 项目语言 毕业设计 源码
1
二、多元线性回归预测模型的显著性检验 与一元线性回归的情形类似,也应检验y与x1,x2…,xm之间的线性相关关系是否显著。只有线性相关关系显著时,所求得的多元线性回归模型才有应用价值,这时,也称回归模型(方程)的回归效果显著。 但与一元线性回归也有不同之处:一元线性回归中只有一个自变量,“回归效果不显著”与“b=0”是一回事;对于多元线性回归则要复杂得多,否定了假设 “H0:b1=b2=…=bm=0”时,认为多元线性回归方程的“整个回归效果是显著的”,有一定实用价值,但并不等于说y与所有的自变量xj(j=1,2,…,m)均有密切的相关关系,也可能有某几个xj与y 的相关关系并不密切,但没有影响大局。因此,对多元线性回归模型,除了要检验“整个回归效果是否显著”外,还应逐个检验每个回归系数bj(j=1,2,…,m)是否为零,以便分辨出哪些xj对y无显著影响。下面分别加以讨论。
1
基于matlab编写的duibin算法,然后利用相关系数求出共振峰,并将共振峰与原语音的频域进行比较。
2021-09-28 18:04:09 41KB 共振峰 共振 durbin算法 语言信号处理
基于人工神经网络的非线性回归预测模型的研究
2021-07-02 10:23:32 280KB 神经网络
1
用-SPSS-Modeler-建立线性回归预测模型
2021-01-28 16:00:59 669KB 线性回归预测模型 SPSS modeler 算法