现在,需要根据该学校提供的数据,对数据进行分析,并尝试找到预测模型的性能进行分析。
资源中包含:论文、代码以及数据!
方法要求:
a) 分析该数据集的数据缺失情况;
b) 分析该数据集不同年份各门课程的描述性统计量,并进行比对分析;
c) 对该数据集进行数据清洗,处理缺失值;
d) 对该数据集进行归一化;
e) 要求分别利用sklearn提供的线性回归(Linear Regression)、岭回归(Ridge Regression)、鲁棒回归(使用Huber Regression)、支持向量回归(SVR)、最近邻回归(Nearest Neighbors Regression)、决策树回归(Decision Trees)、神经网络回归(Neural Network Regression)共七种回归算法实现对成绩的预测。
f) 并对训练出的七种回归器进行性能评估,利用测试集计算七种回归器的四项性能指标:解释方差、平均绝对误差、平均平方误差和中位绝对误差。
1