注:数据集太大,可在压缩包中的数据集 html 页面中点击链接下载完整数据集。
本项目采用ASSISTments 2012 数据集, 在所有数据集中,问题通常只有一种技能,但极少数可能与两种或三种技能相关联。 它通常取决于内容创建者给出的结构。 一些研究人员通过复制将具有多种技能的记录分成多个单一技能记录。 Wilson[6]声称这种类型的数据处理可以人为地显著提高预测结果,因为这些重复行可以占到DKT模型的Assistment09数据集中大约25%的记录。 因此,为了比较的公正性,我们在所有数据集中去掉了重复和多技能重复记录。
本项目基于pandas + Matplotlib + seaborn 等工具包对学生的测试数据进行可视化统计分析,并利用学生 2012 年和2013年上半年不同类型题目的测试结果数据,构建机器学习面向,实现对学生的画像建模,以此预测 2013年下半年测试对不同类型问题的表现。
可以看出,该决策树模型的预测结果如下,可以较好的依据用户测试的行为数据(测试过的试题种类、测试时间、犹豫情况、提示次数等等),预测该学生是否能考试达标(测试准确率 > 60%)