在机器学习中,我们经常在训练集上训练模型,在测试集上测试模型。最终的目标是希望我们的模型在测试集上有最好的表现。
但是,我们往往只有一个包含m个观测的数据集D,我们既要用它进行训练,又要对它进行测试。此时,我们就需要对数据集D进行划分。
对于数据集D的划分,我们尽量需要满足三个要求:
训练集样本量充足
训练模型时的计算量可以忍受
不同的划分方式会得出不同的训练集和测试集,从而得出不同的结果,我们需要消除这种影响
我们将分别介绍留出法、交叉验证法,以及各自的python实现。自助法(bootstrapping)将在下篇中加以介绍。
1.留出法
留出法是最常用最直接最简单的方法,它直
1