上传者: 38675506
|
上传时间: 2022-05-06 10:01:34
|
文件大小: 710KB
|
文件类型: PDF
数据处理以及超参数的理解
首先我们需要了解到,我们在进行机器学习的过程中寻求的不是让训练处的在现有的数据集上达到最佳,而是我们需要让其在真实环境中达到最佳的效果。在上一节中我们将全部的数据集全部用于训练模型中,对于我们所训练出的模型无法知道其具体的准确度便投入真实环境使用,这样的做法极具风险性,而且我们也不推荐。
解决方案:机器学习最常用的解决方案便是实现测试集和训练集的相互分离(此方法仍具有局限性,后续会补充)。具体的操作方式是:将全部数据集的80%当做训练数据集,训练出来模型后我们通过另外20%的数据(称其为测试数据集)来验证所训练出来模型的准确度。
实现代码封装:
import nump