在机器学习中,我们经常在训练集上训练模型,在测试集上测试模型。最终的目标是希望我们的模型在测试集上有最好的表现。 但是,我们往往只有一个包含m个观测的数据集D,我们既要用它进行训练,又要对它进行测试。此时,我们就需要对数据集D进行划分。 对于数据集D的划分,我们尽量需要满足三个要求: 训练集样本量充足 训练模型时的计算量可以忍受 不同的划分方式会得出不同的训练集和测试集,从而得出不同的结果,我们需要消除这种影响 我们将分别介绍留出法、交叉验证法,以及各自的python实现。自助法(bootstrapping)将在下篇中加以介绍。 1.留出法 留出法是最常用最直接最简单的方法,它直
2021-11-05 15:41:43 119KB python python算法 test
1
用于查找径向基神经网络模型的网络参数的程序 MATLAB 函数“newrb”用于为给定数据集训练神经网络。 该函数的形式为 net = newrb(Y, X,goal,spread)。 传播(网络参数)将影响模型性能。 该程序可用于获得给定数据集的“传播常数”的最佳值。 获得显示交叉验证误差随扩展常数变化的箱线图。 然后,设计者可以分析该图以找出最佳的“传播常数”。
2021-11-02 22:20:55 2KB matlab
1
lasso 回归 交叉验证 汽车价格预测
2021-10-25 21:01:50 1.47MB 汽车 回归预测
1
matlab 10折交叉验证知识代码KNN算法方法 针对数据挖掘课程设计了不同的KNN算法。 有一个与患者的癌症状况相关的数据集,具有10个不同的特征,并且是用于诊断的类部分。 “ 1”用于诊断疾病,“ 0”反之亦然。 在家庭作业中,我将种子函数用作rng(3)。 Fitcknn 使用Matlab的fitcknn作为内置函数。 代码步骤如下: a)使用randperm函数对数据集进行混洗,然后将其分为训练数据和验证数据两类。 该分区的形式为:火车集为80%,验证集为20%。 b)对于距离测量,使用欧几里得距离。 c)此分配没有交叉验证。 d)为了预测验证类别,使用了从1到100的100个不同的knn值。 e)通过使用绘图函数,我们可以观察到如何通过更改knn值来区分值。 f)最佳knn = 41且错误率选择为0.0614 Fuzzyknn,r_radius_neighbour实现 我想出了我自己的KNN函数,例如Fuzzyknn和rnearest knn。 a)我用欧几里得距离实现了模糊算法。 我在另一个脚本中编码了Fuzzyknn函数,然后将其调用到主脚本中以查看不同knn值的结果。
2021-10-20 19:38:12 59KB 系统开源
1
数据挖掘:数据清洗——数据不平衡处理 一、什么是数据不平衡? 不平衡数据集指的是数据集各个类别的样本数目相差巨大,也叫数据倾斜。以二分类问题为例,即正类的样本数量远大于负类的样本数量。严格地讲,任何数据集上都有数据不平衡现象,一点的差异不会引起太多的影响,我们只关注那些分布差别比较悬殊的。 关于分布悬殊:如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性问题进行处理。 不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。 二、不平衡数据例子 ① 在二分类问题中,训练集中class 1的样本数比上clas
2021-10-19 21:06:07 577KB test 交叉验证 分类器
1
Jx-DLT:深度学习工具箱 *此工具箱包含卷积神经网络(CNN) * 显示了如何使用带有基准数据集的CNN程序的示例。 请注意,我们使用一到三个卷积层设置来演示CNN。 *该工具箱的详细信息可以在https://github.com/JingweiToo/Deep-Learning-Toolbox中找到 ****************************************************** ****************************************************** ******************************
2021-10-19 11:01:04 7KB matlab
1
交叉验证LOOCV matlab代码basic_SVM Matlab 代码 此页面是使用basic_SVM (基本支持向量机)函数的快速手册。 此代码位于 basic_SVM是一组运行机器学习进行分类的函数。 它需要一组特征和相应的类作为输入。 目前它只能处理二分情况(例如,1 和 0,兄弟姐妹和无关,控制和多动症,...)。 该程序探索不同特征的使用,并报告每个案例的性能(样本内和样本外)。 例如,如果您的数据有 100 个特征,该程序可以帮助您探索在分类中使用 10、20、... 100 个特征的性能(您可以轻松定义要包含的特征数量和数量)。 对于每个特征集,程序将数据分成两个分区(一个分区用于训练,另一个用于测试),在分区测试中优化分类器并将其用于为测试保留的新数据(分区测试)。 重复 N 次并报告结果。 它是如何工作的 详细地说,在 N 次总运行中的每次运行 n 中,数据(特征及其对应的类:1 或 0;兄弟或不相关)被划分为 2 个样本:“训练”和“测试”,其中分区“训练”是剩下 m 个元素。 默认情况下,分类器使用留一法交叉验证 (loocv) 对该分区“训练”进行优化(您可
2021-10-17 09:16:27 42KB 系统开源
1
matlab交叉验证代码厕所 拟合贝叶斯模型的有效近似留一法交叉验证 loo是一个R包,它使用户可以为拟合的贝叶斯模型计算有效的近似留一法式交叉验证,以及可以用于平均预测分布的模型权重。 loo软件包打包为来自以下对象的近似LOO-CV和WAIC实现了快速稳定的计算 Vehtari,A.,Gelman,A.和Gabry,J.(2017年)。 使用留一法交叉验证和WAIC的实用贝叶斯模型评估。 统计与计算。 27(5),1413--1432。 doi:10.1007 / s11222-016-9696-4。 ,。 并按照以下说明计算模型权重 Yao,Y.,Vehtari,A.,Simpson,D.和Gelman,A.(2018)。 使用叠加来平均贝叶斯预测分布。 在贝叶斯分析中,doi:10.1214 / 17-BA1091。 ,。 从现有的后验模拟绘图中,我们使用帕累托平滑重要性抽样(PSIS)(一种用于调整重要性权重的新过程)来计算近似LOO-CV。 作为我们计算的副产品,我们还获得了近似标准误差,用于估计的预测误差和比较两个模型之间的预测误差。 我们建议使用PSIS-LOO-CV而
2021-10-14 15:40:51 1.72MB 系统开源
1
2D-CNN和3D-CNN_MRI分类 使用5折交叉验证对MRI进行多分类的2D CNN和3D CNN模型。 所有图像均为NIfTI 用于早期融合的3D CNN架构 二维融合CNN的准确性/损失,平均为5倍 (a)2D,(b)3D融合CNN的混淆矩阵
2021-10-13 09:19:50 305KB JupyterNotebook
1
实现数据的交叉验证划分。 对于带标签的所有数据data.csv,其中最后一列为标签,将该数据划分为训练集train_i.csv和测试集test_i.csv。其中i表示的是第i折数据。
2021-10-12 22:44:53 1KB pandas numpy 交叉验
1