matlab
10折交叉验证知识代码分类算法评估
介绍
该项目的目标是基于以下内容评估一组分类器:
准确性
敏感性和
特异性
资料集
该项目使用的数据集是从乳腺癌数据库中获得的,可以找到。
快速描述如下:
实例数为699。
每个实例具有2种可能的类别之一:良性(65.5%)或恶性(34.5%),分别由2和4表示,稍后用-1和1代替。
每个实例具有9个按[1-10]比例缩放的属性以及类标签。
缺失的属性(总共16个)被替换为最常出现的值。
分类器
在此项目中评估的分类器以及为其属性设置的值是:
贝叶斯
概率分类器,通过基于实例具有的属性值来估计该实例最有可能属于哪个类,从而为该实例分配一个类标签。
先验概率根据data-description.txt,将良性和恶性分别设置为0.655和0.345的那些
K最近邻居
在这种情况下,对象通过其邻居的多次投票进行分类。
打破领带
如果是平局,则使用最接近的级别。
k选择
为了优化性能,将k设置为训练集大小的平方根。
通常,较大的k值会减少噪声对分类的影响,但会使类别之间的界限不那么明显。
邻居效应
为了使距离较近的邻居比距离较远的邻居贡献更多,
2021-09-03 09:14:16
33KB
系统开源
1