基于AUC的特征选择是一种用于机器学习中降维和提高模型泛化能力的方法。AUC(Area Under Curve,ROC曲线下的面积)是评估分类模型性能的重要指标,尤其在样本不平衡的情况下表现更加稳定。传统的特征选择方法往往关注单个特征的好坏,而忽视了特征间的互补性,即不同特征之间如何协同工作共同提高分类性能。 ANNC(Maximizing Nearest Neighbor Complementarity)是一种新颖的特征选择方法,它在AUC的基础上,通过考虑最近邻的互补性来提高特征选择的效率。这种方法不仅关注最近邻错分类信息(nearest misses),也考虑最近邻正分类信息(nearest hits),从而全面评价特征对之间的互补性。互补性意味着某些特征在组合中相互增强,通过相互协作能达到更佳的分类效果。 在ANNC方法中,最近邻的计算是在特征空间的不同维度上进行的,以此来评估特征之间的互补性。这种方法的优势在于它提供了一种新颖的方式来判断在另一个特征的辅助下,一个特征的区分度如何。然而,邻域信息通常对噪声很敏感,仅仅考虑一侧的信息(如最近邻错分类)可能会忽视正分类对特征互补性的影响。 ANNC方法的核心在于将这种局部学习基于的互补性评价策略整合到基于AUC的特征选择框架中,从而全面评价特征对之间的互补性。这样做有助于捕捉那些能够相互协作、共同提升识别性能的互补特征。 本文作者提出了ANNC这一算法,并在公开的基准数据集上进行了广泛的实验,以多种度量标准验证了新方法的有效性。实验结果表明,在不同的数据集和各种度量指标下,ANNC方法都显示出显著的性能提升。 ANNC方法不仅考虑了每个特征本身的特性,而且结合了特征之间的相互作用,从而提供了一种更为全面的特征选择策略。这对于复杂的学习场景,如文本分类、图像检索、疾病诊断等,都有着极其重要的意义。由于这些场景下的样本通常由大量的特征来描述,因此找到一个有效的特征子集,对于提高分类器性能和模型的可解释性至关重要。 ANNC的研究论文强调了特征互补性在提高分类性能方面的重要性,并通过实际的实验验证了这一点。特征互补性的概念可以推广到不同的机器学习任务中,而不仅仅是特征选择。在特征工程领域,了解特征之间的关系有助于构建更加强大和鲁棒的机器学习模型。因此,ANNC的贡献不仅限于其作为一个新的特征选择算法,更在于它为我们理解特征相互作用提供了一种新的视角。
2024-08-29 13:36:06 767KB 研究论文
1
今天小编就为大家分享一篇AUC计算方法与Python实现代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2024-04-02 14:27:46 45KB AUC计算 Python
1
AUC的计算公式推导1
2022-08-04 09:01:05 793KB 概率论
1
AUC曲线和混淆矩阵的绘制 基于matlab gui
2022-07-11 19:15:08 75KB roc
l-曲线矩阵代码MatlabAUC Matlab函数用于估计接收器工作曲线(ROC)和ROC曲线下的面积(AUC),以及各种方法来估计AUC估计的参数和非参数置信区间。 还包括用于针对已知值对ROC下的估计面积进行简单引导测试的代码。 可用的CI估计方法为: Hanley-McNeil,参数[1] 曼·惠特尼(Mann-Whitney),非参数[2] 非参数最大方差[3] 非参数对数[2] 引导程序,非参数[2] Wald,非参数[4] Wald连续性校正的非参数[4] logit置信区间估计器(默认)具有良好的覆盖率,对于不平衡的样本相当健壮,并且适用于有序数据[2,4]。 仿真表明,Wald间隔对于较小的样本量(<100个总样本)具有更大的功效,尽管这些间隔对不平衡数据不稳健,也不适用于序数数据[4]。 Hanley,JA,McNeil,BJ(1982)。 接收器工作特性(ROC)曲线下面积的含义和用途。 放射学,143:29-36 秦庚,霍蒂洛瓦茨,L(2008)。 连续规模诊断测试的ROC曲线下面积的非参数置信区间的比较。 Stat Meth Med Res,17:207-21
2022-07-03 17:15:39 22KB 系统开源
1
评估新生物标志物(变量)对预先存在的风险模型的价值的关键在于它是否会增加患病者(事件/结果)的计算风险并降低非患病者的计算风险。 在过去的 4 年中,提出了两个新的统计数据——IDI 和 NRI。 Risk_Assessment_Plot 计算这些统计数据以及其他几个统计数据,并生成一个图表来将它们可视化。 我最近发表了对这个情节和相关指标的解释——它是可用的开放获取: http : //cjasn.asnjournals.org/content/early/2012/05/24/CJN.09590911.full 我的第一次提交 - 也许不漂亮,但我希望有用。
2022-05-20 15:07:41 22KB matlab
1
yaf_auc 雅虎拍卖价格预测 收集当前的拍卖价格并使用机器学习进行预测
2022-05-09 22:20:47 13KB Python
1
比较来自相同案例的两个 AUC 相反,作者建议使用: - NetReclassificationImprovement.m - IntegratedDiscriminationImprovement.m 用法: [pvalue Wold Wnew] = pauc(predOld,predNew,outcome) (c) Louis Mayaud, 2011 (louis.mayaud@gmail.com) 请参考: 马奥、路易斯等人。 “低血压发作期间的动态数据改善脓毒症和低血压患者的死亡率预测*。” 重症监护医学41.4(2013):954-962。
2022-04-19 09:57:21 2KB matlab
1
目录   一、题目描述 1.1 背景描述 1.2 数据集 1.3 评测指标 二、解题思路 2.1 ML/DL的前提假设 2.2 主要思路 2.3 进一步的改进 三、动手实践 四、全部代码 一、题目描述 1.1 背景描述 本次推荐评论展示任务的目标是从真实的用户评论中,挖掘合适作为推荐理由的短句。点评软件展示的推荐理由具有长度限制,而真实用户评论语言通顺、信息完整。综合来说,两者都具有用户情感的正负向,但是展示推荐理由的内容相关性高于评论,需要较强的文本吸引力。一些真实的推荐理由如下图所示:                                                     
2022-03-29 15:45:51 204KB auc keras lambda
1
联合会 cvAUC R软件包提供了一种计算有效的方法,可以估计ROC曲线(AUC)估计值下交叉验证的面积的置信区间(或方差)。 在二元分类问题中, 通常用于评估预测模型的性能。 通常,它与相结合,以评估结果如何推广到一个独立的数据集。 为了评估交叉验证的AUC估计的质量,我们获得其方差的估计。 对于海量数据集,生成单个性能估计的过程在计算上可能会很昂贵。 另外,当使用复杂的预测方法时,即使在相对较小的数据集上对验证模型进行交叉验证的过程仍然需要大量的计算时间。 因此,在许多实际情况下,是方差估计的一种计算上难以处理的方法。 作为引导程序的替代方法,可以使用基于计算效率的的方法来获得交叉验证的AUC的方差估计。 该软件包的主要功能是ci.cvAUC和ci.pooled.cvAUC ,它们报告交叉验证的AUC并分别基于和影响曲线来计算交叉验证的AUC估计的置信区间。 使用基于影响曲线的置
2022-03-19 22:32:34 101KB machine-learning r statistics cross-validation
1