缺陷预测旨在通过从历史缺陷数据中学习来估计软件的可靠性。 缺陷预测方法根据从软件项目中提取的指标来识别软件模块是否容易出现缺陷。 这些度量值(也称为特征)可能涉及不相关和冗余,这将损害缺陷预测方法的性能。 现有工作采用特征选择来预处理缺陷数据以滤除无用的特征。 在本文中,我们提出了一种新颖的特征选择框架MICHAC,它是通过层次聚类聚类通过最大信息系数进行缺陷预测的简称。 MICHAC分为两个主要阶段。 首先,MICHAC利用最大信息系数对候选特征进行排序,以过滤掉不相关的特征;其次,MICHAC通过分层聚集聚类对特征进行分组,并从每个结果组中选择一个特征以去除冗余特征。 我们使用三个具有四个性能指标(精度,召回率,F量度和AUC)的不同分类器,对11个被广泛研究的NASA项目和四个开源AEEEM项目评估了我们提出的方法。 与五种现有方法的比较表明,MICHAC可有效选择缺陷预测中的特征。
2022-12-28 17:17:59
271KB
研究论文
1