缺陷预测旨在通过从历史缺陷数据中学习来估计软件的可靠性。 缺陷预测方法根据从软件项目中提取的指标来识别软件模块是否容易出现缺陷。 这些度量值(也称为特征)可能涉及不相关和冗余,这将损害缺陷预测方法的性能。 现有工作采用特征选择来预处理缺陷数据以滤除无用的特征。 在本文中,我们提出了一种新颖的特征选择框架MICHAC,它是通过层次聚类聚类通过最大信息系数进行缺陷预测的简称。 MICHAC分为两个主要阶段。 首先,MICHAC利用最大信息系数对候选特征进行排序,以过滤掉不相关的特征;其次,MICHAC通过分层聚集聚类对特征进行分组,并从每个结果组中选择一个特征以去除冗余特征。 我们使用三个具有四个性能指标(精度,召回率,F量度和AUC)的不同分类器,对11个被广泛研究的NASA项目和四个开源AEEEM项目评估了我们提出的方法。 与五种现有方法的比较表明,MICHAC可有效选择缺陷预测中的特征。
2022-12-28 17:17:59 271KB 研究论文
1
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的
2022-05-03 12:22:14 558KB 工程技术 论文
1
关联分析matlab代码minepy-基于最大信息的非参数探索 minepy为基于最大信息的非参数勘探( MIC和MINE系列)提供了一个库。 主要特征: APPROX-MIC (原始算法,DOI:10.1126 / science.1205438)和MIC_e (DOI:arXiv:1505.02213和DOI:arXiv:1505.02214)估算器; 总信息系数(TIC,DOI:arXiv:1505.02213)和广义均值信息系数(GMIC,DOI:arXiv:1308.5712); ANSI C库 C ++接口; 高效的Python API (与Python 2和3兼容); 高效的MATLAB / OCTAVE API ; minepy是GPLv3许可的开源软件。 minerva R接口可从访问。 MIC工具 自1.2.2版起,不推荐使用`mine`命令行应用程序。 我们建议使用MICtools,这是用于TICe和MICe分析的全面而有效的管道。 TICe用于对所有可能的成对关系进行有效的高通量筛选,以评估它们的重要性,而MICe用于根据其强度对重要关联的子集进行排名。 ,。
2022-05-01 15:21:33 521KB 系统开源
1
最大信息熵运行代码,可实现阈值分割法的信息熵改进方法实现
2022-03-09 19:27:16 2KB 最大信息熵
1
针对传统因果关系算法难以准确分析含大量噪声的非线性数据的问题进行了研究,提出基于最大信息传递熵的因果关系建模算法。首先,利用最大信息系数对非线性数据的时序趋势间的关联度进行检测,弱化噪声对变量间相关性的影响;然后根据筛选因子剔除弱相关变量,并通过随机经验估值计算强关联变量间的传递熵,以减少传递熵的计算量;最后,传递熵确定因果关系方向,形成支持链路溯源的单向因果网络。利用经典化工过程数据集对该算法进行测试分析,实验结果表明,相比于现有的因果关系建模算法,该算法可定位异常变量,对12维以上的高维数据建模的稳定性高于85%,因果关系的准确率可达83.33%,实际建模效果优于对比算法,可用于工业控制系统异常检测定位。
1
ML之MIC:利用某数据集计算机最大信息系数MIC并可视化MIC矩阵热图及其代码实现 目录 利用某数据集计算机最大信息系数MIC并可视化MIC矩阵热图及其代码实现 实现结果 实现代码 利用某数据集计算机最大信息系数MIC并可视化MIC矩阵热图及其代码实现 实现结果 正在执行B盘的数据 0 1 2 3 4 5 6 \ 0 0.993748 0.992363 0.865935 0.158754 0.199621 0.238159 0.859997 1 0.
2021-12-02 12:39:30 290KB 信息系 可视化 数据
1
算法实现了图像的最大特征点配准。稳定性好,质量高
2021-12-02 11:07:30 461KB 配准 特征点 最大信息
1
基于最大信息系数和Gram-Schmidt正交化的生物医学数据过滤特征选择方法
2021-11-05 17:05:29 1.12MB 研究论文
1
行业制造-电动装置-基于最大信息熵原理的风电场短期输出功率预测综合模型.zip
在黑洞的表面(甚至地平线)附近,以平方小单位为单位(以及一些转换为量子位)具有最大的信息密度。 同样,我们的想象力是我们可以绘制到电模式中最密集的视觉皮层层上的所有可能事物的集合。 更大的层具有更多的神经元来处理这些可能性。 黑洞皮层是一种视觉皮层,其神经元层的密度类似于从黑洞到不同半径的密度。 我们认为,我们的眼睛所看到的是想象力,是最密集和最小的一层。 递归外部的SphereSurfaces具有更多的神经元,更多的表面积,但密度更低,因为它最终必须缩减尺寸以简化高级构想,例如10000个Wikipedia页面名称覆盖了世界的大部分地区。 我们可以将Wikipedia看作是大脑上方的一层,它是一个大的SphereSurface表面积(一个数十亿个大脑分层的大脑皮层)和一个很小的(10000个最重要的页面)密度。
2021-04-29 17:05:18 81KB 开源软件
1