基于特征选择的软件缺陷预测方法.pdf
2022-04-06 00:22:59 1.01MB 技术文档
pyHSICLasso pyHSICLasso是希尔伯特·施密特(Hilbert Schmidt)独立标准套索(HSIC Lasso)的软件包,这是一种考虑了非线性输入和输出关系的黑匣子(非线性)特征选择方法。 HSIC Lasso可以看作是广泛使用的最小冗余最大相关性(mRMR)特征选择算法的凸变体。 HSIC套索的优势 可以有效地找到与非线性相关的特征。 可以找到非冗余功能。 可以获得全局最优的解决方案。 可以通过内核处理回归和分类问题。 功能选择 监督性特征选择的目标是找到负责预测输出值的输入特征子集。 通过使用它,您可以补充非线性输入和输出的依赖性,并且可以有效地计算高维问题的最优解。 通过针对数以千计的特征进行分类和回归的特征选择实验证明了其有效性。 在许多实际应用中,例如从微阵列数据中选择基因,文档分类和假体控制,在高维监督学习中寻找功能的子集是一个重要的问题。 安装
1
为解决传统隐马尔可夫股价行为预测模型对输入特征序列和隐含状态数目敏感,导致预测结果存在局部最优、误差较大的问题,设计了新的股票因子特征选择方法,包括对因子特征的筛选和特征数据预处理。结合贝叶斯信息规则确定模型最佳隐含状态数目,提出了一种优化股价行为预测性能的PRHMM模型。通过对比支持向量机、ARIMA模型,实验结果证明,所提出的预测算法相对传统预测模型,在股价行为预测中有更好的预测表现。
2022-03-30 13:33:42 253KB 隐马尔可夫模型
1
在过去的几十年中,特征选择已经在机器学习和人工智能领域发挥着重要作用。许多特征选择算法都存在着选择一些冗余和不相关特征的现象,这是因为它们过分夸大某些特征重要性。同时,过多的特征会减慢机器学习的速度,并导致分类过渡拟合。因此,提出新的基于前向搜索的非线性特征选择算法,该算法使用互信息和交互信息的理论,寻找与多分类标签相关的最优子集,并降低计算复杂度。在UCI中9个数据集和4个不同的分类器对比实验中表明,该算法均优于原始特征集和其他特征选择算法选择出的特征集。
1
用Relief算法进行特征选择,最早提出的 Relief 算法主要针对二分类问题,该方法设计了一个“相关统计量”来度量特征的重要性,该统计量是一个向量,向量的每个分量是对其中一个初始特征的评价值,特征子集的重要性就是子集中每个特征所对应的相关统计量之和,因此可以看出,这个“相关统计量”也可以视为是每个特征的“权值”。可以指定一个阈值 τ,只需选择比 τ 大的相关统计量对应的特征值,也可以指定想要选择的特征个数 k,然后选择相关统计量分量最大的 k 个特征。
2022-03-25 15:18:44 4KB Relief 特征选择
1
请参阅 Urbanowicz RJ、Meeker M、La Cava W 等人。 基于浮雕的特征选择:介绍与回顾[J]. 杂志生物医学信息学, 2018, 85: 189-203。 算法 1。 修改:将随机选择的目标实例 R_i 简化为数据集中的顺序样本。 因此,到最近命中的距离始终为 0。
2022-03-24 11:36:22 2KB matlab
1
分类问题中的特征选择一直是一个重要而又困难的问题。这类问题中要求特征选择算法不仅能够帮助分类器提高分类准确率,同时还要尽可能地减少冗余特征。因此,为了在分类问题中更好地进行特征选择,提出了一种新型的包裹式特征选择算法XGBSFS。该算法借鉴极端梯度提升(XGBoost)算法中构建树的思想过程,通过从3个重要性度量的角度来衡量特征的重要性,避免单一重要性度量的局限性;然后通过改进的序列浮动前向搜索策略(ISFFS)搜索特征子集,使最终得到的特征子集有较高的质量。在8个UCI数据集的对比实验中表明,所提算法具有很好的性能。
1
Jx-WFST:包装特征选择工具箱 《迈向人才科学家:共享与学习》--- 介绍 该工具箱提供了 13 种包装器特征选择方法 Demo_PSO提供了如何在基准数据集上应用 PSO 的示例 这些方法的源代码是基于伪代码和论文编写的 用法 采用主要功能jfs进行特征选择。 您可以通过将from FS.pso import jfs的pso更改为来切换算法 如果你想使用粒子群优化(PSO),那么你可以写 from FS.pso import jfs 如果你想使用差分进化(DE),那么你可以写 from FS.de import jfs 输入 feat :特征向量矩阵(实例x特征) label :标签矩阵(实例x 1) opts : 参数设置 N :解决方案的数量/人口规模(对于所有方法) T :最大迭代次数(对于所有方法) k : k -最近邻中的k -值 输出 Acc : 验证模型的
1
据报道,公司在股票市场上的股票价格与公司交易所在国家的宏观经济变量 (MV) 密切相关。 出于这个原因,研究人员、市场交易员、金融分析师和预测人员为了检查 MV 与股票价格之间的关联进行了大量研究,使用时间序列统计分析方法,如自回归综合移动平均 (ARIMA)、自回归移动平均 (ARMA) ) 和广义自回归条件异方差性 (GARCH)。 然而,据报道这些技术受到有限的预测能力和限制性假设的影响。 此外,为了寻求弥补这些技术的不足和局限性的方法,一些研究人员研究了无数的机器学习技术,用于衡量股市趋势并使用宏观经济变量做出交易决策。 另一方面,这些研究中有较高比例关注股票指数预测,而忽略了影响不同行业指数的 MV 的多样性。 在解决上述问题时,本研究试图检验不同部门股票价格和 MV 之间的显着性程度,并使用随机森林 (RF) 和改进的留一法交叉验证预测 30 天的头部股票价格战术和长短期记忆循环神经网络 (LSTMRNN)。 与其他时间序列技术相比,对加纳证券交易所 (GSE) 所提出模型的实证分析显示出较高的预测精度和更好的平均绝对误差。 因此,可以从后果中推断出,所提出的 MV 股票市场预测提供了一种有效的方法来自动识别和提取影响不同部门股票的 MV,并提供对股票未来价格的准确预测。
2022-03-22 12:37:23 357KB Macroeconomic Variable Inflation
1
matlab 官网下载。
2022-03-17 22:20:18 129KB FEAST
1