上传者: 42169971
|
上传时间: 2021-12-04 08:27:22
|
文件大小: 2.15MB
|
文件类型: -
博鲁塔沙普
BorutaShap是一种包装器特征选择方法,它结合了Boruta特征选择算法和Shapley值。 事实证明,这种组合在速度和生成的特征子集的质量上都无法执行原始的排列重要性方法。 该算法不仅提供了更好的特征子集,而且还可以同时提供最准确和一致的全局特征等级,也可用于模型推断。 与原始R包(将用户限制为随机森林模型)不同,BorutaShap允许用户在特征选择过程中选择任何基于树的学习器作为基础模型。
尽管BorutaShap的运行时性能有所提高,但是SHAP TreeExplainer随观察次数线性增长,这使得它在处理大型数据集时非常麻烦。 为了解决这个问题,BorutaShap包含了一个采样过程,该过程使用算法每次迭代时可用数据的最小可能子采样。 它通过比较样本的隔离林产生的分布和使用ks-test的数据来找到该样本。 从实验来看,此过程可以将运行时间减少多达80%,同时