基于开源URL数据字符串特征的恶意性检测项目源码+数据集+模型+项目说明.7z 从kdnuggets上收集到了带标签(good/bad)的URL数据集,共416350条,其中异常数据(bad)71556条,占比17.19%; 正常数据(good)344794条,占比82.81%。 将全体数据划分为训练集(70%),验证集(15%)和测试集(15%),并且在每个集合中均保持异常数据所占比例相同。 分类器模型 准确度(%) 精确度(%) 召回率(%) 贝叶斯 85.88 60.82 50.25 AdaBoost 92.84 86.05 69.65 随机森林 97.13 95.9 87.05 决策树 94.63 83.9 85.11 逻辑回归 90.86 83.29 58.58 梯度提升树 96.35 93.7 84.45 基于投票的分类器 97.1 92.51 90.48