基于开源URL数据字符串特征的恶意性检测项目源码+数据集+模型+项目说明.7z
从kdnuggets上收集到了带标签(good/bad)的URL数据集,共416350条,其中异常数据(bad)71556条,占比17.19%; 正常数据(good)344794条,占比82.81%。
将全体数据划分为训练集(70%),验证集(15%)和测试集(15%),并且在每个集合中均保持异常数据所占比例相同。
分类器模型 准确度(%) 精确度(%) 召回率(%)
贝叶斯 85.88 60.82 50.25
AdaBoost 92.84 86.05 69.65
随机森林 97.13 95.9 87.05
决策树 94.63 83.9 85.11
逻辑回归 90.86 83.29 58.58
梯度提升树 96.35 93.7 84.45
基于投票的分类器 97.1 92.51 90.48