基于随机平滑的数据中毒防御有多强健?
抽象的
可证明可靠的分类器的预测在一个点附近保持不变,从而使它们在保证测试时间的情况下具有弹性。 在这项工作中,我们提出了对健壮的机器学习模型的前所未有的威胁,突显了训练数据质量在实现高认证健壮性方面的重要性。 具体而言,我们提出了一种基于双层优化的新型数据中毒攻击,该攻击会降低可证明的鲁棒分类器的鲁棒性保证。 与其他数据中毒攻击会降低一小组目标点上的中毒模型的准确性不同,我们的攻击会减少数据集中整个目标类的平均认证半径。 此外,即使受害者使用最新的健壮训练方法(例如, 和从头开始训练模型,我们的攻击也是有效的。 为了使攻击更难检测,我们使用带有明显较小失真的干净标签中毒点。 通过中毒MNIST和CIFAR10数据集并使用前面提到的鲁棒训练方法训练深度神经网络,并使用随机平滑验证其鲁棒性,来评估所提出方法的有效性。 对于使用这些强大的训练方法训练的模型
1