背景:
要把这些 Network 用在真正应用上,光是它们正确率高是不够的,还需要能够应付来自人类的恶意,
在有人试图想要欺骗它的情况下,也得到高的正确率。
e.g.垃圾邮件分类
How to attack?
- 一张照片可以被看作是一个非常长的向量,在**每一个维度都加入一个小小的噪声,**小到人眼看不出来。
- 原始照片:Benign Image
- 被攻击(加入噪声)的照片:Attacked Image
- Attacked Image丢到 Network 裡面,输出不可以是猫,要变成其他的东西
分类
是否知道模型参数:
- 白盒攻击(White Box Attack):已知模型参数
- **黑盒攻击(Black Box Attack):**未知模型参数
是否有攻击得到的目标:
- **没有目标的攻击(Non-targeted Attack):**原来的答案是猫,只要你能够让 Network 的输出不是猫,你就算是成功
- **有目标的攻击(Targeted Attack):**希望 Network,不止它输出不能是猫,还要输出某一指定的别的东西,比如说,把猫错误判断成一隻海星,才算是攻击成功。
白盒攻击
分析:
假设:Network参数固定