LimeAttack_ Local Explainable Method for Textual Hard-Label Adversarial Attack

Summary：
Natural language processing models are vulnerable to adversarial examples. Previous textual adversarial attacks adopt model internal information (gradients or confidence scores) to generate adversarial examples. However, this information is unavailable in the real world. Therefore, we focus on a more realistic and challenging setting, named hard-label attack, in which the attacker can only query the model and obtain a discrete prediction label. Existing hard-label attack algorithms tend to initialize adversarial examples by random substitution and then utilize complex heuristic algorithms to optimize the adversarial perturbation. These methods require a lot of model queries and the attack success rate is restricted by adversary initialization. In this paper, we propose a novel hard-label attack algorithm named LimeAttack, which leverages a local explainable method to approximate word importance ranking, and then adopts beam search to find the optimal solution. Extensive experiments show that LimeAttack achieves the better attacking performance compared with existing hard-label attack under the same query budget. In addition, we evaluate the effectiveness of LimeAttack on large language models and some defense methods, and results indicate that adversarial examples remain a significant threat to large language models. The adversarial examples crafted by LimeAttack are highly transferable and effectively improve model robustness in adversarial training.

Background：
深度神经网络（DNN）广泛应用于自然语言处理领域并取得了巨大成就成功（Kim 2014；Devlin 等人 2019；Minaee 等人 2021；Hochreiter 和Schmidhuber 1997）。然而，DNN 很容易受到对抗性示例的影响，而这些示例被正确分类样本因一些轻微的扰动而改变（Jin et al. 2020；帕佩诺特等人。 2017年； Kurakin、Goodfellow 和 Bengio 2016）。这些对抗性扰动是人类无法察觉的但可能会误导模型。严重的对抗性例子威胁 DNN 的鲁棒性和可靠性，尤其是在一些安全关键型应用（例如自动驾驶和有毒文本检测（Yang et al. 2021；Kurakin, Good Fellow 和 Bengio 2018））。因此，对抗性例子计算机视觉、自然语言处理等领域的对抗性攻击和防御引起了极大的关注演讲（Szegedy 等人，2013 年；Carlini 和 Wagner，2018 年；Yu等人。 2022）。制作文本对抗性更具挑战性由于语言的离散性质以及词汇、语义和流畅性限制的存在。
根据不同场景，进行文本对抗攻击可以简单分为白盒攻击、基于分数的攻击和硬标签攻击。在白盒设置中，攻击者利用模型的参数和梯度来生成对抗性示例（Goodman、Zhonghou et al. 2020；江等人。 2020）。基于分数的攻击仅采用类别概率或置信度分数来制作对抗性示例（Jin等人。 2020；李等人。 2020；马、史、管2020；朱，赵和吴 2023）。然而，由于 DNN 是通过以下方式部署的，这些攻击方法在现实中表现不佳应用程序编程接口（API）和攻击者无法访问模型的参数、所有标签的梯度或概率分布（Ye 等人，2022b）。相比之下，在硬标签场景下，模型的内部结构，梯度、训练数据甚至置信度分数都是不可用的。攻击者只能查询黑盒受害者模型并得到离散的预测标签，这更具有挑战性和现实性。此外，最真实的模型（例如HuggingFace API、OpenAI API）通常有限制关于通话次数。事实上，对抗性例子攻击设置是带有微小模型查询的硬标签。
一些硬标签攻击算法已经被提出（Yu等人。 2022 年；叶等人。2022b；马赫什瓦里、马赫什瓦里和普地2021；叶等人。 2022a）。他们遵循两阶段策略：i）通过随意用同义词替换几个原始单词来生成低质量的对抗性示例，以及然后 ii) 采用复杂的启发式算法（例如遗传算法）来优化对手的扰动。所以，这些攻击方法通常需要大量查询，并且攻击成功率和对抗样本的质量是受到对手初始化的限制。相反，基于分数的攻击根据删除一个单词后置信度分数发生变化。单词重要性排序通过优先提高攻击效率攻击对模型有重大影响的词预测（Jin 等人，2020）。然而，基于分数的攻击无法计算硬标签设置中的单词重要性因为删除一个标记几乎不会改变离散预测标签。因此，我们要研究这样一个问题：如何计算硬标签中的单词重要性排名设置以提高攻击效率？
实际上，单词重要性排名可以揭示决策边界以确定更好的攻击路径，但现有的硬标签算法忽略了这些有用的信息因为它很难获得。受到当地可解释的启发方法（Ribeiro、Singh 和 Guestrin 2016；Lundberg 和李2017; 什里库马尔等人。 2016）对于 DNN，有 10 个用于解释黑盒模型的输出，目标估计良性样本的标记敏感性。之前的研究（Chai et al. 2023）试图简单地替换基于删除的方法和局部可解释的方法来计算基于分数的攻击中的单词重要性。然而，在附录B，我们通过实验验证了本地可解释的方法没有显着优势在基于分数的场景中优于基于删除的方法。因为模型输出的概率分布是可用，每个词对输出的影响可以是基于删除的方法很好地反映了这一点。因此，与基于分数的攻击相比，我们认为局部可解释方法在硬标签攻击中可以发挥更大的优势基于删除的方法是无用的。我们采用最多基本且直接的本地可解释方法，即石灰。 LIME 简单易懂，更符合使用基于分数的攻击中提出的基于删除的方法，因为我们的目标是弥合基于分数的攻击之间的差距通过引入可解释性方法来攻击和硬标签攻击。事实上，局部可解释方法与模型无关，适合对硬标签攻击进行单词重要性估计。然而，有以下几种情况将 LIME 应用于硬标签攻击的困难：1）如何在极小的查询预算下分配 LIME 和搜索查询以达到最佳效果。 2）如何建立映射在没有模型 Logits 输出的情况下，LIME 与对抗性样本中单词重要性之间的关系。 3) 如何取样在扰动执行期间合理地实现最优结果。在随后的课程中我们将详细解释如何来解决这些困难。
Contributions：
在这项工作中，我们提出了一种新的硬标签攻击算法，称为极限攻击。LIME在硬标签攻击中的应用是受到基于分数的攻击删除方法的启发。我们验证了内外攻击路径在硬标签攻击中的有效性，然后许多优秀的基于分数的攻击可以为硬标签攻击提供更多的见解。为了评估攻击的性能和效率，我们将Lime攻击与其他硬标签攻击进行了比较，并将一些基于分数的攻击作为7个常见数据集上的两个NLP任务的参考。我们还评估了目前最先进的大型语言模型（例如，ChatGPT）的限制eattack。实验表明，在微小的查询预算下，极限攻击比其他基线获得了最高的攻击成功率。我们的贡献总结如下：

总结了现有硬标签攻击的不足，并应用LIME将分数基攻击与硬标签攻击连接起来，验证了内外攻击路径在硬标签攻击中的有效性。
大量实验表明，在小预算的查询情况下，有限攻击比现有的硬标签攻击算法具有更高的攻击成功率。与此同时，由极限攻击制作的对抗性例子是高质量的，人类很难区分。
此外，我们还对当前最先进的大型语言模型进行攻击和评估。结果表明，敌对的例子仍然是对大型语言模型的一个重大威胁。我们还增加了防御方法的攻击性能，以及攻击成功率和扰动率的收敛结果。

Method：
硬标签对抗性攻击
在硬标签设置中，攻击者只能查询受害者模型并获得离散预测标签。因此，硬标签设置更具实用性和挑战性。现有的硬标签攻击包含两阶段策略，即对手初始化和扰动优化。 HLBB（Mahesh wary、Maheshwary 和 Pudi 2021）初始化对抗性示例并采用遗传算法来优化扰动。 TextHoaxer（Ye 等人，2022b）和 LeapAttack（Ye 等人，2022b）2022a) 利用语义相似性和扰动率作为优化目标是在连续词嵌入空间中搜索更好的扰动矩阵。文本黑客（于等人。 2022）采用混合本地搜索算法和单词从攻击历史中学习的重要性表来指导本地搜索。这些攻击方法往往需要大量的查询降低扰动率，降低攻击成功率对手的质量受到初始化的限制。因此，在这项工作中，我们尝试制作一个对抗性示例直接来自良性样本。这种方法可以生成具有更少查询的高质量对抗性示例。
局部可解释方法
为了提高 DNN 可解释性并辅助决策，已经提出了各种解释 DNN 的方法并大致分为全局或局部可解释方法。全局可解释方法侧重于模型本身使用有关模型架构的整体知识和参数。相反，本地方法适合简单的和可解释模型（例如决策树）到单个输入衡量每个代币的贡献。详细点，本地可解释的方法（Lundberg 和 Lee 2017；Shrikumar等人。 2016年； ˇStrumbelj 和 Kononenko 2014) 将所有通过定义线性可解释性模型来输入标记假设输入中每个令牌的贡献是添加剂。这也称为附加特征归因方法。在本文中，局部可解释模型不可知解释（LIME）（Ribeiro、Singh 和 Guestrin 2016）是用于计算单词重要性，这是一个基本的和代表性的局部可解释方法。直觉LIME是通过删除来生成很多邻域样本良性示例中的一些原始单词。这些样品然后用于训练线性模型，其中特征等于良性样本中的单词数。该线性模型的参数近似于每个单词的重要性。由于 LIME 与模型无关，因此适合硬标签攻击。
现有硬标签攻击的局限性
为了直观地比较两者的区别LimeAttack 和现有的硬标签攻击算法，我们创建图 3 中的攻击搜索路径可视化。LimeAt Tack 的搜索路径由绿线表示，它们从内部移动到外部。 LimeAttack 利用本地可解释的方法来学习单词重要性排名，并从良性样本中迭代生成对抗性示例。这有助于 LimeAttack 找到最近的决策边界方向，并且攻击关键字的模型查询成本更少优先。相比之下，以前的硬标签攻击算法的搜索路径是用蓝线表示的，它们从外向内移动。这些算法通常从随机初始化的对抗性示例开始，通过最大化初始化示例和良性样本之间的语义相似性来优化扰动，这需要大量的模型查询来实现低扰动速度。此外，他们的攻击成功率和对手质量也受到对手初始化的限制。

问题公式
给定一个n个单词及其地面真相标签Y，一个对立的例子是通过用同义词替换一个或多个原始词来误导受害者模型F而制作的。i.e.,

D（·，·）是一个编辑距离，测量良性样本和对抗性例子之间的修改：

E（·，·）是一个二进制变量，如果，则等于0，否则等于1。一个高质量的对抗性例子应该与良性样本相似，人类读者应该很难区分出其区别。极限攻击属于硬标签攻击，它与模型的参数、梯度或置信度分数无关。攻击者只能查询受害者模型，获得预测标签。
所提出的极限攻击算法
总体流程图如图2所示。限制攻击遵循两个步骤，即单词的重要性排序和扰动执行。
Word重要性排名
给定一个有n个单词X的句子，我们假设所有单词的贡献都是可加性的，并且它们的和与模型的预测呈正相关。如图2所示，我们从一个良性的例子X中随机替换一些单词为‘[MASK]’，生成一些邻域样本。通常，有更多单词的句子通常需要更多的邻居样本来近似单词的重要性。因此，我们保持邻域样本的数量与令牌的数量保持一致。然后，我们将X提供给受害者模型F，以获得离散的预测标签。随后，我们将拟合一个线性可解释性模型来对这些邻域样本进行分类：

其中θ是线性模型的参数，I（·，·）是一个二进制变量，如果X中的单词xi，则等于1，否则为0。因此，参数反映了没有单词xi的变化，并近似于单词的重要性。在附录O中，我们通过实验验证了在微小的查询预算下，线性模型（如LIME）与一些先进的解释方法（如SHAP）或非线性模型（如决策树）具有相同的效果。形状模型或非线性模型也具有较高的计算复杂度。一些先进的解释方法或非线性模型的优势只有在有大量的邻域样本和查询时才会反映出来。
详细地说，我们将每个邻域样本Xi‘转换为二进制向量Vi’。如果在Xi‘中去掉了原词，则其在Vi’中对应的向量维数为0，否则为1。因此，Vi‘与Xi’的长度相同，这是良性例子的长度。一个良性的例子X也被转换为V。有时邻域样本不一定是线性可分的，LIME采用高斯核对每个样本的损失进行加权，以收集最接近原始样本的点，这有助于线性拟合。我们根据每个邻域样本与良性样本的距离（Ribeiro，Singh，和Guestrin 2016）给予其权重。

其中，d（.，.）是一个距离函数。我们采用余弦相似度作为距离度量。

最后，我们计算了最优参数θ∗：

其中Ω(θ)是参数的非零，这是对线性模型复杂性的度量。优化θ后，每个单词xi的重要性等于θi。LIME可以看作是原始样本中模型决策边界的近似值。这些参数可以解释为边际，边际越大，这个词在近似决策边界时的重要性就越大。我们将首先使用NLTK2过滤掉停止词，并计算每个单词的重要性。确保极限攻击产生了高质量的对抗性例子，而不仅仅是消极的例子。我们只采用同义词替换策略，通过在反拟合嵌入空间中选择最前k个最近的同义词，为每个单词xi构造同义词候选集C（xi）（Mrkˇsi‘cetal.2016）。此外，我们在附录一中展示了人类评估的结果和更多定性的对抗性例子。
扰动执行
对抗性例子生成是一个组合优化问题。基于分数的攻击通过选择引起最大变化的标记进行迭代每次都在模型的 logits 中。但没有这样的信息在硬标签攻击中。因此，我们只能依赖对抗样本与原始样本之间的相似性用于迭代的样本。问题是相似度和攻击成功率并不完全线性相关。作为如表7所示，每次贪婪地选择相似度最低的对抗样本并不能保证最终的攻击成功率是最优的。我们希望每个采样均匀分布以平衡攻击成功率和语义相似度。对于每个起源词xi，我们将其替换为c∈C（xi）来生成一个对抗示例，然后我们计算良性样本X之间的语义相似性通过通用句子编码器（USE）3。我们首先根据相似性对候选对象进行排序，并每次抽样b个对抗性的例子，以进入下一次迭代。详细地说，我们制定了以下采样规则： (1)采样b/3个语义相似度最高的对抗性样本。(2)抽样具有语义相似度最低的b/3个对抗性样本。(3)随机抽取剩余的敌对性样本中的b/3个。附录C和H总结了超参数b的分析和极限攻击算法的分析。

Experiments：
附录D和附件E中列出了对极限攻击的可转移性和对抗性训练的分析。
任务、数据集和模型
我们采用了7个常见的数据集，如先生（庞和李2005）、SST-2（Sochere人2013）、AG（张、赵和乐村2015）和雅虎（Yoo等人2020）进行文本分类。SNLI（Bowman等人，2015年）和MNLI（威廉姆斯、Nangia和鲍曼，2018年）的文本含义，其中MNLI包括一个匹配版本（MNLIm）和一个不匹配版本、（MNLImm）。此外，我们还训练了三种神经网络作为受害者模型，包括CNN（Kim，2014年）、LSTM（霍克雷特和施米德胡伯，1997年）和BERT（Devlin等人，2019年）。模型的参数和数据集的详细信息列于附录A中。
基线
我们选择以下现有的硬标签攻击算法作为我们的基线：HLBB（Maheshwary、Mahesh wary 和 Pudi 2021）、TextHoaxer（Ye 等人，2022b）、Leap Attack（Ye 等人，2022a）和 TextHacker（Yu 等人，2022）。此外，我们还收录了一些经典的基于分数的攻击算法，例如TextFooler (TF) (Jin等人。 2020)、PWWS (Ma, Shi, andguan 2020) 和 Bert Attack (Li et al. 2020) 供考，其中获得了额外的攻击的置信度分数并在TextAttack 框架（Morris 等人，2020）。
自动评估指标
我们使用四个指标来评估攻击性能：攻击成功率（ASR）、扰动率（Pert）、语义相似度（Sim）和查询数（查询）。具体来说，给定一个数据集由N个样本和相应的标签，攻击成功率对抗攻击方法，生成对抗的例子(X)给定输入X攻击受害者模型F，定义为（王et al. 2021）：

扰动率是替换数与原始token数的比例，这已在Eq 2中定义。语义相似度是通过通用句子编码器（USE）来度量的。大多数论文（马赫什瓦里、马赫什瓦里和普迪，2021年；Ye等人，2022年a）已经采用了USE。为了保持一致性和促进可比性，我们也使用了USE。查询号是在攻击期间的模型查询数。模型的鲁棒性与攻击成功率成反比，而扰动率和语义相似性共同揭示了对抗性例子的质量。查询号显示了攻击的效率。
实施细节
我们设置核宽度 σ = 25，邻域样本的数量等于良性样本的数量令牌，光束大小 b = 10。为了公平比较，所有基线遵循相同的设置：选择同义词来自反向安装的嵌入空间和每个嵌入空间的数量候选集 k = 50，同样采样 1000 个文本攻击的基线。结果是五次运行的平均值不同的种子（1234、2234、3234、4234和5234）来消除随机性。为了提高对抗质量例如，如果每个的扰动率都相同，则攻击成功对抗性例子不到10%。我们设置一个小查询硬标签攻击的预算为 100，对应于现实世界的设置。（例如，HuggingFace 免费推理API 通常将调用次数限制为每分钟 200 次。）
实验结果
攻击性能：表1和表2显示，Lime攻击在文本分类和文本隐含任务上优于现有的硬标签攻击，在SST-2、AG和MNLI等数据集上获得了更高的攻击成功率和更低的扰动率。与现有的硬标签攻击需要许多查询来优化扰动不同，Lime攻击采用了一种本地可解释的方法来计算单词的重要性排序，并首先攻击关键词。这种方法可以生成具有高攻击成功率的对抗性示例，即使是在很小的查询预算下。附录G包括一个t检验和与其他方法相比的限制攻击的成功率的平均值和方差。在附录K和L中，我们列出了Lime攻击和几种基于分数的攻击之间的语义相似性和比较结果。
查询预算：如图3所示，在不同的查询预算下，LimeAttatack仍然保持着稳定的攻击成功率和更平滑的攻击曲线，这意味着无论查询预算是高或低，Lime攻击通常都具有稳定和优秀的攻击性能。扰动率的变化趋势见附录n，通过比较低查询和高查询预算下的攻击性能，可以提供更全面的评价。然而，不考虑查询预算的攻击是一种比较理想的情况，它显示了攻击算法的上限。大量的查询是昂贵的，我们认为在低查询预算下的攻击性能更实用。我们还在附录N中列出了在查询预算为2000下的不同攻击的一些攻击成功率和扰动率。

对手的品质：高质量的对抗样本应该既流畅又具有上下文感知能力，同时也与良性样本相似以逃避人类检测。我们利用语言工具4并用于检测语法错误并测量语义相似性。如表3所示，LimeAttack 的扰动率和语法性最低错误，虽然其语义相似度低于HLBB，TextHoaxer 和 LeapAttack。因为这些方法需要在攻击过程中考虑相似性，因此 LimeAttack与其他方法相比，相似度较低。考虑到所有指标中，LimeAttack 仍然占据主导地位。为了直观地比较对抗性例子的质量，一些定性的附录一提供了示例。

大型语言模型的评估：大语言模型（LLM），也称为基础模型（Bom masani et al. 2021），在以下方面取得了令人印象深刻的表现各种自然语言处理任务。然而，它们对对抗性例子的鲁棒性仍不清楚（Wang 等人，2023）。为了评估 LimeAttack 对法学硕士的有效性，我们选择了一些流行的型号，例如DeBERTa-L（Kojima等人。 2022）、BART-L（Lewis 等人，2019）、Flan-T5（Raffel
等人。 2020)、GPT-3 (text-davinci-003) 和 ChatGPT (gpt-3.5-turbo）（Brown 等人，2020）。由于API调用有限，我们从 MR 数据集中抽取 100 个文本，并攻击这些模型的零样本分类任务。如表4所示，LimeAttack 成功攻击了大多数 LLM查询预算。尽管这些模型具有很高的准确度零样本任务，它们对对抗性例子的鲁棒性仍然需要改进。 ChatGPT 和 T5-L 更稳健到对抗性的例子。受害者模型的稳健性与原点精度有关。原点精度越高，受害者模型防御对抗性的能力越强例子。其他硬标签攻击的进一步分析和实验细节在附录 F 中讨论。

对防御方法的攻击性能 ：评估LimeAttack 对防御方法的有效性，我们使用 A2T（Yoo 和 Qi 2021）和 ASCC（Dong 等人，2021）增强BERT对SNLI的防御能力，并在此基础上进行了攻击实验。如表5所示，LimeAttack仍然有一定的攻击效果和结果这些防御方法的其他基线。更多攻击性能防御方法列于附录M。
消融研究
单词重要性排名的影响：为了验证单词重要性排序的有效性，我们删除了单词重要性排名策略，而是随机选择单词进行扰动以评估其有效性。表6表明在没有单词重要性排名的情况下，攻击MR 和 SST 的成功率分别下降 9% 和 6%分别是2个数据集。此外，对抗性例子随机选择产生的扰动率更高并需要更多查询。这表明了重要性引导 LimeAttack 聚焦的单词重要性排名关键词，以更低的成本实现更有效的攻击扰动率。
抽样规则的效果：为了验证LimeAttack抽样规则的有效性，我们将用三种常见的抽样规则之一替换该策略： (1)选择b个语义相似度最高的对抗性例子，(2)选择b个语义相似度最低的对抗性例子，或(3)随机选择b个对抗性例子。表7的结果表明，Lime攻击具有较高的攻击成功率和较低的扰动率，优于其他采样规则。此外，它还具有类似的（第二高的）语义相似度和查询的数量。

人工评价
我们选择了 200 个 BERT-MR 对抗样本。每个对抗性例子都由两名人类评委进行评估语义相似度、流畅度和预测准确性。这整个人类评价与TextFooler一致（Jin等人。 2020）。具体来说，我们要求人类评委打出 5 分Likart 量表（1-5 对应于非常不流利/相似，不流畅/相似、不确定、流畅/相似、非常流畅/相似分别）评价相似度和流畅度对抗性样本和良性样本。结果是如表8所示，语义相似度为4.5，即对抗样本与原始样本相似。这里的预测准确度是让人类能够预测出什么这句话的标签是（例如它是肯定的还是否定的情绪分析）。 76.7% 表示大多数是敌对的示例与原始样本具有相同的属性人类的视角却错误的受害者模型。

Conclusion：
在本工作中，我们总结了以往基于分数的攻击和硬标签攻击，并提出了一种新的硬标签攻击算法，称为极限攻击。极限攻击采用一种局部可解释的方法来近似计算单词的重要性排序，然后利用波束搜索，以微小的查询预算生成高质量的对抗性示例。实验表明，极限攻击的攻击成功率高于其他硬标签攻击的攻击成功率。此外，我们还评估了极限攻击在大型语言模型和一些防御方法上的攻击性能。极限攻击所制作的对抗性实例具有高质量、高可转移性，提高了受害者模型在对抗性训练中的鲁棒性。极限攻击已经验证了在硬标签中的内外攻击路径的有效性。然后，许多优秀的基于分数的攻击可能会提供更深入的硬标签攻击。