剖析多模态大模型智能体的对抗鲁棒性

2025-07-03

《多模态 LM 智能体的对抗鲁棒性分析及评估框架》

以下是《Dissecting Adversarial Robustness of Multimodal LM Agents》一文的内容翻译与结构梳理，结合核心研究目标、方法、结果及结论展
github仓库：https://github.com/ChenWu98/agent-attack

一、研究背景与目标

背景

随着大语言模型（LLMs）用于构建自主智能体（如网页交互、物理世界操作），其对抗鲁棒性成为关键挑战。与聊天机器人不同，智能体是多组件复合系统，现有 LLM 安全评估无法覆盖其复杂攻击面。
目标

分析多模态 LM 智能体在真实环境中的对抗鲁棒性。
提出评估框架，揭示攻击如何通过智能体组件传播。
验证现有智能体（包括反射、树搜索等先进架构）的脆弱性，并探索防御思路。

二、核心方法与框架

实验环境：VWA-Adv

在 VisualWebArena（网页智能体环境）基础上，构建包含 200 个 adversarial 任务的扩展集，模拟真实攻击场景（如篡改商品图像 / 文本），定义 “良性成功率（Benign SR）” 和 “攻击成功率（ASR）” 作为评估指标。
Agent Robustness Evaluation（ARE）框架

将智能体建模为有向图：节点为组件（环境、策略模型、评估器等），边表示信息流向及 “对抗影响力（AdvIn）”，用边权重 λ 量化攻击传播强度。
核心价值：分解攻击成功率，定位脆弱组件，比较不同智能体架构的鲁棒性差异。

三、智能体类型与架构

文中聚焦 4 类典型智能体，基于组件构成差异建模为不同图结构：

基础智能体（Base Agent）：仅含策略模型，直接接收环境的图像和文本输入。
字幕增强型智能体：策略模型 + 字幕生成器（将图像转为文本，辅助决策）。
反射智能体（Reflexion Agent）：策略模型 + 评估器（评估轨迹并生成反思，支持二次尝试）。
树搜索智能体：策略模型 + 价值函数（策略生成候选动作，价值函数评分并选择最优）。

四、攻击方式与实验结果

针对不同智能体组件和访问权限（文本 / 图像），设计多种攻击，核心结果如下：

文本注入攻击

场景：攻击者可修改环境文本（如商品描述）。
效果：对 GPT-4o 策略模型的 ASR 达 40%，可覆盖视觉输入的影响。

字幕生成器攻击（白盒图像攻击）

场景：针对带白盒字幕生成器的智能体，篡改图像使字幕生成器输出对抗性文本。
效果：ASR=31%，92% 的字幕含对抗信息（λ=0.92），揭示 “字幕生成器提升性能但引入风险” 的权衡。

CLIP 攻击（黑盒图像攻击）

场景：针对无白盒字幕生成器的智能体，通过优化图像扰动（<5% 像素），利用 CLIP 与黑盒 LM 的迁移性实施攻击。
效果：自字幕智能体 ASR=19%，基础智能体 ASR=10%（因需从触发图像迁移至完整截图，难度更高）。

评估器攻击（反射智能体）

场景：攻击评估器使其接受对抗动作、生成恶意反思。
效果：单独攻击 ASR=8%；联合攻击策略模型时，ASR 从 31% 升至 36%。

价值函数攻击（树搜索智能体）

场景：攻击价值函数使其对恶意动作打高分。
效果：单独攻击 ASR=8%；联合攻击时，ASR 从 31% 升至 38%。

五、防御策略与局限性

防御尝试

系统提示词：无效，无法提升鲁棒性。
释义防御：将不可信文本释义，ASR 从 31% 降至 27.5%，效果有限。
显式一致性检查：逐图生成字幕并校验，ASR 近零，但 API 调用成本高，且组件本身可能被攻击（上限 38%）。

局限性

攻击仅验证了网页环境，未扩展至操作系统等场景。
未覆盖新兴智能体算法，鲁棒性需持续跟踪。

六、结论与意义

现有先进智能体（包括 GPT-4o 驱动的反射 / 树搜索智能体）易受攻击，单图扰动即可实现 67% 的 ASR。
新增组件（评估器、价值函数）在未被攻击时提升鲁棒性，但被攻击后反而增加脆弱性。
提出的 ARE 框架为分析智能体系统级鲁棒性提供了工具，呼吁更强防御机制的研发。

PPT 结构建议

标题页 + 研究背景（1-2 页）
核心方法（VWA-Adv + ARE 框架，2-3 页）
智能体架构与攻击方式（结合图示，3-4 页）
关键结果与分析（对比不同攻击效果，2-3 页）
防御与局限（1-2 页）
结论与未来方向（1 页）

可重点突出 “组件 - 攻击 - 鲁棒性” 的关联，用图表（如图 4、5、6）直观展示攻击成功率差异。

（注：文档部分内容可能由 AI 生成）

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是yilia根目录）执行以下命令：
npm i hexo-generator-json-content --save

3、在根目录_config.yml里添加配置：

  jsonContent:
    meta: false
    pages: false
    posts:
      title: true
      date: true
      path: true
      text: false
      raw: false
      content: false
      slug: false
      updated: false
      comments: false
      link: false
      permalink: false
      excerpt: false
      categories: false
      tags: true

很惭愧<br><br>只做了一点微小的工作<br>我是菜鸟