论文笔记 - MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

1. Information

Title: MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
Link: MMKE-Bench Paper
Source: International Conference on Learning Representations (ICLR)
Date: 2025

2. Summary

本文提出了 MMKE-Bench,一个面向真实场景的多模态知识编辑基准测试,旨在评估大型多模态模型(LMMs)对复杂视觉知识的编辑能力。与现有基于三元组的实体级编辑基准不同,MMKE-Bench采用自由形式的自然语言描述与图像结合的知识表示方式,并设计了三种编辑任务:

  1. 视觉实体编辑(更新实体相关视觉知识,如替换图像并修改关键属性);
  2. 视觉语义编辑(修改复杂行为或关系,如裁判手势的规则);
  3. 用户特定编辑(注入个性化知识,如用户与物品的关系)。

实验表明,现有方法在视觉语义和用户特定编辑任务中表现较差,且无单一方法能在所有评估指标上表现优异。MMKE-Bench 包含 2,940 条知识条目和 8,363 张图像,覆盖 33 个类别,显著提升了多模态知识编辑的挑战性。

3. Background

大规模语言模型(LLMs)和大规模多模态模型(LMMs)已在多个任务上取得成功。然而:

  • 其知识会随着时间推移而过时或错误,需要知识编辑技术来进行更新,而非重新训练整个模型。
  • 现有的知识编辑基准(如 VLKEB、MMEdit、MIKE)大多基于三元组表示(subject, relation, object),主要关注实体级知识,无法充分模拟现实中多模态知识的复杂性(如动作、姿态、物体关系等)。
  • 在 VLKEB 基准上,简单微调 LLaVA 模型即可达到99.59% 可靠性99.43% 文本泛化性95.48% 图像泛化性,表明现有基准已被模型“学透”,缺乏挑战性。

MMKE-Bench 旨在解决这些问题,引入更具挑战性的多模态知识编辑任务

4. Research Objective

  1. 构建更全面的多模态知识编辑基准,不仅涵盖视觉实体编辑,还包括视觉语义编辑用户特定编辑
  2. 提供更真实的知识表达,使用自由格式的自然语言(而非三元组)来表示知识,提高可读性和灵活性。
  3. 定义四个核心评估标准(可靠性、局部性、泛化性、可迁移性),系统评估知识编辑方法的表现。
  4. 分析当前 LMMs 的知识编辑能力,揭示现有方法的局限性,并推动新方法的发展。

5. Method

5.1 知识编辑任务定义

MMKE-Bench 设计了三种知识编辑任务:

  1. 视觉实体编辑:针对实体中心的修改,描述涵盖实体的多个方面。通过替换同类型的实体图像,并将关键信息修改为反事实内容,以纠正模型对实体的错误识别或过时信息。
  2. 视觉语义编辑:专注于复杂的视觉语义中心修改,包括肢体动作、物体行为和关系等。通过替换同类型的语义动作图像,并修改规则或含义为反事实内容,以纠正模型对语义的错误理解和识别。
  3. 用户特定编辑:关注将个性化用户信息注入 LMMs,描述用户与对象之间的关系及其体验。由于这是为模型添加全新的个性化知识,因此不需要进行反事实编辑,直接使用原始知识作为编辑知识。

知识表示采用: \[ k=(i, d) \] 其中:

  • \(i\) 为图像,
  • \(d\) 为自由格式的文本描述(包括主要对象、视觉内容或用户个性化信息)。

编辑后知识表示:

  • 视觉实体/语义编辑:\(k_e=(i_e, d_e)\)
  • 用户特定编辑:\(k_e = (i, d)\) (不涉及图像或文本修改,只是插入新知识)

5.2 数据集构建

基准测试的构建分为四个步骤:

  • 原始知识收集:列出候选的细粒度实体、视觉语义或用户特定项目,并收集相应的图像和描述。对于视觉实体编辑,从 MMpedia 和 OVEN 数据集中获取候选实体,并进行筛选和图像收集;对于视觉语义编辑,定义了 14 个广泛类别的语义知识,并从相关数据集或通过爬取和人工验证收集图像和描述;对于用户特定编辑,考虑了 9 个类别的个性化信息,并从不同来源收集图像和描述。
  • 编辑知识生成:对视觉实体和视觉语义知识进行编辑,而用户特定知识保持不变。在视觉模态中,采用图像替换方法,将实体或语义动作的图像随机替换为同类型的另一张图像;在文本模态中,将实体的关键信息和语义动作的规则或含义修改为反事实内容,并更新动作描述以与新的视觉内容一致。
  • 评估问题生成:遵循可靠性、局部性、泛化能力和可移植性四个关键评估原则,自动生成问题和答案,并进行人工验证和修订。具体来说:
    • 可靠性问题生成:评估编辑后的知识是否正确生成,考虑文本可靠性和图像可靠性,分别衡量 LMM 在文本和视觉模态中的编辑能力。通过提示 LLM 生成与编辑后的反事实内容相关的问题,并要求问题必须涉及编辑内容的一个方面。例如,对于足球裁判的越位手势,可以生成关于越位手势处罚位置的问题。
    • 局部性问题生成:评估编辑模型中未涉及的知识保持不变的程度,通过比较编辑前后模型的输出来衡量。对于文本和图像局部性,分别从 VLKEB 基准测试中获取问题和答案,其中文本问题来自 NQ 数据集,图像问题由 VLKEB 特别设计。
    • 泛化能力问题生成:评估模型对邻近样本的响应效果。由于知识表示为自由形式,仅关注图像泛化能力。通过随机选择同一实体、视觉行为或个性化项目的另一张图像,并重复使用图像可靠性中的相同问题和答案来生成泛化问题。
    • 可移植性问题生成:评估编辑后的知识是否能够成功应用于相关的内容。对于视觉实体编辑,利用 Wikipedia 中的补充信息生成关于编辑内容的问题,并结合另一个关于编辑内容的问题来形成最终的可移植性问题。对于视觉语义和用户特定编辑,将主行为或项目的图像与同类型的另一张图像组合成新图像,并提出关于两张图像之间差异的问题,如头发颜色或物体形状,然后将该问题与涉及编辑内容的问题结合起来生成最终的可移植性问题。
  • 人工检查与基准测试统计:在基准测试构建过程中,多次手动收集、审查和筛选样本,确保收集的图像质量,并在反事实编辑和问题生成后,人工审查问题,修订不适当的问题,纠正错误的答案。

5.3 评估标准

  • 可靠性(Reliability):验证编辑后的知识是否被正确应用; \[ \mathbb{E}_{\left(i_e, q_r, a_r\right) \sim Q_{r e l}} \mathbb{I}\left[M_\theta^{\prime}\left(i_e, q_r\right)=a_r\right] \]

  • 局部性(Locality):确保无关知识未被修改; \[ \mathbb{E}_{\left(i_l, q_l\right) \sim Q_{l o c}} \mathbb{I}\left[M_\theta\left(i_l, q_l\right)=M_\theta^{\prime}\left(i_l, q_l\right)\right] \]

  • 泛化性(Generalization):测试模型对同类图像的泛化能力; \[ \mathbb{E}_{\left(i_e^g, q_g, a_g\right) \sim Q_{g e n}} \mathbb{I}\left[M_\theta^{\prime}\left(i_e^g, q_g\right)=a_g\right] \]

  • 可移植性(Portability):评估知识在新上下文中的应用能力; \[ \mathbb{E}_{\left(i_e^p, q_p, a_p\right) \sim Q_{p o r t}} \mathbb{I}\left[M_\theta^{\prime}\left(i_e^p, q_p\right)=a_p\right] \]

6. Evaluation

6.1 实验设置

  • 模型:BLIP-2、MiniGPT-4、LLaVA-1.5;
  • 编辑方法:Fine-tuning(FT)、IKE、SERAC、MEND、KE;
  • 任务类型:单次编辑(Single Editing)和连续编辑(Sequential Editing)。

6.2 主要发现

  1. IKE在可靠性和泛化性上表现最佳(如LLaVA-1.5的文本可靠性达75.65%);
  2. SERAC和MEND在局部性上最优(图像局部性>99%);
  3. 视觉语义和用户特定编辑更具挑战性(可靠性比视觉实体低10-20%);
  4. 现有方法在可移植性上普遍较差(KE表现最佳,但平均仅25.4%);
  5. LLaVA-1.5整体性能最优,得益于更大的模型规模和指令调优设计。

7. Conclusion

  • MMKE-Bench 提供更真实的知识编辑任务,推动 LMMs 研究。
  • 没有单一方法能在所有指标上表现最佳,需要进一步优化。
  • 现有方法在视觉和个性化编辑方面仍有较大挑战

8. Notes

8.1 使用反事实编辑潜在的问题

1. 反事实内容的合理性

问题:

  • 如果生成的反事实不够自然或合理,可能会导致模型在编辑后仍然无法正确理解内容。
  • 例如,将“伊布是瑞典人”改为“伊布是日本人”可能明显不符合常识,而如果改为“伊布是挪威人”可能更自然。

影响:

  • 如果反事实内容过于随机或不符合语境,可能会误导模型,使其学习到不合理的知识结构。
  • 可能影响评测结果,使得知识编辑任务变得过于简单或难以评估。

2. 反事实可能引发模型的误解

问题:

  • 反事实内容可能会影响模型的已有知识,导致模型在知识编辑后对原始事实和反事实的区分不清
  • 例如,如果反事实内容是“Eiffel Tower 位于 London”,模型可能会混淆 LondonParis 之间的关系。

影响:

  • 如果知识编辑方法不能很好地局部更新知识,则可能影响模型对未修改内容的理解,例如:
    • 修改“伊布是瑞典人”为“伊布是挪威人”,可能导致模型对其他瑞典球员(如拉尔森)的认知也受到干扰。
    • 编辑“裁判举手表示越位”为“裁判举手表示点球”,可能导致模型错误回答未被编辑的问题。

3. 反事实知识的冲突

问题:

  • 反事实知识可能与模型已有知识冲突,导致编辑失败或产生不一致的输出。
  • 例如,若 LMM 之前已经学习到“Eiffel Tower 在 Paris”,但编辑任务要求改为“Eiffel Tower 在 London”,模型可能会:
    • 拒绝修改,仍然输出 Paris(知识编辑失败)。
    • 在不同回答中输出 Paris 和 London(知识冲突)。
    • 仅在某些场景下记住 London,但在其他场景下仍然回答 Paris(部分编辑成功)。

影响:

  • 多轮编辑可能导致矛盾:
    • 例如,模型先被编辑为“伊布是挪威人”,后又被编辑为“伊布是巴西人”,可能导致模型输出不稳定。
  • 影响模型一致性,使得相同问题在不同对话轮次或不同场景下给出不同答案。

4. 泛化性问题

问题:

  • 反事实知识编辑通常只修改单个知识点,但现实世界的知识往往是互相关联的,模型可能无法正确泛化。
  • 例如:
    • 编辑“伊布是瑞典人”为“伊布是挪威人”,但模型仍然回答“伊布出生于瑞典”。
    • 编辑“越位判罚后在犯规点开球”为“越位判罚后在球门区开球”,但模型在其他足球规则相关问题中仍然使用旧规则。

影响:

  • 反事实编辑后,模型可能对相关知识的推理能力下降,只能在特定问题中表现正确,而在新问题上仍然依赖旧知识。
  • 可能导致知识编辑的效果有限,无法真正模拟现实场景中的知识变化。

5. 可迁移性问题

问题:

  • 反事实编辑可能仅适用于特定场景,但无法迁移到类似场景
  • 例如:
    • 修改“伊布是瑞典人”为“伊布是挪威人”,但如果问“瑞典足球史上最著名的球员是谁?”,模型可能仍然回答伊布,而不是拉尔森。

影响:

  • 影响模型对新输入的适应能力,导致知识编辑的作用局限于特定案例,无法真正推广到整个知识库。

论文笔记 - MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
http://hellochuanyang.github.io/2025/03/10/论文笔记-MMKE-Bench-A-Multimodal-Editing-Benchmark-for-Diverse-Visual-Knowledge/
作者
阿阳
发布于
2025年3月10日
许可协议