论文笔记 - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing
1. Information
Title: ComprehendEdit: A Comprehensive Dataset and
Evaluation Framework for Multimodal Knowledge Editing
Link: ComprehendEdit Paper
Source: arxiv
Date: 2024.12.17
2. Summary
- 提出了 ComprehendEdit,一个用于多模态知识编辑的基准数据集和评测框架。
- 设计了新的评估指标 知识泛化指数 (KGI, Knowledge Generalization Index) 和 知识保持指数 (KPI, Knowledge Preservation Index),用于衡量编辑后模型对相似任务的泛化能力以及对原有正确知识的保持能力。
- 引入 层次化上下文编辑 (HICE, Hierarchical In-Context Editing),作为基线方法,旨在在不影响外部样本的情况下改进模型的编辑能力。
- 进行了广泛的实验,包括对比现有方法(如 IKE、SERAC、MEND),并展示了 HICE 方法在多个关键指标上的优势。
3. Background
随着大型多模态语言模型(MLLMs)的发展,其在自然语言处理和视觉理解方面取得了显著进展,但这些模型常常包含过时或不准确的信息。现有的多模态知识编辑评估方法存在局限性,例如评估范围狭窄、依赖 AI 合成样本导致评估偏差,以及仅关注与编辑任务无关的样本。这些问题限制了对多模态知识编辑技术的全面评估和改进。
4. Research Objective
- 构建一个全面的基准数据集 ComprehendEdit,包含 8 种任务(如 目标识别、目标计数、空间关系、文本识别)。
- 设计新的评估指标 KGI 和 KPI,衡量模型在知识编辑后对相似任务的泛化能力以及是否破坏了原有正确知识。
- 提出 HICE 方法,在不修改模型参数的情况下,通过上下文学习提高编辑性能。
5. Method
5.1 数据集构建
- ComprehendEdit 由 8 种任务 组成,数据来源包括 GQA、TallyQA、VSR、TextVQA、MathVista 等,确保任务多样性。
- 采用 BLIP-2 OPT 2.7B 和 MiniGPT-4 7B 进行预测,并过滤掉两个模型都无法正确预测的样本。
- 训练集与测试集的比例约为 3:1。
5.2 评估指标
传统指标(Cheng et al. 2023)
- 可靠性(Reliability):编辑后目标样本的正确率。
- 泛化性(Generality):改写问题(T-G)与生成图像(M-G)的正确率。
- 局部性(Locality):跨领域样本的输出一致性。
新指标:KGI与KPI
知识泛化指数(KGI):衡量编辑后模型对同领域原错误样本的改进效果。 \[ \mathcal{M}_{K G I}=\mathbb{E}_{s \in \mathcal{D}_e, s^{\prime} \in \mathcal{D}_{K G I}(s)} \mathbb{I}\left(f\left(i^{\prime}, x^{\prime} ; \theta_e\right)=y^{\prime}\right) \]
知识保持指数(KPI):衡量编辑后模型对同领域原正确样本的保持能力。 \[ \mathcal{M}_{K P I}=\mathbb{E}_{s \in \mathcal{D}_e, s^{\prime} \in \mathcal{D}_{K P I}(s)} \mathbb{I}\left(f\left(i^{\prime}, x^{\prime} ; \theta_e\right)=y^{\prime}\right) \]
高效采样策略:基于图像/文本相似性,从 KGI/KPI 子集中选取最相似与最不相似的样本(k=4),降低计算开销。
5.3 层次化上下文编辑(HICE)
计算分类器 \(W^*\):
- 提取文本特征 \(F \in \mathbb{R}^{4 N \times d}\) 并投影到高维空间:
\[ F_p=F W_r \in \mathbb{R}^{4 N \times M} \]
- 通过带正则项的最小二乘优化计算 \(W^*\):
\[ W^*=\arg \min _W\left\|Y-F_p W\right\|^2+\lambda\|W\|^2 \]
- 解析解:
\[ W^*=\left(F_p^{\top} F_p+\lambda I\right)^{-1} F_p^{\top} Y \]
其中 \(\lambda\) 为正则化系数。
构建记忆存储:
- 维护两个记忆:
- 文本记忆 \(M_1\):存储训练样本,通过 k-means 聚类 选择代表样本。
- 外部难样本记忆 \(M_2\):存储难以分类的外部样本,以提高分类器 \(W^*\) 的准确率。
- 维护两个记忆:
推理阶段:
判断样本是否需要编辑:如果问题 \(x\) 与 \(M_2\) 中样本的最大相似度低于阈值 \(T\),且被分类为 同域数据,则进行编辑。
构造新的输入问题: \[ x_{\text {new }}=\left[s_1 ; s_2 ; \ldots ; s_{k_0} ; s_o ; x\right] \] 其中 \(\left\{s_i\right\}_{i=1}^{k_0}\) 是从 \(M_1\) 中检索的相似示例,\(s_o\) 是当前问题的转换版本。
6. Evaluation
6.1 实验设置
- 对比方法:FT-L(微调语言模型)、FT-V(微调视觉模型)、IKE(上下文学习)、SERAC(反事实模型)、MEND(元学习)。
- 评估指标:Rel、T-G、T-L、M-L、KGI、KPI。
6.2 主要结果
- ComprehendEdit基准:HICE 在 KGI(13.9)和 KPI(46.34)上显著优于其他方法,验证其对同领域样本的平衡能力。
- 跨数据集对比:在 E-VQA 上,HICE 的 M-L(81.58%)优于 MEND(52.56%),表明其分类器有效区分跨领域样本。
6.3 消融实验
- 关键模块:记忆库 \(M_1\) 对提升泛化性(T-G +76.34%)至关重要,分类器W∗W∗与记忆库M2M2显著改善跨领域局部性(M-L +44.94%)。
- 参数敏感性:投影维度 M=10,000 时效果最佳;阈值 T=0.85 平衡了编辑效果与局部性。
7. Conclusion
- ComprehendEdit 提供了 更全面的多模态知识编辑评测,克服了现有数据集的缺陷。
- 提出的 HICE 方法 在 知识泛化(KGI)、知识保持(KPI)、文本局部性(T-L)、多模态局部性(M-L) 上取得平衡。