论文笔记 - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions

1. Information

Title: MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions
Link: MeLLo Paper
Source: Empirical Methods in Natural Language Processing (EMNLP)
Date: 2023.05.24

2. Summary

本文介绍了 MQuAKE (Multi-hop Question Answering for Knowledge Editing)，这是一个用于评估大型语言模型 (LLMs) 知识编辑效果的基准测试，通过多跳问题来评估。作者指出，当前的知识编辑方法虽然能够成功回忆编辑过的事实，但在需要基于编辑事实进行推理的多跳问题上表现糟糕。为此，他们提出了 MeLLo (Memory-based Editing for Large Language Models)，这是一种新颖的方法，通过将编辑过的事实存储在外部记忆中，并迭代地提示语言模型生成一致的答案。MeLLo 在处理多跳问题上显著优于现有方法，且无需额外训练。

3. Background

随着大型语言模型 (LLMs) 在各种应用中的广泛部署，其知识迅速过时的问题日益凸显。由于重新训练这些模型的成本过高，因此出现了通过更新模型权重来注入新事实的技术。然而，现有的评估范式主要关注模型是否能够回忆起新注入的事实，而忽略了模型在编辑事实后是否能够处理答案应随之改变的问题。这一评估缺口至关重要，因为它反映了模型整合新知识并进行推理的能力。

4. Research Objective

本研究的主要目标是开发一个全面的基准测试 MQuAKE，以评估 LLMs 的知识编辑方法的有效性。具体来说，该基准旨在评估编辑后的模型是否能够正确回答多跳问题，这些问题的答案应基于编辑事实的逻辑后果而改变。此外，作者还旨在提出一种新的方法 MeLLo，通过利用外部记忆存储编辑过的事实，并确保与编辑知识的一致性，从而有效处理多跳问题。

5. Method

5.1 问题定义

知识表示
- 事实表示为三元组 \((s, r, o)\)，其中 \(s\) 为主体，\(r\) 为关系，\(o\) 为客体。
- 模板 \(t_r(s)\) 用于将三元组转化为自然语言问题。
公式： \[ f^*(t_r(s)) = o^* \] 其中 \(f^*\) 表示编辑后的模型。
多跳问题构造

多跳问题链： \[ C=\left\langle\left(s_1, r_1, o_1\right),\left(s_2, r_2, o_2\right), \ldots,\left(s_n, r_n, o_n\right)\right\rangle \] 满足 \(o_i = s_{i+1}\)

知识编辑公式
- 单个编辑： \(e = (s, r, o \to o^*)\)
- 多个编辑： \(K(f, E) = f^*\) 其中 \(K\) 为知识编辑函数。

5.2 Mello 方法

提出了新的知识编辑方法 MeLLo，核心思想如下：
1. 存储已编辑事实：将编辑事实存储在外部记忆中。
2. 逐步推理：将多跳问题分解为子问题，模型逐步回答并检查答案与已编辑事实的一致性。
3. 自我校验：模型检查推理步骤中是否违反已编辑知识，必要时用检索到的已编辑事实覆盖冲突答案，从而确保推理结果与已编辑知识一致。
MeLLo 不需要额外训练，可以应用于大型黑箱 LMs，如 GPT-3.5。

6. Conclusion

本文提出了 MQuAKE，这是一个用于评估 LLMs 知识编辑方法的基准测试，通过多跳问题来评估。结果表明，现有方法在处理多跳问题时效果不佳，突显了开发更忠实的知识编辑技术的必要性。提出的 MeLLo 方法通过利用外部记忆存储编辑过的事实，并通过迭代提示确保一致性，展示了卓越的性能。

论文阅读

#深度学习 #NLP #知识编辑

论文笔记 - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions

http://hellochuanyang.github.io/2025/01/26/论文笔记-MQuAKE-Assessing-Knowledge-Editing-in-Language-Models-via-Multi-Hop-Questions/

作者

阿阳

发布于

2025年1月26日

许可协议

论文笔记 - Memory-assisted prompt editing to improve GPT-3 after deployment 上一篇

论文笔记 - Transformer-Patcher: One Mistake worth One Neuron 下一篇