论文综述:模型该什么时候改变主意?
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models
📄 查看原文 →一、论文是干什么的?
想象你正在和一位侦探一起破案。每出现一条新线索,侦探都需要做出判断:这条线索是否应该改变他现在的嫌疑人名单?如果新证据确实推翻了之前的判断,他就要更新名单;如果之前的证据仍然成立,他就要坚持原来的判断;如果来了一段无关的闲话,他应该直接忽略,而不是因此乱改名单。
现在的 AI 大语言模型在这方面表现非常糟糕:
- 要么”说变就变”——明明没有新的有效证据,却轻易改口
- 要么”死不悔改”——明明有新证据推翻了旧结论,却固执坚持错误
这篇来自浙江大学的论文专门研究:AI 模型该什么时候改变自己的”想法”(信念),什么时候应该坚持,什么时候应该忽略干扰? 他们把这个能力叫做”情境信念管理”(Contextual Belief Management,CBM)。
二、核心方法与创新
测试平台:BeliefTrack(两个任务)
任务一:规则发现(Rule Discovery)
灵感来自心理学实验”韦森选择任务”。裁判脑子里有一条隐藏规则(比如”所有偶数都符合这条规则”),每轮告诉AI一个数字和它是否符合规则,AI需要随时维护一个”候选规则列表”。每来一条新信息,AI都要判断:要不要根据新信息更新这个列表?
任务二:电路诊断(Circuit Diagnosis)
类似电工排查电路故障。每轮给AI一个仪器的读数,AI需要维护”可能故障清单”,每轮根据新读数增删候选故障。
这两个任务的共同特点是:答案有精确的标准答案可以客观核对。
三类错误的诊断
| 错误类型 | 生活类比 | 技术含义 |
|---|---|---|
| 失败保持 | 本来名单没变,侦探无缘无故改了 | 正确信念本不该变,模型却错误地改变了 |
| 失败更新 | 来了铁证,侦探死守旧名单不肯更新 | 正确信念应该更新,模型却没有更新 |
| 失败隔离 | 听到”今天天气不错”就乱改名单 | 无关干扰信息应被忽略,模型却被影响 |
三种改进方法效果对比
| 方法 | 总失败率降低 | 备注 |
|---|---|---|
| 提示词工程 | 效果有限 | 知道”应该怎么做”,执行时还是老样子 |
| 强化学习训练(GRPO) | 降低 70.9% | 效果最显著 |
| 表示级方向控制 | 降低 46.1% | 无需重新训练,推理时注入向量 |
强化学习方法: 每次模型给出的信念状态和正确答案越接近,得分越高(用”杰卡德相似系数”打分)。通过大量练习,模型逐渐学会了什么时候该更新、什么时候该坚持。
表示级方向控制: 从训练好的强化学习模型和原始模型的内部表示中,提取出”高水平信念管理能力对应的方向向量”,推理时把这个向量加到原始模型的相应位置,无需重新训练。
三、使用了哪些模型和计算资源?
实验模型:
| 模型 | 参数量 | 来源 |
|---|---|---|
| Qwen2.5-7B-Instruct | 70亿 | 阿里巴巴(开源)— 主要实验对象 |
| Qwen3.5-9B | 90亿 | 阿里巴巴(开源) |
| DeepSeek-V3.2 | — | 深度求索 |
| GPT-5.2 | — | OpenAI(闭源) |
GPU: 强化学习训练在 5块 NVIDIA A800 80G 上进行,使用 Swift 训练框架;推理使用 vLLM,精度 bfloat16。
训练步数: Qwen2.5 在规则发现任务约 500 步,电路诊断约 374 步;总训练时长论文未披露。
四、实验结果
Qwen2.5-7B 在”规则发现”任务上的表现:
| 情况 | 失败保持率 | 失败更新率 | 失败隔离率 |
|---|---|---|---|
| 原始模型(未优化) | 99.0% | 98.0% | 97.0% |
| 强化学习训练后 | 0.0% | 2.0% | 20.0% |
原始模型几乎每次都犯错;训练后”该保持”和”该更新”的错误几乎降到零。“对抗噪声”仍有 20% 失败率(训练集刻意不包含噪声案例,模型仍学到了部分泛化能力)。
跨任务泛化: 在规则发现任务上训练的模型,直接迁移到电路诊断仍有不错效果(失败保持 6%、失败更新 28.3%),说明模型学到了通用的”信念管理”能力,而非任务特定技巧。
五、潜在应用与已落地应用
目前仍是基础研究阶段,尚无直接落地产品。但解决的问题在实际场景中非常普遍:
- 长期 AI 助手: 记住用户偏好,在用户修正时准确更新,同时不被无关聊天内容干扰
- 智能客服: 在多轮对话中准确判断哪些内容改变了用户需求,哪些只是闲话
- 医疗辅助诊断: 每次补充新检查结果时,精准更新候选诊断而不”犹豫摇摆”
- 科学研究助手: 多步骤实验推理中根据每一步实验结果更新假设
- 改进 RLHF 训练: 论文中的信念状态奖励机制,为训练更稳定的 AI 模型提供了新的训练信号思路
代码预告在 GitHub(zjunlp/CBM)和 HuggingFace(zjunlp/BeliefTrackDataset),尚未正式发布。
六、网络上的讨论与评价
发布于 2026 年 5 月 28 日,HuggingFace 收到 15 个赞,目前暂无公开的第三方深度评论。
相关领域背景: “LLM 信念漂移”和”情境一致性”是近期 AI 研究的热门议题,相关工作如《Accumulating Context Changes the Beliefs of Language Models》(2025年11月)、《BeliefShift》(2026年3月)等都在研究类似问题。BeliefTrack 基准有望成为该领域的标准评测工具。
一句话总结: 这篇论文揭示了一个大家以前没有系统研究过的重要问题——AI 在多轮对话中”该不该改变主意”其实非常困难,现有模型几乎全部失败。强化学习可以大幅解决这个问题,为未来更可靠的 AI 助手奠定了基础。