← 返回列表

论文综述:模型该什么时候改变主意?

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

原文作者 Haoming Xu, et al. (9 authors) 机构 浙江大学 论文发布 2026-05-28 综述日期 2026-05-30 HF 票数 🔺 15
LLMbelief-managementRLHFmulti-turnalignment
📄 查看原文 →

一、论文是干什么的?

想象你正在和一位侦探一起破案。每出现一条新线索,侦探都需要做出判断:这条线索是否应该改变他现在的嫌疑人名单?如果新证据确实推翻了之前的判断,他就要更新名单;如果之前的证据仍然成立,他就要坚持原来的判断;如果来了一段无关的闲话,他应该直接忽略,而不是因此乱改名单。

现在的 AI 大语言模型在这方面表现非常糟糕:

  • 要么”说变就变”——明明没有新的有效证据,却轻易改口
  • 要么”死不悔改”——明明有新证据推翻了旧结论,却固执坚持错误

这篇来自浙江大学的论文专门研究:AI 模型该什么时候改变自己的”想法”(信念),什么时候应该坚持,什么时候应该忽略干扰? 他们把这个能力叫做”情境信念管理”(Contextual Belief Management,CBM)。

二、核心方法与创新

测试平台:BeliefTrack(两个任务)

任务一:规则发现(Rule Discovery)

灵感来自心理学实验”韦森选择任务”。裁判脑子里有一条隐藏规则(比如”所有偶数都符合这条规则”),每轮告诉AI一个数字和它是否符合规则,AI需要随时维护一个”候选规则列表”。每来一条新信息,AI都要判断:要不要根据新信息更新这个列表?

任务二:电路诊断(Circuit Diagnosis)

类似电工排查电路故障。每轮给AI一个仪器的读数,AI需要维护”可能故障清单”,每轮根据新读数增删候选故障。

这两个任务的共同特点是:答案有精确的标准答案可以客观核对。

三类错误的诊断

错误类型生活类比技术含义
失败保持本来名单没变,侦探无缘无故改了正确信念本不该变,模型却错误地改变了
失败更新来了铁证,侦探死守旧名单不肯更新正确信念应该更新,模型却没有更新
失败隔离听到”今天天气不错”就乱改名单无关干扰信息应被忽略,模型却被影响

三种改进方法效果对比

方法总失败率降低备注
提示词工程效果有限知道”应该怎么做”,执行时还是老样子
强化学习训练(GRPO)降低 70.9%效果最显著
表示级方向控制降低 46.1%无需重新训练,推理时注入向量

强化学习方法: 每次模型给出的信念状态和正确答案越接近,得分越高(用”杰卡德相似系数”打分)。通过大量练习,模型逐渐学会了什么时候该更新、什么时候该坚持。

表示级方向控制: 从训练好的强化学习模型和原始模型的内部表示中,提取出”高水平信念管理能力对应的方向向量”,推理时把这个向量加到原始模型的相应位置,无需重新训练。

三、使用了哪些模型和计算资源?

实验模型:

模型参数量来源
Qwen2.5-7B-Instruct70亿阿里巴巴(开源)— 主要实验对象
Qwen3.5-9B90亿阿里巴巴(开源)
DeepSeek-V3.2深度求索
GPT-5.2OpenAI(闭源)

GPU: 强化学习训练在 5块 NVIDIA A800 80G 上进行,使用 Swift 训练框架;推理使用 vLLM,精度 bfloat16。

训练步数: Qwen2.5 在规则发现任务约 500 步,电路诊断约 374 步;总训练时长论文未披露。

四、实验结果

Qwen2.5-7B 在”规则发现”任务上的表现:

情况失败保持率失败更新率失败隔离率
原始模型(未优化)99.0%98.0%97.0%
强化学习训练后0.0%2.0%20.0%

原始模型几乎每次都犯错;训练后”该保持”和”该更新”的错误几乎降到零。“对抗噪声”仍有 20% 失败率(训练集刻意不包含噪声案例,模型仍学到了部分泛化能力)。

跨任务泛化: 在规则发现任务上训练的模型,直接迁移到电路诊断仍有不错效果(失败保持 6%、失败更新 28.3%),说明模型学到了通用的”信念管理”能力,而非任务特定技巧。

五、潜在应用与已落地应用

目前仍是基础研究阶段,尚无直接落地产品。但解决的问题在实际场景中非常普遍:

  • 长期 AI 助手: 记住用户偏好,在用户修正时准确更新,同时不被无关聊天内容干扰
  • 智能客服: 在多轮对话中准确判断哪些内容改变了用户需求,哪些只是闲话
  • 医疗辅助诊断: 每次补充新检查结果时,精准更新候选诊断而不”犹豫摇摆”
  • 科学研究助手: 多步骤实验推理中根据每一步实验结果更新假设
  • 改进 RLHF 训练: 论文中的信念状态奖励机制,为训练更稳定的 AI 模型提供了新的训练信号思路

代码预告在 GitHub(zjunlp/CBM)和 HuggingFace(zjunlp/BeliefTrackDataset),尚未正式发布。

六、网络上的讨论与评价

发布于 2026 年 5 月 28 日,HuggingFace 收到 15 个赞,目前暂无公开的第三方深度评论。

相关领域背景: “LLM 信念漂移”和”情境一致性”是近期 AI 研究的热门议题,相关工作如《Accumulating Context Changes the Beliefs of Language Models》(2025年11月)、《BeliefShift》(2026年3月)等都在研究类似问题。BeliefTrack 基准有望成为该领域的标准评测工具。

一句话总结: 这篇论文揭示了一个大家以前没有系统研究过的重要问题——AI 在多轮对话中”该不该改变主意”其实非常困难,现有模型几乎全部失败。强化学习可以大幅解决这个问题,为未来更可靠的 AI 助手奠定了基础。