论文综述：模型该什么时候改变主意？

一、论文是干什么的？

想象你正在和一位侦探一起破案。每出现一条新线索，侦探都需要做出判断：这条线索是否应该改变他现在的嫌疑人名单？如果新证据确实推翻了之前的判断，他就要更新名单；如果之前的证据仍然成立，他就要坚持原来的判断；如果来了一段无关的闲话，他应该直接忽略，而不是因此乱改名单。

现在的 AI 大语言模型在这方面表现非常糟糕：

要么”说变就变”——明明没有新的有效证据，却轻易改口
要么”死不悔改”——明明有新证据推翻了旧结论，却固执坚持错误

这篇来自浙江大学的论文专门研究：AI 模型该什么时候改变自己的”想法”（信念），什么时候应该坚持，什么时候应该忽略干扰？ 他们把这个能力叫做”情境信念管理”（Contextual Belief Management，CBM）。

二、核心方法与创新

测试平台：BeliefTrack（两个任务）

任务一：规则发现（Rule Discovery）

灵感来自心理学实验”韦森选择任务”。裁判脑子里有一条隐藏规则（比如”所有偶数都符合这条规则”），每轮告诉AI一个数字和它是否符合规则，AI需要随时维护一个”候选规则列表”。每来一条新信息，AI都要判断：要不要根据新信息更新这个列表？

任务二：电路诊断（Circuit Diagnosis）

类似电工排查电路故障。每轮给AI一个仪器的读数，AI需要维护”可能故障清单”，每轮根据新读数增删候选故障。

这两个任务的共同特点是：答案有精确的标准答案可以客观核对。

三类错误的诊断

错误类型	生活类比	技术含义
失败保持	本来名单没变，侦探无缘无故改了	正确信念本不该变，模型却错误地改变了
失败更新	来了铁证，侦探死守旧名单不肯更新	正确信念应该更新，模型却没有更新
失败隔离	听到”今天天气不错”就乱改名单	无关干扰信息应被忽略，模型却被影响

三种改进方法效果对比

方法	总失败率降低	备注
提示词工程	效果有限	知道”应该怎么做”，执行时还是老样子
强化学习训练（GRPO）	降低 70.9%	效果最显著
表示级方向控制	降低 46.1%	无需重新训练，推理时注入向量

强化学习方法： 每次模型给出的信念状态和正确答案越接近，得分越高（用”杰卡德相似系数”打分）。通过大量练习，模型逐渐学会了什么时候该更新、什么时候该坚持。

表示级方向控制： 从训练好的强化学习模型和原始模型的内部表示中，提取出”高水平信念管理能力对应的方向向量”，推理时把这个向量加到原始模型的相应位置，无需重新训练。

三、使用了哪些模型和计算资源？

实验模型：

模型	参数量	来源
Qwen2.5-7B-Instruct	70亿	阿里巴巴（开源）— 主要实验对象
Qwen3.5-9B	90亿	阿里巴巴（开源）
DeepSeek-V3.2	—	深度求索
GPT-5.2	—	OpenAI（闭源）

GPU： 强化学习训练在 5块 NVIDIA A800 80G 上进行，使用 Swift 训练框架；推理使用 vLLM，精度 bfloat16。

训练步数： Qwen2.5 在规则发现任务约 500 步，电路诊断约 374 步；总训练时长论文未披露。

四、实验结果

Qwen2.5-7B 在”规则发现”任务上的表现：

情况	失败保持率	失败更新率	失败隔离率
原始模型（未优化）	99.0%	98.0%	97.0%
强化学习训练后	0.0%	2.0%	20.0%

原始模型几乎每次都犯错；训练后”该保持”和”该更新”的错误几乎降到零。“对抗噪声”仍有 20% 失败率（训练集刻意不包含噪声案例，模型仍学到了部分泛化能力）。

跨任务泛化： 在规则发现任务上训练的模型，直接迁移到电路诊断仍有不错效果（失败保持 6%、失败更新 28.3%），说明模型学到了通用的”信念管理”能力，而非任务特定技巧。

五、潜在应用与已落地应用

目前仍是基础研究阶段，尚无直接落地产品。但解决的问题在实际场景中非常普遍：

长期 AI 助手： 记住用户偏好，在用户修正时准确更新，同时不被无关聊天内容干扰
智能客服： 在多轮对话中准确判断哪些内容改变了用户需求，哪些只是闲话
医疗辅助诊断： 每次补充新检查结果时，精准更新候选诊断而不”犹豫摇摆”
科学研究助手： 多步骤实验推理中根据每一步实验结果更新假设
改进 RLHF 训练： 论文中的信念状态奖励机制，为训练更稳定的 AI 模型提供了新的训练信号思路

代码预告在 GitHub（zjunlp/CBM）和 HuggingFace（zjunlp/BeliefTrackDataset），尚未正式发布。

六、网络上的讨论与评价

发布于 2026 年 5 月 28 日，HuggingFace 收到 15 个赞，目前暂无公开的第三方深度评论。

相关领域背景： “LLM 信念漂移”和”情境一致性”是近期 AI 研究的热门议题，相关工作如《Accumulating Context Changes the Beliefs of Language Models》（2025年11月）、《BeliefShift》（2026年3月）等都在研究类似问题。BeliefTrack 基准有望成为该领域的标准评测工具。

一句话总结： 这篇论文揭示了一个大家以前没有系统研究过的重要问题——AI 在多轮对话中”该不该改变主意”其实非常困难，现有模型几乎全部失败。强化学习可以大幅解决这个问题，为未来更可靠的 AI 助手奠定了基础。

七、思维导图

mindmap
  root((情境信念管理 CBM))
    研究问题定义
      信念管理的三种正确行为
        新证据推翻旧结论 应该更新 Failed Update
        证据未变 应该保持 Failed Stay
        无关噪声出现 应该隔离 Failed Isolation
      现有模型的失败率
        Qwen2.5-7B原始 FSR 99% FUR 98% FIR 97%
        Qwen3.5-9B原始 FSR 47% FUR 60% FIR 83.7%
        几乎所有模型在所有三种情境下全部失败
    BeliefTrack基准
      信念状态的数学定义
        候选集合B为有限假设集
        信念状态S_t为B的子集 与累积证据相容
        预测状态S_hat_t通过规则解析器从输出提取
        失败判定 S_t与S_t-1比较 以及S_hat_t与S_t比较
      任务一 Rule Discovery
        改编自韦森选择任务
        每轮输入三元组加YES/NO标签
        候选规则例如 ascending_order sum_greater_than_10
        模型维护与证据相容的规则子集
        1300至1503条轨迹 视模型类型而定
      任务二 Circuit Diagnosis
        每轮输入仪器读数
        候选故障例如 Battery_no_output
        模型维护与读数相容的故障子集
        1049至1616条轨迹
      三类噪声变体
        Authority噪声 权威误导性建议
        Temporal噪声 证据接收延迟
        Depth噪声 冗余或干扰假设
    GRPO强化学习训练
      奖励函数 Dense Jaccard Similarity
        R_i = 交集大小除以并集大小
        对每个时间步t的预测状态与oracle状态计算
        逐步对齐优化而非稀疏终末奖励
      训练数据选择
        只用D_stay和D_update轨迹
        D_iso轨迹刻意排除 用于测试泛化
      LoRA配置
        Rank 16 应用于key/value矩阵
      关键超参数
        学习率 1e-4
        KL系数 0.04 防止偏离原始模型过远
        Group Size 8 每prompt生成8条rollout
        Qwen2.5-7B在RD训练500步 在CD训练374步
        Qwen3.5-9B在RD训练520步 在CD训练338步
        硬件 5块NVIDIA A800 80G
    表示方向控制 无需重新训练
      方向向量提取
        v_l = 对D_steer中所有样本的 RL隐状态减vanilla隐状态 求均值
        D_steer为vanilla失败但RL成功的案例集合
        在层l的最终前缀token位置提取
        每种失败模式单独提取方向向量
      推理时注入
        h_tilde = h + alpha乘v_l
        仅在最终前缀token处注入 非每个生成token
        模型参数和解码流程完全不变
      效果 整体失败率降低46.1%
    实验结果
      GRPO训练后 Qwen2.5-7B
        RD任务 FSR 99%降至0% FUR 98%降至2%
        RD任务 FIR 97%降至20% 未训练噪声场景仍有泛化
      跨任务迁移 RD模型迁移至CD
        Qwen2.5-7B FSR降低93.9% FUR降低71.1%
        Qwen3.5-9B FSR降低53.7% FUR降低65.9%
        说明学到的是通用信念管理能力而非任务记忆
      通用能力保持
        MMLU 94.5% 训练后无下降
        GSM8K 78.2% 训练后无下降
    机制分析
      失败的根源
        信念漂移 oracle支持的假设在模型内部优先级下降
        情境劫持 无关噪声覆盖了形式化验证逻辑
        潜在输出鸿沟 内部表示正确但生成输出矛盾
        回溯失败 证据纠正后无法恢复候选项
      RL的修复机制
        维持oracle支持假设的内部高优先级
        表示层面的修复而非推理能力的新增