共 7 篇综述 · 按综述日期倒序排列
-
论文综述:CausaLab
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
专门测试 AI 大模型能否真正做科学实验发现因果规律的测试平台。结论令人警醒:哪怕最强的 GPT-5.2-high,大多数时候也只是猜对了答案,并没有真正搞懂背后的因果机制。
-
论文综述:模型该什么时候改变主意?
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models
揭示 AI 大模型在多轮对话中的信念管理几乎全部失败,并提出 BeliefTrack 测试平台和基于强化学习的改进方案,将失败率降低 70.9%。
-
论文综述:minWM
minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
把慢速视频生成模型改造成实时交互世界模型的完整开源框架,速度提升 200+ 倍,相当于一个 AI 游戏引擎的雏形。
-
论文综述:OmniRetrieval
OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources
让 AI 像全能图书馆员一样,用 SQL、SPARQL、Cypher 等各种原生语言同时查询异构知识库,无需统一格式转换。
-
论文综述:密集检索器中的位置偏差
Is Position Bias in Dense Retrievers Built In–or Learned from Data?
通过 32 组严格控制变量实验证明:密集检索器的位置偏差主要来自训练数据,而非模型结构天生决定;均匀分布答案位置可将偏差降低 57%~87%。
-
论文综述:UniSteer
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering
训练一个通用流场模型,用自然语言描述即可动态控制大语言模型的行为风格,无需为每种行为单独训练,一个模型解决所有任务。
-
论文综述:Xetrieval
Xetrieval: Mechanistically Explaining Dense Retrieval
为密集检索加上解题过程:通过推理内化器注入三角度思考,再用稀疏自动编码器解码为人类可读特征,经因果验证证明解释真实有效。