首页 | Huggingface paper 论文综述

共 86 篇综述 · 按综述日期倒序排列

论文综述：AREX——面向深度研究的递归自我改进智能体

AREX: Towards a Recursively Self-Improving Agent for Deep Research

提出AREX智能体通过内外双循环和历史压缩实现递归自我改进在深度研究类基准上大幅超越同规模模型

Beijing Academy of Artificial Intelligence (BAAI) · 2026-07-25 · 🔺 119 deep-researchagentreinforcement-learningself-improvementLLM-agent
论文综述：DataFlow-Harness——让代码智能体搭出可编辑的LLM数据流水线

DataFlow-Harness: A Grounded Code-Agent Platform for Constructing Editable LLM Data Pipelines

让代码智能体不再只写一次性脚本，而是通过MCP协议和技能库把数据流水线固化成可复用可编辑的DAG

Peking University, Institute for Advanced Algorithms Research Shanghai, Zhongguancun Academy · 2026-07-25 · 🔺 134 code agentdata pipelineMCPLLM agentDAG
论文综述：DeepSearch-World：可验证环境中深度搜索智能体的自蒸馏方法

DeepSearch-World: Self-Distillation for Deep Search Agents in a Verifiable Environment

提出42万题可验证维基百科环境与自蒸馏训练框架，让9B模型无需依赖更强模型蒸馏即可自我进化为深度搜索智能体

HKUST, Tencent, HKUST(GZ) · 2026-07-25 · 🔺 89 deep search agentself-distillationverifiable environmenttool-use LLMagentic training
论文综述：EvolvingWorld——角色智能体与世界模型的开放式属性协同演化框架

EvolvingWorld: An Open-Schema Framework for Co-Evolving Role-Play Agents and World Model in Interactive Literary World

让角色智能体与世界模型在长篇小说场景里互相驱动、持续更新彼此状态的开放式属性框架及配套评测基准

Hong Kong University of Science and Technology; LIGHTSPEED; Huazhong University of Science and Technology; Independent Researcher · 2026-07-25 · 🔺 88 role-play agentworld modelLLMinteractive fictionmulti-agent simulation
论文综述：GigaAM Multilingual：面向弱势语言的语音基础模型

GigaAM Multilingual: Foundation Model for Underrepresented Languages

面向哈萨克语吉尔吉斯语乌兹别克语等弱势语言的开源语音基础模型，用聚类级数据平衡和领域感知采样大幅降低识别错误率

Salute Devices (Sber / SaluteSpeech, GigaChat 团队) · 2026-07-25 · 🔺 33 speech recognition低资源语言自监督学习Conformer多语言ASR
论文综述：Loop the Loopies——用层循环让MoE模型「以小博大」

Loop the Loopies!

提出层循环的Loopie系列MoE模型，在同等预训练算力下超过普通Transformer基线，并通过强化学习获得较强推理能力

IQuest Research · 2026-07-25 · 🔺 71 looped transformerMixture-of-ExpertsLLM预训练推理能力模型架构
论文综述：RAGU——用紧凑领域适配小模型构建的多步GraphRAG引擎

RAGU: A Multi-Step GraphRAG Engine with a Compact Domain-Adapted LLM

用两阶段抽取和实体去重模块构建知识图谱，配合自研70亿参数小模型Meno-Lite实现低成本高质量的GraphRAG检索问答

ITMO University; Novosibirsk State University; Far Eastern Federal University · 2026-07-25 · 🔺 143 GraphRAG知识图谱小模型微调RAG开源
论文综述：SWE-Pruner Pro：编程智能体的大脑里早就知道该删什么

SWE-Pruner Pro: The Coder LLM Already Knows What to Prune

让编程智能体用自己已有的隐藏状态判断工具输出里哪些行该保留哪些该删除，从而节省高达39%的token

上海交通大学（根据通讯作者邮箱域名 sjtu.edu.cn 推断，论文正文未明确列出机构名称） · 2026-07-25 · 🔺 75 context pruningcoding agent长上下文压缩SWE-Bench推理效率
论文综述：函数感知的填空式训练——为编程智能体基础模型设计的中间训练阶段

Function-Aware Fill-in-the-Middle as Mid-Training for Coding Agent Foundation Models

提出函数感知的填空训练法，利用函数调用与智能体行动-观察循环的结构相似性，在中间训练阶段提升编程智能体能力

University of Waterloo, University of British Columbia, NVIDIA, Verdent AI, Vector Institute · 2026-07-19 · 🔺 102 代码大模型智能体训练Fill-in-the-MiddleSWE-Bench中间训练
论文综述：智能体脚手架说明书——让不断进化的Agent Harness可读、可导航、可编辑

Harness Handbook: Making Evolving Agent Harnesses Readable, Navigable, and Editable

一篇提出为复杂智能体脚手架自动生成行为地图的论文，帮助人类和AI更快找到该改哪里的代码并写出更准确的修改方案

Tencent HY LLM Frontier, Indiana University, University of Maryland College Park, University of Georgia, National University of Singapore · 2026-07-19 · 🔺 196 agent harness代码定位LLM代码理解程序分析coding agent
论文综述：LongStraw：固定GPU预算下突破200万Token的长上下文强化学习

LongStraw: Long-Context RL Beyond 2M Tokens under a Fixed GPU Budget

一篇系统工程报告，讲述如何在不增加GPU数量的前提下，通过只保留必要状态和串行重放的方式把GRPO强化学习训练的上下文长度做到200万Token以上

MindLab；复旦大学 (Fudan University) · 2026-07-19 · 🔺 174 强化学习长上下文GRPO分布式训练大模型系统
论文综述：OvisOCR2 技术报告——用0.8B小模型刷新文档解析榜单

OvisOCR2 Technical Report

阿里团队用0.8B端到端多模态模型OvisOCR2，把文档图片直接转成结构化Markdown，性能超越多种大模型和OCR流水线方案

ATH-MaaS, Alibaba Group · 2026-07-19 · 🔺 51 OCR文档解析多模态大模型强化学习知识蒸馏
论文综述：Ring-Zero——把零标注强化学习扩展到万亿参数，涌现出会自己思考的推理能力

Ring-Zero: Scaling Zero RL to a Trillion Parameters for Emergent Reasoning

蚂蚁集团把无需人工标注的零强化学习训练扩展到万亿参数模型Ring-2.5-1T-Zero上发现规模越大越容易涌现出自我验证等高级推理行为

Ant Group (蚂蚁集团, inclusionAI) · 2026-07-19 · 🔺 90 强化学习大语言模型推理MoEZero RL
论文综述：搜索超越可教之知——在智能体式视觉生成中进化知识边界

Search Beyond What Can Be Taught: Evolving the Knowledge Boundary in Agentic Visual Generation

研究图像生成模型面对新角色和最新事件时会自信地编造错误内容的问题，提出用可训练的知识边界来决定何时该检索外部信息

Hong Kong University of Science and Technology, University of Waterloo, Qwen Applications, Imperial College London · 2026-07-19 · 🔺 83 视觉生成智能体检索增强生成DPO知识边界
论文综述：SearchOS-V1：面向鲁棒开放域信息检索的智能体协作系统

SearchOS-V1: Towards Robust Open-Domain Information-Seeking Agent Collaboration

提出SearchOS框架，把多智能体网页搜索中易丢失的隐式进度变成显式共享状态，显著减少重复搜索循环并提升信息完整性

中国人民大学高瓴人工智能学院、蚂蚁集团（Ant Group） · 2026-07-19 · 🔺 58 多智能体系统信息检索LLM Agent网络搜索上下文管理
论文综述：SEED：面向智能体强化学习的自我进化在线策略蒸馏

SEED: Self-Evolving On-Policy Distillation for Agentic Reinforcement Learning

让大模型智能体自己总结经验教训并把这些经验转化为逐词训练信号，从而更高效地学会多步任务

清华大学、浙江大学、香港中文大学、南洋理工大学、同济大学 · 2026-07-19 · 🔺 83 智能体强化学习策略蒸馏大语言模型自我进化长程决策
论文综述：借小模型的RL经验教大模型——直接在策略蒸馏实现弱到强泛化

Weak-to-Strong Generalization via Direct On-Policy Distillation

提出Direct-OPD方法，把小模型RL训练学到的策略变化当作隐式奖励直接迁移给大模型，几小时内显著提升大模型数学推理能力

SIA-Lab (清华大学智能产业研究院AIR与字节跳动Seed联合实验室), 清华大学计算机系, 北京大学 · 2026-07-19 · 🔺 129 强化学习知识蒸馏大语言模型弱到强泛化推理模型
论文综述：HiLS分层稀疏注意力——让AI真正学会“该重点看哪一块”

Hierarchical Sparse Attention Done Right: Toward Infinite Context Modeling

腾讯混元团队提出HiLS分层稀疏注意力机制，让模型自己学会挑选该重点关注的文本块，训练8K上下文却能外推到400万token，还能给已有模型做轻量续训升级

腾讯混元、上海科技大学、香港科技大学、加州大学圣地亚哥分校 · 2026-07-11 · 🔺 59 稀疏注意力长上下文腾讯混元推理加速
论文综述：训练策略优化的"海市蜃楼"——LLM强化学习真正该盯住的是"推理策略"

The Mirage of Optimizing Training Policies: Monotonic Inference Policies as the Real Objective for LLM Reinforcement Learning

指出LLM强化学习训练中一个被忽视的目标错位问题：训练侧策略变好，不等于部署时实际用的推理策略也变好，并提出新的优化目标和两步更新框架来纠正它

天津大学、阿里巴巴 · 2026-07-11 · 🔺 160 LLM强化学习训练推理不一致off-policyGRPO/PPO
论文综述：OmniOpt——给100多种现代优化器建一张统一的坐标系地图

OmniOpt: Taxonomy, Geometry, and Benchmarking of Modern Optimizers

把AdamW、Muon、Lion等100多种五花八门的大模型优化器，统一拆解成同一套五阶段流程和两个分类维度，再用统一基准跑分，做成一本优化器选型指南

上海人工智能实验室、上海大学、西湖大学、上海交通大学、中国科学院大学、浙江大学、南方科技大学 · 2026-07-11 · 🔺 72 优化器综述基准测试大模型训练系统
论文综述：ResearchStudio-Idea——从近2000篇顶会论文里炼出的科研选题工具

ResearchStudio-Idea: An Evidence-Grounded Research-Ideation Skill Suite from ML Conference Outcomes

分析近2000篇ICLR/ICML/NeurIPS会议论文(含被拒稿件)，归纳出15种可复用的科研选题套路，做成一套能自动查文献、找瓶颈、查重、审计的AI选题助手

南洋理工大学、微软研究院、新加坡国立大学、新加坡科技研究局CFAR · 2026-07-11 · 🔺 48 科研选题LLM Agent文献检索微软研究院
论文综述：ResearchStudio-Reel——把一篇论文自动变成海报、视频和双语博客

ResearchStudio-Reel: Automate the Last Mile of Research from Paper to Poster, Video, and Blog

微软研究院团队用Claude Code和Codex构建的五个Agent技能，把一篇论文自动加工成可编辑的海报、讲解视频和中英双语博客，且质量在多数论文上超过作者本人手工制作的海报

微软研究院、南洋理工大学、新加坡国立大学、清华大学、北京大学、上海交通大学、西湖大学、新加坡科技研究局CFAR · 2026-07-11 · 🔺 56 Agent Skill科研自动化Claude Code微软研究院
论文综述：智能体的弃权之道：Agent 到底知不知道该停手

Agentic Abstention: Do Agents Know When to Stop Instead of Act?

研究AI智能体在任务不可行时能否及时停手而不是硬着头皮乱操作，提出新基准和名为CONVOLVE的经验积累方法来提升智能体的知止能力

University of Leeds, Southwest Jiaotong University, University of Washington, Allen Institute for AI · 2026-07-05 · 🔺 142 agentsabstentionLLMbenchmarkcontext-engineering
论文综述：AgenticSTS——给长程AI智能体的有界记忆试验场

AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

一篇用卡牌游戏当考场的论文，把AI智能体的记忆设计成可拆卸的模块，逐层测试到底哪一层记忆真正管用

Alaya Lab、上海交通大学、上海创新研究院、南开大学、中国科学技术大学 · 2026-07-05 · 🔺 45 LLM Agent长程记忆消融实验游戏智能体
论文综述：拉长视野而非堆参数——用35B智能体追平万亿参数模型

Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent

上海AI实验室提出35B参数的Agents-A1智能体模型，通过延长任务执行的时间跨度而非扩大参数规模，在多项长程智能体基准上追平甚至超过万亿参数模型

上海人工智能实验室（Shanghai Artificial Intelligence Laboratory） · 2026-07-05 · 🔺 86 智能体MoE知识蒸馏长程推理科学智能体
论文综述：BlockPilot——为扩散式投机解码学会因材施教的自适应策略

BlockPilot: Instance-Adaptive Policy Learning for Diffusion-based Speculative Decoding

一种让扩散式投机解码根据每条输入自动挑选最优分块大小的轻量策略网络，在Qwen3-4B上实现4.20倍推理加速

AMAP（高德地图）, Alibaba Group · 2026-07-05 · 🔺 73 speculative-decodingdiffusion-language-modelinference-accelerationpolicy-learningLLM推理加速
论文综述：Dockerless——不用搭建代码环境的编程智能体验证器

Dockerless: Environment-Free Program Verifier for Coding Agents

提出无需为每个代码仓库搭建Docker环境的智能体式补丁验证器，用它筛选训练数据和提供强化学习奖励，效果接近传统方案

2026-07-05 · 🔺 103 coding agentsprogram verifierSWE-benchreinforcement learningLLM post-training
论文综述：DOPD——双路在线策略蒸馏

DOPD: Dual On-policy Distillation

提出DOPD方法，让小模型在向大模型学习时按每个词元的真实能力差距动态切换老师和自己作为监督来源，从而更高效地缩小大小模型之间的能力差距

NUS（新加坡国立大学）、MMLab@CUHK（香港中文大学）、PKU（北京大学）、Explore Academy@JD.com（京东探索研究院） · 2026-07-05 · 🔺 93 knowledge-distillationon-policy-distillationLLMVLMreinforcement-learning
论文综述：EvoPolicyGym：评估交互环境中的自主策略进化能力

EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

一个评估AI编程智能体能否在有限反馈下持续改写可执行策略代码的新基准，发现GPT-5.5在16个环境中综合表现最强

中国科学技术大学、香港中文大学、澳门大学、清华大学、浙江大学、苏州大学、布朗大学、上海交通大学 · 2026-07-05 · 🔺 43 agentsbenchmarkreinforcement-learningLLM-agentcode-generation
论文综述：形式化潜在思维——大语言模型思维表征的四条公理

Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

提出四条公理来检验大模型内部潜在思维表征是否真的承载了有意义的推理过程，发现现有方法全部不及格

University of British Columbia · 2026-07-05 · 🔺 58 interpretabilitylatent-reasoningevaluation-framework
论文综述：程序即权重——模糊函数的编程新范式

Program-as-Weights: A Programming Paradigm for Fuzzy Functions

把用自然语言描述的模糊功能编译成一份23MB的神经网络权重文件，让0.6B小模型在本地运行就能达到32B大模型调用API的效果

University of Waterloo, Cornell University, Harvard University · 2026-07-05 · 🔺 74 programming-paradigmLoRAhypernetworksmall-language-modelson-device-ai
论文综述：ReFreeKV：迈向无阈值的KV缓存压缩

ReFreeKV: Towards Threshold-Free KV Cache Compression

提出无需为不同任务手动设定压缩比例的KV缓存压缩新方法ReFreeKV用统一阈值自适应决定每条输入该保留多少缓存

南京航空航天大学、腾讯 WeChat AI、复旦大学 · 2026-07-05 · 🔺 47 kv-cache推理优化大语言模型长文本
论文综述：我们准备好迎接智能体原生的记忆系统了吗？

Are We Ready For An Agent-Native Memory System?

一篇从数据管理视角系统评测智能体记忆系统的论文，把记忆拆成四大模块，横评12个系统，结论是没有万能架构、好坏取决于记忆结构是否对齐工作负载瓶颈

上海交通大学、清华大学、MemTensor（上海） · 2026-06-29 · 🔺 58 LLM-Agent记忆系统Benchmark数据管理RAG
论文综述：跳出自我确认陷阱——面向智能体经验学习的执行-蒸馏-验证范式

Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning

提出执行-蒸馏-验证（EDV）范式，用多个异构智能体并行探索、第三方蒸馏与共识验证，避免智能体把错误但自洽的轨迹当成成功经验写入记忆，从而提升智能体长期学习的可靠性

2026-06-29 · 🔺 0 LLM智能体经验学习记忆机制多智能体自我确认陷阱
论文综述：分组查询专家——在 GQA 自注意力上引入混合专家

Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention

一种在 GQA 自注意力的查询头上做混合专家路由的方法，每个 token 只激活部分查询头，在保持精度的同时降低注意力计算开销。

2026-06-29 · 🔺 0 Mixture-of-ExpertsGrouped-Query-AttentionTransformer高效注意力稀疏激活
论文综述：KaLM-Reranker-V1 面向压缩文档重排的快速非延迟交互

KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

提出一种把查询与文档计算解耦的高效重排器，通过离线预编码文档加交叉注意力，在大幅提速十倍以上的同时保持接近顶尖工业重排器的检索效果。

哈尔滨工业大学（深圳）；深圳河套研究院 SLAI · 2026-06-29 · 🔺 0 信息检索重排序RAG高效推理Matryoshka
论文综述：OpenThoughts-Agent——面向智能体模型的数据配方

OpenThoughts-Agent: Data Recipes for Agentic Models

通过 100 多次消融实验系统化地探索如何为智能体模型挑选训练数据，给出可复现的开源数据配方，用 10 万条样本微调 Qwen3-32B 在七个智能体基准上取得 44.8 分。

UC Berkeley、Stanford、UCLA、Harvard 等多机构联合（OpenThoughts 项目） · 2026-06-29 · 🔺 0 智能体数据curation监督微调开源Qwen3
论文综述：OPID 用在线技能蒸馏强化智能体

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

从智能体自己跑出来的轨迹里提炼分层技能并蒸馏回模型，把稀疏的成败奖励变成密集的逐词指导，让语言智能体学得更快更稳

清华大学、浙江大学、香港中文大学、南洋理工大学、同济大学 · 2026-06-29 · 🔺 50 agentic-RLskill-distillationon-policyLLM-agentGRPO
论文综述：无限 OCR——开启一次前向解析长文档的时代

Unlimited OCR Works

百度提出的端到端 OCR 模型，用参考滑动窗口注意力把 KV 缓存压成常数，一次前向解析几十页文档，在 OmniDocBench 上超越 DeepSeek OCR。

百度 Baidu Inc. · 2026-06-29 · 🔺 40 OCR文档解析稀疏注意力KV-Cache长文档
论文综述：VibeThinker-3B 用 3B 小模型逼近顶级推理水平

VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

一个仅3B参数的小模型，靠精心设计的后训练流程，在数学和编程等可验证推理任务上逼近甚至追平几百倍大的顶级模型

Sina Weibo Inc. (新浪微博) · 2026-06-23 · 🔺 0 small-language-modelreasoningreinforcement-learningpost-trainingtest-time-scaling
论文综述：数据记者智能体——把数据变成可验证的多模态故事

Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

一个名为Data2Story的多智能体框架，像一个虚拟编辑部一样把原始数据自动变成有据可查、图文音视频并茂的新闻报道，并让每个数字都能追溯到源头代码或资料

University of Oxford, Stanford University · 2026-06-20 · 🔺 118 多智能体数据新闻多模态生成可验证AILLM-Agent
论文综述：只循环一次——高效测试时计算扩展的并行循环 Transformer

LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling

一篇研究循环 Transformer 的论文，发现让 7B 代码模型把同一组网络层重复跑两次效果最好，再多反而变差，并系统解释了为什么只需循环一次额外计算

Beihang University, IQuest Research, Langboat, Renmin University of China · 2026-06-20 · 🔺 175 Looped TransformerTest-Time ScalingCode LLMSWE-benchEfficient Inference
论文综述：APPO 用分支分数把智能体强化学习的功劳分配做到词级

APPO: Agentic Procedural Policy Optimization

提出智能体过程式策略优化APPO，用结合token熵与下游影响力的分支分数定位关键决策点，并用过程级优势缩放把功劳分配下沉到词级，在Llama3.1-8B与Qwen2.5-7B上横跨13个基准平均提升约4分

中国科学技术大学、阿里巴巴高德（AMAP）、南方科技大学 · 2026-06-15 · 🔺 59 credit-assignmentreinforcement-learningLLM-agentGRPOtool-usebranching-score
论文综述：MRAgent 让大模型智能体像人脑一样重建记忆而非检索记忆

Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

提出MRAgent框架，把记忆组织成线索-标签-内容关联图并分情景语义主题三层，用主动重建机制让大模型边推理边在图中多步探索，在LoCoMo与LongMemEval上最高提升约23%且大幅降低token与时间成本

新加坡国立大学（NUS） · 2026-06-15 · 🔺 53 memoryLLM-agentgraph-memoryRAGlong-term-memoryICML2026
论文综述：FORT-Searcher：合成抗捷径的搜索任务来训练深度搜索智能体

FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

提出 FORT 框架，通过识别并消除四类搜索捷径来合成真正需要多步检索的训练任务，仅用监督微调就让深度搜索智能体在 BrowseComp 等基准上达到领先表现。

中国人民大学高瓴人工智能学院、KAUST、IQuest Research、上海交通大学 · 2026-06-12 · 🔺 17 deep-search-agentdata-synthesisshortcut-resistantsupervised-fine-tuningLLM-agent
论文综述：通过假设树精炼迈向通用自主科研

Toward Generalist Autonomous Research via Hypothesis-Tree Refinement

提出 Arbor 框架，用一棵持久的假设树把零散的实验尝试组织成可累积的科研过程，让 AI 智能体在六项真实科研任务上显著超越 Codex 与 Claude Code。

中国人民大学高瓴人工智能学院（Gaoling School of Artificial Intelligence, Renmin University of China）、微软研究院（Microsoft Research） · 2026-06-12 · 🔺 108 自主科研AI Agent假设树MLE-Bench自动优化
论文综述：想象式感知 Token 增强多模态语言模型的空间推理能力

Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

一种让多模态模型先在脑中画出看不见的视角图像再回答的方法,用视觉而非文字进行空间推理,效果优于文本思维链

University of Washington, Allen Institute for AI, Microsoft, OpenAI · 2026-06-12 · 🔺 36 空间推理多模态大模型感知Token视觉想象BAGEL
论文综述：交错思考者——用强化学习驱动智能体式图文交错生成

InterleaveThinker: Reinforcing Agentic Interleaved Generation

一个让普通图像生成器学会一边画图一边思考的多智能体框架，用规划者和评判者两个角色加上强化学习，实现高质量的图文交错生成。

暂无相关信息（论文未明确列出，作者关联多与香港中文大学 MMLab 相关） · 2026-06-12 · 🔺 76 interleaved-generationmulti-agentreinforcement-learningimage-generationplanner-critic
论文综述：用流形幂迭代重新设计混合专家路由器

Redesign Mixture-of-Experts Routers with Manifold Power Iteration

一种用幂迭代让混合专家路由器对齐专家权重主奇异方向的方法，可加速收敛、提升下游表现并改善负载均衡。

中国人民大学高瓴人工智能学院、腾讯大语言模型部门 · 2026-06-12 · 🔺 4 Mixture-of-ExpertsRouterPower IterationLoad BalancingLLM
论文综述：你的解嵌入矩阵其实是文本嵌入的一面特征透镜

Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

一种无需训练的线性变换方法 EmbedFilter，通过解嵌入矩阵这面透镜过滤掉高频无信息词子空间，让大模型生成的文本嵌入质量最高提升约14%，并支持降维。

Gaoling School of Artificial Intelligence, Renmin University of China; Lenovo Group Limited; Wuhan University · 2026-06-12 · 🔺 18 text-embeddingLLMinterpretabilityinformation-retrievalMTEB
论文综述：激活引导的几何解释——角度与范数的解耦分析

A Geometric Account of Activation Steering through Angle-Norm Decomposition

提出角度-范数分解框架统一分析六种激活引导方法，证明概念信息储存于向量方向（角度分量）而非长度（范数分量），范数控制生成稳定性；发现Adam NDS是Muon的1.76倍主要来自曲率惩罚差异，为激活引导提供可操作的双旋钮调参理论

华为诺亚方舟实验室、伦敦玛丽女王大学（QMUL） · 2026-06-09 · 🔺 36 activation-steeringinterpretabilityAI-alignmentgeometryLLMmechanistic-interpretability
论文综述：Bayesian-Agent 用贝叶斯后验驱动LLM智能体技能进化

Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses

提出用因子化类别贝叶斯后验模型维护每个技能的可靠性置信度，根据后验状态触发探索/修补/拆分/压缩/退役五种离散操作，在SOP-Bench上将Agent成功率从80%提升至95%，无需修改任何模型权重

IDEA FinAI / DataArcTech · 2026-06-09 · 🔺 19 LLM-agentbayesian-inferenceskill-evolutionreinforcement-learningknowledge-managementagent-framework
论文综述：FlashMemory-DeepSeek-V4 用前瞻稀疏注意力压缩超长上下文KV缓存

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

提出前瞻稀疏注意力（LSA）框架，通过轻量级神经记忆索引器提前预测下一批次所需历史KV块并异步预取，将500K超长上下文的KV缓存显存从7.79GB压缩至0.77GB（节省90%），同时在主流长文本基准上精度不降反升0.6%

腾讯、香港科技大学（广州）、清华大学 · 2026-06-09 · 🔺 33 sparse-attentionKV-cachelong-contextDeepSeekinference-optimizationmemory-efficiency
论文综述：合成语法推理轨迹辅助低资源机器翻译

Reasoning over Grammar: Can Synthetic Linguistic Reasoning Traces Enhance Low-Resource Machine Translation?

提出自动化三步流水线将Universal Dependencies树库中的句法标注转化为步骤化语法推理轨迹，系统验证ICL/SFT/RFT三种使用方式对锡伯语和Chintang 语低资源翻译的效果，发现ICL最有效可使chrF提升最高11.89点，总计消耗约2000 GPU小时

慕尼黑大学（LMU）、芬兰图尔库大学、赫尔辛基大学 · 2026-06-09 · 🔺 18 low-resource-MTmachine-translationreasoning-tracesuniversal-dependenciesendangered-languagesLoRA
论文综述：LatentSkill 把LLM智能体技能编译为权重空间LoRA

LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents

提出超网络驱动的技能编译器，将LLM智能体的文本技能编译为权重空间LoRA适配器，消除上下文技能开销，在ALFWorld任务成功率提升21.4点的同时减少64%Token消耗，并将对抗提示词注入攻击的防御能力提升4.5倍

上海交通大学、中山大学、上海创新研究院、OPPO研究院 · 2026-06-09 · 🔺 36 LLM-agentskill-learninghypernetworkLoRAknowledge-distillationagent-security
论文综述：Lean4Agent 用形式化验证保证AI智能体工作流的正确性

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

提出FormalAgentLib（151类型/611函数）和LeanEvolve，首次将Lean4依赖类型系统引入LLM智能体工作流验证，通过结构-语义-轨迹三层验证在SWE-Bench-Verified困难子集上提升14.80个百分点，跨越5个主流LLM模型验证通用性

伊利诺伊大学厄巴纳-香槟分校（UIUC）ScaleML 实验室 · 2026-06-09 · 🔺 22 formal-verificationLean4LLM-agentagent-workflowAI-safetySWE-bench
论文综述：为什么Muon优于Adam——来自曲率的几何解释

Why Muon Outperforms Adam: A Curvature Perspective

首次用二阶泰勒展开和归一化方向锐度（NDS）指标，从曲率角度严格证明Muon优于Adam的根本原因：Adam每步遭遇的归一化方向锐度是Muon的1.76倍，导致更大的曲率惩罚，而数据不均衡程度越高这一优势越显著，已在Kimi K2等万亿参数模型上落地验证

新加坡国立大学、耶鲁大学、明尼苏达大学 · 2026-06-09 · 🔺 51 optimizerMuonAdamcurvatureLLM-trainingoptimization-theory
论文综述：在线策略蒸馏的几何结构分析

On the Geometry of On-Policy Distillation

首次从参数空间几何角度解剖在线策略蒸馏（OPD），发现训练约20%进度后更新锁定在约16维的稳定低秩子空间，且这一几何结构由训练目标组合决定，为DeepSeek-V4等顶级模型所用的OPD范式提供了系统性机制解释

香港科技大学（HKUST）、奥斯丁德克萨斯大学、浙江大学等 · 2026-06-09 · 🔺 51 on-policy-distillationknowledge-distillationoptimizationgeometryLLM-trainingreinforcement-learning
论文综述：PBSD 用特权贝叶斯自蒸馏解决长时信用分配

PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

提出特权贝叶斯自蒸馏框架，用贝叶斯定理将轨迹级成功概率转化为逐步证据得分，以此调整GRPO梯度权重实现精细信用分配，在BrowseComp多轮网络搜索任务上以Qwen3-30B-A3B实现困难题成功率从2.25%提升至4.50%

上海交通大学AI学院、XYZ AI Lab · 2026-06-09 · 🔺 29 credit-assignmentreinforcement-learningself-distillationbayesianLLM-agentweb-search
论文综述：SEE 用160条样本唤醒基础大模型的潜藏自评能力

Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

提出SEE两阶段训练框架，发现基础LLM已内置对外部裁判评分的预测能力，仅用160条训练样本和约300 GPU小时将Qwen3-4B-Base的HelpSteer2校准得分从0.632提升至0.731，数据效率约为基线方法的31倍，且自评能力可泛化至未见过的Claude和Gemini裁判

新加坡国立大学（NUS）、北京邮电大学 · 2026-06-09 · 🔺 33 self-evaluationLLM-judgeRLHFcalibrationpost-trainingminimal-data
论文综述：文生图模型对文本编码器的上下文信息依赖远低于预期

Text-to-Image Models Need Less from Text Encoders Than You Think

提出三种递进的无上下文嵌入构造方法（BoT/BoW/BoPTW），证明现代Diffusion Transformer架构（FLUX/SD3）中图像模型本身已具备语言理解能力，仅需位置化词袋嵌入即可达到完整嵌入65%以上的图像质量，而旧U-Net架构完全失效

以色列理工学院（Technion）、MIT CSAIL · 2026-06-09 · 🔺 35 text-to-imagetext-encoderdiffusion-transformerT5CLIPmodel-compression
论文综述：COLLEAGUE.SKILL 专家知识蒸馏自动生成AI技能包

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

从飞书/钉钉/邮件等异构数据中自动提炼人类专家的隐性知识，生成可携带、可检查、可组合、可纠错、可治理的AI技能包（SKILL.md），5天获6600+Stars，引发中国科技圈广泛讨论

上海人工智能实验室 · 2026-06-07 · 🔺 108 ai-agentsknowledge-distillationskill-generationllm-personalizationcolleague-skill
论文综述：Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

Domino 将投机解码的因果建模与自回归草稿解耦，通过轻量 GRU 修正头在保持并行速度的同时注入因果依赖，在 Qwen3-8B 上实现平均 5.49× 推理加速。

EPIC Lab，上海交通大学、华中科技大学、电子科技大学、复旦大学、华为 · 2026-06-07 · 🔺 140 speculative decodingLLM inferencedraft modelparallel decodingcausal modeling
论文综述：DRIFT 框架追踪深度研究Agent在哪一步跑偏

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

发现36.9%看似成功的Agent轨迹实际包含错误跨度；TELBench数据集（1000条专家标注轨迹，300+小时）+ DRIFT三阶段声明审计框架（Claim Keeper/Support Seeker/Dependency Tracer），将各模型错误检测F1提升17-33个百分点，但首错定位准确率仍仅约24%

南京大学 NJU-LINK 团队、JIUTIAN Research · 2026-06-07 · 🔺 33 deep-research-agenterror-localizationtrajectory-analysisagent-evaluationdrifttelbench
论文综述：GrepSeek 训练搜索智能体直接与语料库交互

GrepSeek: Training Search Agents for Direct Corpus Interaction

训练9B语言模型像程序员用grep搜代码一样直接用Shell命令搜文档，无需建向量索引，多跳推理任务（2WikiMultihopQA）比最强基线 Search-R1 高出 +8.8 pp，配套7.6倍加速的并行执行引擎，全部开源

马萨诸塞大学阿默斯特分校、普林斯顿大学、卡内基梅隆大学 · 2026-06-07 · 🔺 102 search-agentrag-alternativeshell-commandsretrievalreinforcement-learninggrpo
论文综述：Harness-1 把搜索状态外置让RL专注策略的20B搜索Agent

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

把状态管理从语言模型剥离交给环境（harness）维护，策略只专注五个语义决策（搜什么/看什么/留什么/验什么/何时停），仅用899条SFT+3453条RL数据，20B模型在8个基准上以0.730平均召回率超越GPT-5.4，超过下一名最强开源Agent +11.4pp，X平台获13.4万次浏览

伊利诺伊大学厄巴纳-香槟分校（UIUC，Jiawei Han 团队） · 2026-06-07 · 🔺 46 search-agentreinforcement-learningstate-externalizationinformation-retrievalagentharness
论文综述：遮盖过时观测助力搜索Agent——直到它不再有效

Masking Stale Observations Helps Search Agents -- Until It Doesn't

系统研究「遮盖过时观测」对搜索Agent的效果，发现不对称倒U形曲线：强检索器+中等模型时显著有效，强检索器+超强模型（DeepSeek-V4-Flash 284B）时反而有害；提出「token换轮次」机制解释，覆盖4B到284B模型、3种检索器、4个基准（英中双语）

McAuley-Lab（加州大学圣地亚哥分校等） · 2026-06-07 · 🔺 61 search-agentcontext-managementobservation-maskingllm-inferenceretrievalregime-map
论文综述：OCC-RAG 为忠实问答打造的最优认知核心小模型

OCC-RAG: Optimal Cognitive Core for Faithful Question Answering

用325万条合成数据对Qwen3-0.6B/1.7B做中间训练，在忠实问答、多跳推理、拒绝能力上全面击败2-6倍大的通用模型；0.6B模型在ConFiQA忠实性指标上超越6.7倍大的Gemma3-4B，拒绝能力从6.3分跃升至86.9分

俄罗斯多机构合作（含 Ivan Oseledets 团队） · 2026-06-07 · 🔺 85 ragfaithful-qasmall-modelsretrieval-augmented-generationqwen3mid-training
论文综述：A Matter of TASTE 自动生成更难更全面的 Agent 基准测试

A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

TASTE 框架将基准生成流程反转——先从工具调用序列出发再推用户故事，结合自适应对比n-gram建模和迭代难度演化，令 Gemini-3-Flash 从 0.94 跌至 0.61，工具覆盖度最高提升124%，全套成本仅约1245美元

以色列理工学院（Technion）、IBM Research · 2026-06-07 · 🔺 63 agent-benchmarkbenchmark-generationtool-useevaluationagenttau-bench
论文综述：Trust-Region Behavior Blending 让在线蒸馏早期训练更稳定

Trust-Region Behavior Blending for On-Policy Distillation

提出 TRB 热身策略，在 OPD 早期训练阶段用几何平均混合学生/教师分布，限制在以学生为中心的 KL 信任域内，有闭合形式解，无需额外梯度下降，可即插即用进任何 OPD 训练流程；在 Qwen3 模型对上超越 Veto、SKD 等多个基线

T-Tech（T-Bank AI 研究部门，俄罗斯） · 2026-06-07 · 🔺 70 knowledge-distillationon-policy-distillationllm-trainingtrust-regionreinforcement-learningqwen3
论文综述：Crafter 多智能体科学图表自动生成框架

Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

提出多智能体总控框架Crafter，通过规划-审查-结构化纠错的协作机制自动生成可编辑的学术科学图表，附CraftEditor将光栅图转SVG，在评测上领先竞品16-22个百分点

（多机构合作） · 2026-06-02 · 🔺 78 figure-generationmulti-agentscientific-figuressvg-editingharness
论文综述：FineVerify — 精细化自我验证让AI搜索超越旗舰大模型

FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search

提出FineVerify框架，将复杂问题拆成可独立核查的子问题并逐条判断证据，解决智能体搜索中多次采样后选最优答案的可靠性问题；GPT-5-mini采样12次即超越GPT-5旗舰模型单次准确率，代码已开源

National University of Singapore（推测） · 2026-06-02 · 🔺 4 test-time-computeself-verificationagentic-searchragbrowsecompfine-grained
论文综述：多智能体强化学习何时能提升LLM工作流？

When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

系统研究多智能体RL训练LLM工作流的有效性条件，发现并命名两种训练崩溃机制（梯度放大和角色捕获），给出工作流拓扑、模型规模与策略共享方式的实用决策指南

Oregon State University / Penn State / Adobe / AG2AI · 2026-06-02 · 🔺 11 multi-agentreinforcement-learningllmworkflowgrpopolicy-sharingautogen
论文综述：NITP — 用隐式Token预测修复大语言模型的表示退化

NITP: Next Implicit Token Prediction for LLM Pre-training

ICML 2026接收。在标准NTP训练目标之外增加一个隐式语义对齐辅助损失，仅约+2%额外计算开销，系统性修复大语言模型隐藏层表示退化，在0.5B到9B规模模型上一致提升推理、理解和语义嵌入能力

Shanghai Jiao Tong University SAI · 2026-06-02 · 🔺 16 pretraininglanguage-modelrepresentationimplicit-tokenICML-2026next-token-prediction
论文综述：PEFT规模化 — 迈向万亿参数的百万个人模型

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

从三个缩放维度（向上/向下/向外）系统研究PEFT规模化规律，首次在超过1万亿参数模型上验证LoRA强化学习，实现适配器传输速度提升18.3倍，配套MinT基础设施已服务百万用户

Mind Lab / Macaron AI · 2026-06-02 · 🔺 52 peftlorapersonalizationtrillion-parametersscalingrl-training
论文综述：DVAO 动态方差自适应优势优化

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

针对多目标强化学习场景，以各奖励在当前批次的方差为权重动态调整优化方向，解决了 GRPO 多奖励合并时训练不稳定和固定权重的缺陷

Alibaba Cloud Computing · 2026-05-31 · 🔺 132 reinforcement-learningmulti-rewardGRPOLLM-trainingQwen
论文综述：Macaron-A2UI 个人 AI 代理的生成式界面

Macaron-A2UI: A Model for Generative UI in Personal Agents

提出让 AI 在对话中动态生成可交互界面元素的完整方案，包含数据集、评测基准和训练流程，235B 模型在不依赖协议文档的情况下超越获得完整文档提示的 GPT-5.4

Mind Lab (Macaron AI) · 2026-05-31 · 🔺 78 generative-UIpersonal-agentreinforcement-learningQwenA2UI
论文综述：ProRL 主动推荐系统的强化学习优化

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

提出两个修正机制解决主动推荐系统强化学习训练时的长度捷径偏差和高梯度方差问题，仅197万参数即超越8B规模的LLM方案，已被ICML 2026接收

Fudan University · 2026-05-31 · 🔺 80 recommendationreinforcement-learningproactive-recommendationsequential-decision
论文综述：SciAtlas 面向自动化科研的大规模知识图谱

SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

整合4300万篇学术论文构建含30亿条关系的知识图谱，通过三路径协同召回加图重排序实现拓扑推理级别的学术检索，2分钟内返回结果并已开放API访问

Zhejiang University, University College London · 2026-05-31 · 🔺 57 knowledge-graphscientific-researchAI-agentretrievalNeo4j
论文综述：CausaLab

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

专门测试 AI 大模型能否真正做科学实验发现因果规律的测试平台。结论令人警醒：哪怕最强的 GPT-5.2-high，大多数时候也只是猜对了答案，并没有真正搞懂背后的因果机制。

UIUC, University of Chicago, CMU, Adobe · 2026-05-30 · 🔺 9 causal-discoveryAI-scientistbenchmarkLLM-evaluationreasoning
论文综述：模型该什么时候改变主意？

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

揭示 AI 大模型在多轮对话中的信念管理几乎全部失败，并提出 BeliefTrack 测试平台和基于强化学习的改进方案，将失败率降低 70.9%。

浙江大学 · 2026-05-30 · 🔺 15 LLMbelief-managementRLHFmulti-turnalignment
论文综述：minWM

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

把慢速视频生成模型改造成实时交互世界模型的完整开源框架，速度提升 200+ 倍，相当于一个 AI 游戏引擎的雏形。

生数科技 (ShengShu) · 2026-05-30 · 🔺 44 world-modelvideo-generationopen-sourcereal-timediffusion
论文综述：OmniRetrieval

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

让 AI 像全能图书馆员一样，用 SQL、SPARQL、Cypher 等各种原生语言同时查询异构知识库，无需统一格式转换。

KAIST AI · 2026-05-30 · 🔺 59 retrievalRAGheterogeneous-knowledgeLLM
论文综述：密集检索器中的位置偏差

Is Position Bias in Dense Retrievers Built In–or Learned from Data?

通过 32 组严格控制变量实验证明：密集检索器的位置偏差主要来自训练数据，而非模型结构天生决定；均匀分布答案位置可将偏差降低 57%～87%。

Sionic AI（韩国） · 2026-05-30 · 🔺 11 dense-retrievalposition-biasRAGdata-qualitybenchmark
论文综述：UniSteer

UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

训练一个通用流场模型，用自然语言描述即可动态控制大语言模型的行为风格，无需为每种行为单独训练，一个模型解决所有任务。

上海科技大学 · 2026-05-30 · 🔺 19 LLM-steeringactivation-spaceflow-matchingalignmentinterpretability
论文综述：Xetrieval

Xetrieval: Mechanistically Explaining Dense Retrieval

为密集检索加上解题过程：通过推理内化器注入三角度思考，再用稀疏自动编码器解码为人类可读特征，经因果验证证明解释真实有效。

北京航空航天大学 & 北京通用人工智能研究院 (BIGAI) · 2026-05-30 · 🔺 15 dense-retrievalinterpretabilitysparse-autoencoderRAGexplainability