← 返回列表

论文综述:minWM

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

原文作者 ShengShu-AI Team, Tsinghua University, Renmin University of China, HKUST, UT Austin 机构 生数科技 (ShengShu) 论文发布 2026-05-28 综述日期 2026-05-30 HF 票数 🔺 44
world-modelvideo-generationopen-sourcereal-timediffusion
📄 查看原文 →

一、论文是干什么的?

你有没有想过,如果 AI 能像电影导演一样,实时地”拍摄”虚拟世界的视频——你说”镜头向左转”,它立刻生成相应的画面?这就是”视频世界模型”的目标。

然而现实中,现有的 AI 视频生成模型虽然画面精美,却有个致命缺陷:太慢,也不够”听话”。它们一次性生成整段视频,无法实时响应用户的操控指令——就像一台漂亮但只能播放固定内容的录像机,而不是可以互动的游戏机。

minWM 就是一套完整的开源工具包,能把现有”慢吞吞的”AI 视频生成模型,改造成可实时交互、能听从摄像机指令的世界模型。整套流程全部开源,让全球的研究生、小型实验室都能用。

二、核心方法与创新

minWM 的核心思路用”改造汽车”来类比:

一辆豪华但笨重的老式轿车(原始视频生成模型)——开得很稳很漂亮,但启动需要10分钟,而且不能实时响应方向盘。minWM 就是一套改装方案,让它变成既保留画质、又能实时响应驾驶指令的赛车。

整个改造分两大阶段

第一阶段:教 AI “看懂镜头”(PRoPE)

PRoPE 技术,给视频里每一帧的每个像素都附上”摄像机地图”,告诉模型”这个像素是从哪个角度、哪个位置看过去的”。

类比:给一个从没看过地图的人,在照片的每个角落都标注了”拍摄时站在哪里、朝哪个方向”,久而久之他就学会了透视关系。

经过约 8000 步训练,模型才能真正”听懂”摄像机指令。

第二阶段:三步提速(Causal Forcing 因果强迫法)

步骤做什么类比
Step 1:AR 训练(4000步)从”一锅端生成”变成”逐帧流水线”从录播电影变成直播
Step 2:初始化快速版(1500步)快速模型模仿慢速模型的”思考轨迹”速成棋手模仿大师走棋
Step 3:DMD 打磨(500步)再向高品质慢速模型”取经”,补回画质损失快速素描画家对照大师画作修饰细节

经过全部三步,最终模型只需 4步推理(原来需几十甚至上百步),速度提升 224~237倍

三、使用了哪些模型和计算资源?

使用的基础模型(在两个主流开源视频模型上验证):

模型参数量来源
Wan2.1-T2V-1.3B13亿阿里巴巴 Wan 团队
HY1.5-TI2V-8B80亿腾讯混元(HunyuanVideo)

GPU: 推理测试使用 单张 NVIDIA A800;训练支持多卡并行(FSDP + 序列并行),具体训练卡数未披露。

推理速度对比(单张 A800,生成第一帧,不含 VAE):

模型原始速度改造后加速倍数
HY1.5-8B771 秒3.4 秒~224倍
Wan2.1-1.3B269 秒1.1 秒~237倍

训练步数(batch size=32):

阶段步数
第一阶段(摄像机控制)8000 步
第二阶段 Stage1(AR)4000 步
第二阶段 Stage2(蒸馏)1500 步
第二阶段 Stage3(DMD)500 步

总训练时间论文未披露。

四、实验结果

速度: 从”等十几分钟”变成”1~3秒出第一帧”,真正做到实时交互。

摄像机控制: 可响应向左移、向右移、推近、拉远等指令,生成的视频画面会随之变化。

关键发现:

  • 训练数据质量极为关键——用”估算”出的摄像机轨迹效果很差,必须用精确重建的真实轨迹
  • 训练 batch size 必须 ≥ 4,达到 16 才能稳定完成训练

局限性: 目前只支持摄像机方向控制,不支持角色姿势等其他控制信号;画质比原始慢速模型略有下降。

五、潜在应用与已落地应用

  • 游戏/虚拟世界: 实时生成游戏场景,玩家移动镜头时即时响应
  • 影视 Previz: 导演实时预览镜头运动效果
  • 机器人/自动驾驶: 作为”虚拟练习场”训练 AI,成本远低于现实环境
  • VR/AR: 生成个性化沉浸式虚拟环境

生数科技旗下视频产品 Vidu 已商业落地(公司已获阿里云领投约 29亿人民币融资),minWM 框架为其底层研究支撑。

六、网络上的讨论与评价

论文发布于 2026 年 5 月 28 日,社区对以下几点反应正面:

  • 被认为是目前为数不多的全流程开源世界模型框架,填补了”只有论文、没有可复现代码”的空白
  • 定位面向”研究生、独立研究者、小型实验室”受到好评
  • 每个训练阶段提供中间 checkpoint 的设计被认为贴近实际研究需求

大背景: 2026 年是世界模型领域爆发年,Runway GWM-1、NVIDIA Cosmos、GAIA-3 等均同期出现;CVPR 2026 专设”Video World Model Workshop”,可见该领域已成为计算机视觉顶会的核心议题。目前针对该论文本身的深度学术评论尚少。