论文综述：minWM | Huggingface paper 论文综述

一、论文是干什么的？

你有没有想过，如果 AI 能像电影导演一样，实时地”拍摄”虚拟世界的视频——你说”镜头向左转”，它立刻生成相应的画面？这就是”视频世界模型”的目标。

然而现实中，现有的 AI 视频生成模型虽然画面精美，却有个致命缺陷：太慢，也不够”听话”。它们一次性生成整段视频，无法实时响应用户的操控指令——就像一台漂亮但只能播放固定内容的录像机，而不是可以互动的游戏机。

minWM 就是一套完整的开源工具包，能把现有”慢吞吞的”AI 视频生成模型，改造成可实时交互、能听从摄像机指令的世界模型。整套流程全部开源，让全球的研究生、小型实验室都能用。

二、核心方法与创新

minWM 的核心思路用”改造汽车”来类比：

一辆豪华但笨重的老式轿车（原始视频生成模型）——开得很稳很漂亮，但启动需要10分钟，而且不能实时响应方向盘。minWM 就是一套改装方案，让它变成既保留画质、又能实时响应驾驶指令的赛车。

整个改造分两大阶段：

第一阶段：教 AI “看懂镜头”（PRoPE）

用 PRoPE 技术，给视频里每一帧的每个像素都附上”摄像机地图”，告诉模型”这个像素是从哪个角度、哪个位置看过去的”。

类比：给一个从没看过地图的人，在照片的每个角落都标注了”拍摄时站在哪里、朝哪个方向”，久而久之他就学会了透视关系。

经过约 8000 步训练，模型才能真正”听懂”摄像机指令。

第二阶段：三步提速（Causal Forcing 因果强迫法）

步骤	做什么	类比
Step 1：AR 训练（4000步）	从”一锅端生成”变成”逐帧流水线”	从录播电影变成直播
Step 2：初始化快速版（1500步）	快速模型模仿慢速模型的”思考轨迹”	速成棋手模仿大师走棋
Step 3：DMD 打磨（500步）	再向高品质慢速模型”取经”，补回画质损失	快速素描画家对照大师画作修饰细节

经过全部三步，最终模型只需 4步推理（原来需几十甚至上百步），速度提升 224～237倍。

三、使用了哪些模型和计算资源？

使用的基础模型（在两个主流开源视频模型上验证）：

模型	参数量	来源
Wan2.1-T2V-1.3B	13亿	阿里巴巴 Wan 团队
HY1.5-TI2V-8B	80亿	腾讯混元（HunyuanVideo）

GPU： 推理测试使用 单张 NVIDIA A800；训练支持多卡并行（FSDP + 序列并行），具体训练卡数未披露。

推理速度对比（单张 A800，生成第一帧，不含 VAE）：

模型	原始速度	改造后	加速倍数
HY1.5-8B	771 秒	3.4 秒	~224倍
Wan2.1-1.3B	269 秒	1.1 秒	~237倍

训练步数（batch size=32）：

阶段	步数
第一阶段（摄像机控制）	8000 步
第二阶段 Stage1（AR）	4000 步
第二阶段 Stage2（蒸馏）	1500 步
第二阶段 Stage3（DMD）	500 步

总训练时间论文未披露。

四、实验结果

速度： 从”等十几分钟”变成”1～3秒出第一帧”，真正做到实时交互。

摄像机控制： 可响应向左移、向右移、推近、拉远等指令，生成的视频画面会随之变化。

关键发现：

训练数据质量极为关键——用”估算”出的摄像机轨迹效果很差，必须用精确重建的真实轨迹
训练 batch size 必须 ≥ 4，达到 16 才能稳定完成训练

局限性： 目前只支持摄像机方向控制，不支持角色姿势等其他控制信号；画质比原始慢速模型略有下降。

五、潜在应用与已落地应用

游戏/虚拟世界： 实时生成游戏场景，玩家移动镜头时即时响应
影视 Previz： 导演实时预览镜头运动效果
机器人/自动驾驶： 作为”虚拟练习场”训练 AI，成本远低于现实环境
VR/AR： 生成个性化沉浸式虚拟环境

生数科技旗下视频产品 Vidu 已商业落地（公司已获阿里云领投约 29亿人民币融资），minWM 框架为其底层研究支撑。

六、网络上的讨论与评价

论文发布于 2026 年 5 月 28 日，社区对以下几点反应正面：

被认为是目前为数不多的全流程开源世界模型框架，填补了”只有论文、没有可复现代码”的空白
定位面向”研究生、独立研究者、小型实验室”受到好评
每个训练阶段提供中间 checkpoint 的设计被认为贴近实际研究需求

大背景： 2026 年是世界模型领域爆发年，Runway GWM-1、NVIDIA Cosmos、GAIA-3 等均同期出现；CVPR 2026 专设”Video World Model Workshop”，可见该领域已成为计算机视觉顶会的核心议题。目前针对该论文本身的深度学术评论尚少。

七、思维导图

mindmap
  root((minWM))
    研究目标与背景
      将慢速双向扩散模型改造为实时交互世界模型
      两大基础模型
        Wan2.1-T2V-1.3B 阿里巴巴 Cross-Attention条件注入
        HY1.5-TI2V-8B 腾讯混元 MMDiT架构
      推理规格 480x832分辨率 77帧 4帧自回归块
    Phase1 PRoPE摄像机控制训练
      PRoPE Projective Positional Encoding
        提升投影矩阵 P_i = K_i T_i_cw e4 共4x4矩阵
        K_i为相机内参矩阵 T_i_cw为外参变换
        块对角变换 ID/8 ⊗ P_i 与RoPE位置编码结合
        通过GTA形式的自注意力层编码相机位姿
      训练数据构建
        成功路线1 DL3DV三维重建后沿设计轨迹重渲染
        成功路线2 WorldPlay从OpenVid图像生成指定轨迹视频
        失败路线 SpatialVid估算位姿 因位姿噪声导致失败
      训练收敛规律
        1K-2K步 模型完全不可控
        5K步 摄像机可控性开始出现
        8K步 达到强可控性
      HY1.5训练 8000步 batch=32 lr=1e-5
      Wan2.1训练 5000步 batch=32 lr=2e-6
    Phase2 Causal Forcing三阶段提速
      Stage1 AR Diffusion Training自回归化
        用因果注意力掩码微调双向模型
        允许访问真实历史帧作为ground-truth前缀
        目标 将one-shot生成改为逐帧流水线
        HY1.5 4000步 Wan2.1 4000步
      Stage2A Causal ODE Initialization快速初始化
        损失 min_theta E[G_theta(x_t_i, x_gt_i, t) - x_0_i 的L2范数]
        x_gt_i为来自真实数据的历史前缀
        HY1.5 1500步 Wan2.1 2000步
      Stage2B Causal Consistency Distillation可选替代
        使用EMA参数θ_EMA作为教师模型并stop-gradient
        消除Stage2A的存储开销
      Stage3 Asymmetric DMD分布匹配蒸馏
        KL散度梯度 E_t[D_KL(p_theta_t 与 p_data_t)]
        梯度 = -(s_real - s_fake) * dx/dtheta
        Student自我rollout生成完整视频序列
        Reference 冻结扩散模型评估真实分数
        HY1.5 500步 Wan2.1 200步
    Batch Size消融实验
      batch小于4 经常无法学习摄像机可控性
      batch=8 有所改善但仍不稳定
      batch=16 可稳定训练高可控性
      batch=32 最终配置
    推理速度结果
      HY1.5-8B原始双向 771秒第一帧
      HY1.5-8B改造后 3.446秒 加速223.75倍
      Wan2.1-1.3B原始双向 269秒第一帧
      Wan2.1-1.3B改造后 1.137秒 加速236.64倍
      均在单张NVIDIA A100测试 不含VAE解码
      4步扩散推理 PF-ODE轨迹采样
    训练总步数汇总
      HY1.5总计约13500步
        双向摄像机控制 8000步
        AR化 4000步
        ODE初始化 1500步
        DMD蒸馏 500步
      Wan2.1总计约11200步
        双向摄像机控制 5000步
        AR化 4000步
        ODE初始化 2000步
        DMD蒸馏 200步
    局限与展望
      当前局限
        仅支持摄像机方向控制 不支持角色姿势等信号
        画质相比原始慢速模型略有下降
        训练数据构建需要三维重建或专用生成工具
      未来方向
        扩展至角色动作 物理交互等更多控制信号
        进一步压缩推理延迟至毫秒级
        与具身智能训练环境深度结合