Matrix-Game 2.0：交互世界模型

一、简介

世界模型（World Model）是AI领域的一个宏大目标，旨在创建能够模拟人们世界运行规律的计算模型。近年来，基于扩散模型的视频生成技术展示了其作为世界模型的巨大潜力，它们能够捕捉复杂的物理动态和交互行为。

最近DeepMind 发布的 Genie 3，Dynamics也推出了Mirage 2世界模型:

Genie 3

Genie 3 是由 Google DeepMind 开发的先进 AI 模型，旨在生成交互式 3D 世界和游戏环境。它代表了世界生成技术的重大飞跃，能够通过极少的输入创建复杂且可导航的 3D 空间。Genie 3 实现了实时互动、高度一致化的生成，直接从「游戏画面」迈入「真实世界」的程度，它能维持数分钟的生成一致性，更重要的是还能做到实时响应。

Genie 3 的主要特点：
- 3D 世界生成：创建完全可导航的 3D 环境
- 以研究为重点：主要用于人工智能研究和实验
- 学术基础：建立在对生成式人工智能的广泛研究之上
- 有限的商业访问：目前仅限于研究应用
Mirage 2

Mirage2 是一款全面的 AI 原生 UGC（用户生成内容）游戏引擎，专为商业游戏开发而设计。它致力于为开发者和创作者提供强大的工具，帮助他们大规模构建、部署 AI 驱动的游戏并实现盈利。

Mirage2 的主要特点：
- 生产就绪平台：专为商业游戏开发而构建
- UGC 焦点：赋能用户创建和分享内容
- 可扩展基础设施：支持数百万用户的云原生架构
- 开发者友好：为游戏创作者提供全面的工具和 API
- 实时生成：游戏过程中动态内容创建

国内也不甘落后昆仑万维为大家带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本——「Matrix-Game 2.0」，同样实现了通用场景下的交互式实时长序列生成的世界模型。并且为促进交互式世界模型领域的发展，Matrix-Game 2.0全面开源，是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。，它的参数量仅有 1.8B，能跑在单块 GPU 上，生成的虚拟环境帧率能达到 25FPS，我们在其中可以用键盘 WASD 按键进行实时的自由移动和视角控制，实现持续时长达分钟级的互动。

最重要的是，它还是完全开源的（有权重 + 代码库），任何人都可以免费使用和修改，还可以自己上传图片进行体验。

二、Data Pipeline Development

为了促进 Matrix-Game 2.0 的大规模训练。我们设计并实现了全面的数据生产流程。具体而言，主要是解决了两个关键挑战：

生成与键盘和摄像头信号注释精确匹配的游戏视频数据；
实现由碰撞感知导航规则和强化学习训练的智能体驱动的交互式视频捕捉机制，从而更好地模拟动态游戏交互。

为了实现实际部署，我们开发并整理了一套多样化的数据集生产流程，其中包含来自虚幻引擎和 GTA5 模拟环境的静态和动态场景。

2.1 基于虚幻引擎的数据生产

高性能交互式视频生成模型的开发需要大规模数据集，这些数据集必须具有精确同步的视觉内容和控制信号，例如精确对齐的键盘输入和摄像机参数。虽然现有数据集通常缺乏游戏画面与相应输入之间的精确时间对齐，但我们基于虚幻引擎的流程通过受控的合成数据生成系统地解决了这一问题。虚幻引擎的精确环境控制和确定性渲染使其特别适合创建可扩展的多模态训练数据，并保证注释的准确性。

如图所示，我们基于虚幻引擎的数据流水线以导航网格和 3D 场景作为输入。然后，系统采用自动移动和摄像机控制模块来模拟agent导航和动态视点转换。最后，生成的视觉数据和相应的动作注释通过集成的 MP4 编码器和 CSV 生成器进行记录和导出。

我们系统的关键创新包括：

基于导航网格的路径规划模块，支持生成多样化的轨迹；
精准的系统输入和摄像头控制机制，确保动作和视点的精准匹配；
结构化的后处理流程，用于高质量的数据管理。

2.1.1 基于导航网格的路径规划系统

为了增强生成的训练数据的真实感和行为多样性，我们开发了一套基于导航网格的先进路径规划系统，以支持非玩家角色 (NPC) 的动态自适应移动。该系统支持实时、确定性的路径规划，这对于生成可重复且高保真的训练数据至关重要。

我们的实现基于虚幻引擎原生的 NavMesh 基础架构，并添加了定制的路径规划优化，将平均查询延迟缩短至 2 毫秒以内。此外，该系统在agent行为中引入了受控随机性，从而在严格遵守逻辑导航约束的同时，实现了多样化且上下文连贯的运动模式。这种方法通过引入逼真的agent交互动态和运动轨迹，显著增强了训练语料库的丰富性，从而提升了下游视频生成模型的泛化能力。上图展示了一个导航示例。图中的绿色区域表示agent可以自由移动的区域，防止agent撞到墙壁并卡住。

2.1.2 强化学习——增强Agent训练

为了进一步提升数据收集agent的行为真实性和决策能力，我们在基于碰撞的导航规则中集成了强化学习 (RL) 框架，并采用了近端策略优化 (PPO) 等典型的 RL 方法。RL agent使用结合了避碰、探索效率和轨迹多样性的奖励函数进行训练：

R_t = α ⋅ R_collision + β ⋅ R_exploration + γ ⋅ R_diversity

其中R_collision是惩罚碰撞事件，R_exploration是奖励发现新区域，R_diversity是鼓励多样化的运动模式。基于碰撞的规则在训练期间充当安全约束，确保强化学习agent在学习最佳导航策略的同时保持物理合理性。

这种混合方法将基于规则的防撞的确定性安全性与 RL 训练行为的自适应智能相结合，从而使agent能够生成更真实、更多样化的交互模式，同时保持数据收集的可靠性。

2.1.3 精确的输入和摄像头控制

我们集成了虚幻引擎的增强输入系统，能够以毫秒级精度同时捕捉多个键盘输入。该系统维护与渲染帧对齐的同步输入事件缓冲区，以确保训练过程中输入与视觉的精确同步：

Input_{frame_i} = ({k₁, k₂, ..., k_n}, timestamp_i)

其中每个输入状态k_j表示与帧i对齐的特定按键按下或释放事件。

为了消除相机旋转计算中 0.2% 的临界错误率，我们通过在中间计算中使用双精度算法实现了四元数精度优化。这项优化将旋转误差降低到几乎可以忽略不计的水平。

2.1.4 数据筛选

我们开发了一种基于 OpenCV 的视频帧过滤算法，用于检测并消除时间冗余帧，从而提高数据效率。此外，我们还引入了一种基于速度的验证机制，用于识别和排除以零速度或负速度为特征的无效样本，这些样本通常表示静止或物理上不可信的运动状态：

其中v⃗表示速度矢量，ϵ是一个较小的正阈值，用于考虑浮点数的精度。此标准可确保仅保留语义上有意义的运动数据，以供后续模型训练使用。

2.1.5 多线程流水线加速

数据处理流水线经过重新设计，支持多线程执行，可在单块 RTX 3090 GPU 上实现双流数据生成。系统采用独立的渲染线程并结合共享内存池，实现高效的资源利用。图展示了一些具有代表性的轨迹示例。绿色线段代表智能体的路径。在复杂场景下，还可以规划合理的路径。

2.2 GTA5 交互式数据记录系统

为了方便获取丰富的交互式动态场景，我们在 GTA5 中使用 Script Hook 集成开发了一个综合录制系统，可以同步捕获视觉内容和相应的用户操作。

使用 Script Hook V 实现了一个自定义插件架构，在 GTA5 环境中建立了一个录制管道。该插件可以同时捕捉鼠标和键盘操作，并实现帧精确同步。每个采集项都包含 RGB 帧以及相应的鼠标和键盘操作。

如图所示，，我们的系统包含三个主要组件：agent行为、GTA V 游戏环境和录制系统。agent行为模块包括自主导航、NPC 交互和车辆交互功能，这些功能通过自定义 C# 修改集成到 GTA V 游戏中。游戏将行为数据以 JSON 格式导出到录制系统，录制系统利用 OBS Studio 进行 MP4 编码的视频捕获，并使用数据收集器生成 CSV 文件。同步机制确保视频帧和行为数据之间的时间对齐，生成同步视频文件（.mp4）和行为数据集（.csv）作为最终输出。可以选择性地启用动态控制机制，包括自主导航、NPC 交互和车辆交互，以从第一人称或第三人称视角生成交互式场景。可以调整车辆密度、NPC 数量、天气模式和时间设置等环境参数，以模拟各种动态场景，增强所收集数据的多样性和真实感。具体来说，车辆密度参数在区间[0.1, 2.0] 内可配置，而 NPC 密度参数跨越区间[0.2, 1.5]。

为了在车辆导航模拟期间获得最佳视点，系统通过每次位置更新来确保精确的摄像机对准，从而在整个模拟过程中保持相对于车辆的最佳且一致的视点：

Camera_position = Vehicle_position + offset × rotation

基于车辆动力学，系统推断并记录相应的键盘输入，从而生成涵盖速度、加速度和转向角的全面且时间一致的交互数据。

此外，我们开发了一个runtime系统，用于动态访问导航网格信息，从而实现智能摄像机定位和运动预测。该系统对导航网格数据结构执行查询，以提取空间约束和有效的遍历路径，从而实现摄像机轨迹的最佳规划。导航网格查询过程涉及实时空间数据检索和路径验证，以确保摄像机运动限制在可导航区域内，同时保持最佳视角以实现有效的数据采集。

2.3 定量数据评估

我们通过数据筛选流水线收集了超过 120 万个视频片段，在多个关键指标上展现了强大的性能。数据整体准确率超过 99%，系统在摄像机旋转精度上实现了 50 倍的提升。此外，该流水线支持每 GPU 双并发数据流，有效提升了生产效率。上图显示了一个具有代表性的轨迹示例。GTA5 中的游戏环境复杂多样，图中的线条代表agent的移动路径。我们可以规划合理的路径，避免agent发生碰撞或阻挡，有效提高数据的准确性。

三、实现方法

下面将介绍 Matrix-Game 2.0 的整体架构和关键组件。首先，我们使用多样化的数据集训练一个基础模型。随后，描述我们的蒸馏方法，该方法将基础模型转换为一个几步自回归扩散模型，从而能够在保持视觉质量的同时实时生成长视频序列。

3.1 基础模型架构

Matrix-Game 2.0，这是一个基于视觉驱动的世界模型的全新框架，旨在探索无需依赖语言描述即可理解和生成世界的智能。在当代研究中，文本引导已成为控制的主要方式——例如 SORA、HunyuanVideo和 Wan，它们都利用文本描述进行生成。然而，此类方法通常会引入语义先验，使生成偏向于语言推理而非物理定律，从而阻碍模型掌握视觉世界基本属性的能力。

相比之下，Matrix-Game 2.0 消除了所有形式的语言输入，仅专注于从图像中学习空间结构和动态模式。这种去语义化的建模方法受到了空间智能概念的启发，强调模型的能力应源于对视觉和物理定律的直观理解，而非抽象的语义框架。

如图左所示，Matrix-Game 2.0 以单幅参考图像及相应动作作为输入，生成一段物理上可信的视频。首先采用 3D Causal VAE对原始视频数据进行空间和时间两个维度的压缩，空间压缩 8 倍，时间压缩 4 倍，从而提升训练效率和建模能力。图像输入经 3D VAE 编码器编码，CLIP 图像编码器作为条件输入。在用户输入动作的引导下，扩散变换器 (DiT) 生成视觉标记序列，随后经 3D VAE 解码器解码成视频。

为了实现用户与生成内容的交互，Matrix-Game 2.0 引入了动作模块，以实现可控的视频生成。受到 GameFactory和 Matrix-Game的控制设计范式的启发，我们将帧级动作信号嵌入到 DiT 块中，如图右所示。注入的动作信号分为两类：

通过键盘输入的离散移动动作：键盘动作通过交叉注意层由融合特征查询，从而实现对交互的精确可控。
通过鼠标移动的连续视点动作：连续鼠标动作直接连接到输入的潜在表示，通过 MLP 层转发，然后通过时间自注意层。

与 Matrix-Game不同，Matrix-Game 2.0使用旋转位置编码 RoPE (RoPE) 来替换添加到键盘输入的正余弦嵌入，以促进长视频生成。

3.2 实时交互式自回归视频生成

与Matrix-Game采用仅限于固定长度生成的全序列扩散模型不同，Matrix-Game 2.0开发了一种用于实时长视频合成的自回归扩散模型。我们的方法通过Self-Forcing将双向基础模型转换为高效的自回归变体，该模型通过基于先前自生成的输出（而非真实值）对每一帧进行条件反射来解决曝光偏差问题。这显著降低了Teacher Forcing或Diffusion Forcing方法的误差累积特性。

蒸馏过程包括两个关键阶段：

student初始化
基于 DMD 的Self-Forcing训练

我们首先使用基础模型中的权重初始化student生成器G_ϕ，然后构建 ODE 轨迹数据集{x_tⁱ}_i = 1^N，其中t是从[0, T]的 3 个步骤子集中采样的。在训练期间，分块因果掩码应用于每个注意层中的键和值。如上图所示，我们首先从 ODE 轨迹中采样一个包含N帧的噪声输入序列，并将其拆分为L个具有独立时间步长的块{x_Tⁱ}_i = 1^L。student生成器将相应的动作作为输入，并使用去噪输出和干净输出之间的回归损失进行反向传播：

ℒ_student = 𝔼_x, tⁱ∥G_ϕ({x_tⁱⁱ}_i = 1^L, {cⁱ}_i = 1^L, {tⁱ}_i = 1^L) − {x₀ⁱ}_i = 1^L∥²

如上图，随后的 DMD 阶段通过Self-Forcing将Student模型的分布p_θ, t(x_t^1 : N)与Teacher模型的p_real, t(x_t^1 : N) 对齐。至关重要的是，生成器从其自身的分布（而非真实训练数据）中采样先前的帧，从而缩小了训练-推理差距并减少了由此造成的误差累积。

KV 缓存机制通过维护固定长度的近期潜在向量和动作嵌入缓存，实现高效的顺序生成。我们的滚动缓存实现会在超出容量时自动移除最旧的令牌，从而支持无限长度的生成。为了解决图像到视频场景中潜在的训练-推理差距问题（在长视频推理过程中，首帧可能会被排除），我们限制了 KV 缓存窗口大小。这迫使模型更多地依赖其学习到的先验知识和对输入动作的理解进行生成，同时通过在训练期间使初始帧对后续潜在帧不可见，从而提高了鲁棒性。

通过“因果架构+少步蒸馏”的组合拳，Matrix-Game 2.0成功地将生成速度提升到了25 FPS，实现了真正的实时交互。