Matrix-Game

2.2k 229 困难 1 次阅读昨天MIT视频

AI 解读由 AI 自动生成，仅供参考

Matrix-Game 是由 Skywork AI 推出的一系列开源世界模型，旨在构建能够理解并模拟现实世界动态的智能系统。最新版本 Matrix-Game 3.0 实现了实时、流式交互能力，并具备长时程记忆机制，让 AI 不仅能生成连贯的长视频内容，还能在长时间互动中记住上下文信息，做出更符合逻辑的反应。

传统视频生成模型往往缺乏对时间连续性和用户交互的深度支持，而 Matrix-Game 通过引入流式架构与记忆模块，有效解决了长序列生成中的不一致问题和交互滞后难题。这使得它在游戏开发、虚拟助手、沉浸式叙事等场景中表现出色。

该工具特别适合研究人员探索世界建模前沿技术，也面向开发者提供完整代码实现，便于二次开发与集成应用。设计师可利用其快速原型验证互动体验，普通用户则能通过示例感受未来人机交互的可能性。

其核心技术亮点包括：支持实时输入响应的流式推理架构、可跨分钟级甚至小时级保持上下文一致性的长时记忆机制，以及从 1.0 到 3.0 持续迭代的开放生态。项目采用 MIT 许可证，鼓励社区共建共享，推动世界模型技术普惠化发展。

使用场景

某独立游戏开发团队正在制作一款开放世界 RPG，需要构建一个能根据玩家行为实时演化且记忆长周期剧情互动的动态虚拟世界。

没有 Matrix-Game 时

剧情割裂严重：NPC 无法记住玩家长时间前的关键抉择，导致后续对话逻辑矛盾，沉浸感瞬间崩塌。
交互响应延迟：传统生成模型需离线渲染或长时间推理，无法支持玩家操作后的毫秒级画面与剧情反馈。
内容生产瓶颈：为覆盖多分支剧情，美术和编剧需手动制作海量静态素材，成本高昂且难以穷尽所有可能性。
世界缺乏连贯性：场景切换或时间流逝后，环境状态（如天气、建筑损毁）无法保持连续演变，显得生硬虚假。

使用 Matrix-Game 后

长程记忆精准：Matrix-Game 的长时域记忆机制让 NPC 能清晰回溯数小时前的玩家行为，并据此动态调整态度与任务线。
实时流式互动：依托实时流式架构，玩家每一个细微动作都能触发即时的视频流生成，实现真正的“所见即所得”交互。
无限内容生成：无需预制所有素材，Matrix-Game 能根据当前情境实时演算出符合逻辑的长视频片段，大幅降低美术资产压力。
世界持续演化：虚拟世界具备连续性，从白天到黑夜、从和平到战乱，环境状态随时间轴自然流转，逻辑严密自洽。

Matrix-Game 将原本静态、割裂的游戏脚本升级为拥有持久记忆与实时演化能力的鲜活世界，彻底重构了交互式内容的生产范式。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes提供的 README 内容仅包含项目概述、版本发布新闻和许可证信息，未提及具体的运行环境需求（如操作系统、GPU、内存、Python 版本或依赖库）。请查阅各版本子目录（Matrix-Game-1/2/3）中的详细文档以获取具体配置要求。

python未说明

快速开始

矩阵游戏

Skywork AI

🔥🔥🔥 新闻！！

2026年3月27日：🔥 我们发布了Matrix-Game-3.0。这是一个具有长时记忆的实时流式交互世界模型。
2025年8月12日：🔥 我们发布了Matrix-Game-2.0。这是一个用于实时长视频生成的交互式世界基础模型。
2025年5月12日：🔥 我们发布了Matrix-Game-1.0。这是Skywork AI矩阵游戏系列世界模型的首次开源发布。

📝 概述

Matrix-Game 是由Skywork AI推出的一系列开源世界模型。

本仓库提供了Matrix-Game-1.0、Matrix-Game-2.0和Matrix-Game-3.0的官方实现。

https://github.com/user-attachments/assets/f5387c64-1d18-414a-935f-00a1f6eec8de

📄 许可证

本项目采用MIT许可证授权——详情请参阅LICENSE文件。

Matrix-Game 快速上手指南

Matrix-Game 是由 Skywork AI 推出的一系列开源世界模型，涵盖从基础视频生成到具备长时记忆的实时流式交互世界模型（最新为 Matrix-Game-3.0）。本指南将帮助您快速搭建环境并运行模型。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS
Python 版本: Python 3.9 或更高版本
GPU 支持: 推荐使用 NVIDIA GPU，并安装对应的 CUDA 驱动 (CUDA 11.8 或 12.1+)
前置依赖:
- Git
- pip (包管理工具)
- FFmpeg (用于视频处理)

提示：国内开发者建议使用国内镜像源加速 Python 包下载，例如阿里云或清华大学镜像源。

安装步骤

1. 克隆项目仓库

首先，从 GitHub 克隆 Matrix-Game 源代码。您可以根据需要选择特定版本（此处以最新的 3.0 版本为例）：

git clone https://github.com/SkyworkAI/Matrix-Game.git
cd Matrix-Game/Matrix-Game-3

2. 创建虚拟环境

建议创建一个独立的 Python 虚拟环境以避免依赖冲突：

python -m venv venv
source venv/bin/activate  # Windows 用户请使用: venv\Scripts\activate

3. 安装依赖库

使用 pip 安装所需依赖。国内用户推荐添加镜像源参数以加速下载：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

如果项目中包含可编辑安装的本地包，请执行：

pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

安装完成后，您可以使用提供的脚本进行简单的推理测试。以下是一个生成短视频或启动交互会话的最简示例。

运行推理示例

假设您想使用预训练权重生成一段视频，可以使用如下命令（具体参数请参考各版本目录下的 examples 文件夹）：

python infer.py --config configs/matrix_game_3.yaml --prompt "A futuristic city with flying cars" --output_dir ./outputs

启动交互式世界模型 (Matrix-Game-3.0)

对于支持实时流式交互的版本，可以启动服务进行互动：

python app.py --model_path checkpoints/matrix-game-3.0 --port 8080

启动后，在浏览器中访问 http://localhost:8080 即可体验实时交互功能。

注意：首次运行时，脚本可能会自动下载预训练模型权重。如果下载缓慢，请检查项目文档中是否提供了具体的国内网盘链接或手动下载路径。

常见问题

运行推理脚本时遇到报错或卡顿，如何解决？

如何正确安装 Flash Attention？版本有什么要求？

如何使用自回归模式生成视频？past_frames 和 initial_image 应该如何设置？

在使用基础模型（未蒸馏）进行推理时，加载权重报错缺少键值（Missing keys）怎么办？

输入图像数据的格式和路径应该如何构造？

如何在命令行中指定模型路径进行推理？

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。

★ 55k|★★★☆☆|1周前

开发框架语言模型Agent

oh-my-openagent

oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。

★ 52.3k|★★☆☆☆|今天

视频语言模型开发框架

tabby

Tabby 是一款可私有化部署的开源 AI 编程助手，旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题，让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构，以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构，无需配置复杂的数据库或依赖云服务即可快速启动。同时，它对硬件十分友好，支持在普通的消费级 GPU 上流畅运行，大幅降低了部署门槛。此外，Tabby 提供了标准的 OpenAPI 接口，能轻松集成到现有的云 IDE 或内部开发流程中，并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答，Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。

★ 33.3k|★★★☆☆|1周前

开发框架语言模型Agent

generative-models

Generative Models 是 Stability AI 推出的开源项目，核心亮点在于最新发布的 Stable Video 4D 2.0（SV4D 2.0）。这是一个先进的视频转 4D 扩散模型，旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况，且生成的动态细节容易模糊，而 SV4D 2.0 通过改进的架构，显著提升了运动中的画面锐度与时空一致性，无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者，它提供了探索 4D 生成前沿的完整代码与训练权重；对于开发者，其支持自动回归生成长视频及低显存优化选项，便于集成与调试；对于设计师，它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面，SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角（或 5 帧对应 8 视角），分辨率达 576x576，并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频，

★ 27.1k|★★★★☆|1周前

视频其他