Solaris多人视频模型官网入口，累计收集1260万帧多人游戏标注数据-AI项目和框架-web建站教程

Solaris是全球首个多人视频世界生成模型，专注于在Minecraft场景中，同步生成两位玩家一致的第一人称视角视频。模型彻底突破现有模型仅支持单玩家的技术局限，核心实现跨玩家视角的空间一致性——当一位玩家执行建造、移动等动作时，另一玩家的视角会实时同步反映场景变化。

Solaris多人视频模型官网入口，累计收集1260万帧多人游戏标注数据

Solaris核心功能：

1、多人视角同步生成：

核心能力的是同时为两位玩家生成视角一致的第一人称视频，严格保障跨玩家的空间一致性，一位玩家的任何动作（建造、移动、挖掘等），都会在另一玩家视角中实时同步呈现，还原真实多人游戏交互场景。

2、长时序稳定生成：

依托Checkpointed Self Forcing核心技术，可生成长达224帧（11.2秒）的稳定视频序列，有效规避长序列生成中误差累积导致的视觉退化、场景错乱等问题，确保视频连贯性与真实性。

3、动作条件精准控制：

全面支持完整的Minecraft动作输入，包括移动、相机调整、挖掘、放置方块等，生成的视频严格遵循给定的动作序列，实现动作与视觉呈现的精准匹配，可控性极强。

4、复杂动态场景模拟：

可精准模拟Minecraft中的各类复杂动态，涵盖背包状态同步、天气变化、物理建造与破坏、PvP战斗等，高度还原多人游戏中的真实交互场景，满足多样化模拟需求。

Solaris技术原理：

1、多人DiT架构：

基于MatrixGame 2.0单玩家扩散Transformer架构升级，通过扩展动作空间适配完整Minecraft动作输入；引入跨玩家自注意力层，实现两位玩家视角信息的实时交换；添加玩家ID嵌入模块，精准区分不同玩家视角，其余交叉注意力、FFN等模块保留单玩家架构优势，兼顾性能与效率。

2、四阶段渐进训练：

以单玩家预训练权重为基础，第一阶段在VPT数据集上微调，适配Minecraft动作空间；第二阶段切换至多人数据，训练双向模型作为教师模型；第三阶段将双向模型因果化为滑动窗口生成器；第四阶段通过Checkpointed Self Forcing技术，实现长序列稳定生成，完成全流程训练。

3、Checkpointed Self Forcing 技术：

针对滑动窗口自回归生成的内存瓶颈，创新采用“先无梯度生成并缓存干净帧与噪声状态，再通过自定义注意力掩码单次并行重计算”的方式，严格复现滑动窗口依赖关系，将内存复杂度从 O(Lt⋅Ls) 降至 O(Lt)，同时支持KV缓存梯度回传，大幅提升生成视频的质量与稳定性。

4、SolarisEngine 数据系统：

针对现有框架缺乏多人场景支持的痛点，构建基于 Mineflayer 的控制器与官方Minecraft客户端的相机分离架构；通过服务器插件实现多玩家状态实时同步，采用Docker容器化技术，实现数据采集的并行扩展与故障自动恢复，最终完成1260万帧动作标注的多人游戏数据采集，为模型训练提供高质量数据支撑。