
OmniVoice是小米K2-Fsa团队推出的新一代文本转语音(TTS)模型,以扩散语言模型架构打破传统语音合成壁垒,支持600+语言与方言,兼具业界顶尖零样本声音克隆、极速推理与文本定制音色能力。

字节跳动开发的一款多功能人工智能工具,基于云雀模型(豆包大模型)构建。它不仅是一个AI聊天机器人,还具备多种功能,包括写作助手、英语学习助手、音乐生成、编程助理等。

Xiaomi MiMo-V2-TTS是小米专为Agent时代打造的语音合成大模型,基于自研Audio Tokenizer与多码本架构,经上亿小时语音数据预训练及多维度强化学习,实现从整体基调到局部情绪的精准可控,兼具智能文本理解、方言、角色扮演、歌声合成等能力,让AI拥有有温度、有灵魂的自然表达。

Xiaomi-Robotics-0模型是小米开源的首代机器人VLA(视觉-语言-动作)大模型,搭载47亿参数,创新采用MoT混合架构——以Qwen3-VL多模态模型为“大脑”,负责解析视觉与语言指令、理解场景意图;以Diffusion Transformer(DiT)为“小脑”,专注生成高频平滑动作块。