
Xiaomi MiMo-V2-TTS是小米专为Agent时代打造的语音合成大模型,基于自研Audio Tokenizer与多码本架构,经上亿小时语音数据预训练及多维度强化学习,实现从整体基调到局部情绪的精准可控,兼具智能文本理解、方言、角色扮演、歌声合成等能力,让AI拥有有温度、有灵魂的自然表达。

字节跳动开发的一款多功能人工智能工具,基于云雀模型(豆包大模型)构建。它不仅是一个AI聊天机器人,还具备多种功能,包括写作助手、英语学习助手、音乐生成、编程助理等。

Xiaomi-Robotics-0模型是小米开源的首代机器人VLA(视觉-语言-动作)大模型,搭载47亿参数,创新采用MoT混合架构——以Qwen3-VL多模态模型为“大脑”,负责解析视觉与语言指令、理解场景意图;以Diffusion Transformer(DiT)为“小脑”,专注生成高频平滑动作块。