
SoulX-Singer是工业级零样本歌声合成模型,核心优势为零样本克隆、双模式控制、跨语言合成,性能领先开源方案;技术层面依托Flow Matching架构、显式多模态对齐等创新,兼顾生成效率与自然度;核心适配虚拟歌手打造、音乐二创、专业创作辅助、个性化娱乐等场景。

VoiceSculptor是由西北工业大学、语图智能联合推出的前沿音色设计模型,支持对音色的性别、年龄、语速、音调、音量及情感等核心属性进行灵活调校,并融合检索增强生成(RAG)技术强化复杂指令理解能力。

OSUM支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。
