VoiceSculptor是由西北工业大学、语图智能联合推出的前沿音色设计模型,支持对音色的性别、年龄、语速、音调、音量及情感等核心属性进行灵活调校,并融合检索增强生成(RAG)技术强化复杂指令理解能力。
OSUM支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。
DeepSeek php语法 dedecms建站 CMS网站 SEO优化 调用 id mysql语法 栏目 织梦