豆包语音大模型系列之AI说书功能通过其强大的语音合成能力和情感表达,为用户提供了媲美真人主播的听书体验。它不仅在技术上实现了突破,还通过实际应用为用户带来了更加丰富和自然的听书选择。
OSUM支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。
实验结果显示,TIGER在EchoSet数据集上的表现优于其他模型,尤其是在EchoSet-500数据集上,性能提升了约5%。此外,TIGER在电影音频分离任务中也展现了强大的泛化能力,进一步证明了其在复杂声学环境中的适用性。