web建站教程

     
  1. 首页
  2. vuejs
  3. js
  4. 好玩
  5. seo教程
  6. 前端知识
  7. 百度echarts
  8. 更多
    php入门
    nodejs
    mockjs
    reactjs
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站

语音大模型

一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM
一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM

OSUM支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。

西北工业大学语音大模型
TIGER:一款由清华大学研发的轻量级语音分离模型
TIGER:一款由清华大学研发的轻量级语音分离模型

实验结果显示,TIGER在EchoSet数据集上的表现优于其他模型,尤其是在EchoSet-500数据集上,性能提升了约5%。此外,TIGER在电影音频分离任务中也展现了强大的泛化能力,进一步证明了其在复杂声学环境中的适用性。

清华大学语音大模型