web建站教程

  1. 首页
  2. vuejs
  3. js
  4. 好玩
  5. seo教程
  6. 前端知识
  7. 百度echarts
  8. php入门
    nodejs
    mockjs
    reactjs
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站

一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM

64 ℃

OSUM是由西北工业大学 ASLP 实验室开发的开源语音理解模型,旨在探索在有限的学术资源下如何高效训练和利用语音理解模型,以推动相关技术的研究与创新。该模型结合了 Whisper 编码器和 Qwen2 语言模型,支持多种语音任务,并通过 ASR+X 训练策略优化多任务学习。

一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM

OSUM功能特点:

1、多任务支持

OSUM 支持 8 种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。

2、高效多任务训练

采用 ASR+X 训练策略,同时优化模态对齐和目标任务,实现高效稳定的多任务训练。

3、数据透明性

训练方法和数据准备过程均已开放,为学术界提供参考。

4、性能提升

技术报告 v2.0 显示,训练数据量增至 50.5K 小时,模型性能显著提升。

5、开源许可

代码和权重在 Apache 2.0 许可下开放,可用于学术和商业目的。

进入OSUM项目网址入口

TIGER:一款由清华大学研发的轻量级语音分离模型

标签: 西北工业大学, 语音大模型

上面是“一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。

当前网址:https://ipkd.cn/webs_17556.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

当前位置: 网站首页 > IT知识
本文共计440个字,预计阅读时长3分钟

呱呱工具箱

一款免费的在线小工具,无需下载,打开即可使用!呱呱工具箱
生活小工具,收录了80多款小工具
上一篇: 推荐一款可免费商用圆体字库——江城圆体
下一篇: 推荐一款由字制区设计团队的免费综艺字体——字制区喜脉体
x 打工人ai神器