OSUM是由西北工业大学 ASLP 实验室开发的开源语音理解模型,旨在探索在有限的学术资源下如何高效训练和利用语音理解模型,以推动相关技术的研究与创新。该模型结合了 Whisper 编码器和 Qwen2 语言模型,支持多种语音任务,并通过 ASR+X 训练策略优化多任务学习。

OSUM功能特点:
1、多任务支持:
OSUM 支持 8 种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。
2、高效多任务训练:
采用 ASR+X 训练策略,同时优化模态对齐和目标任务,实现高效稳定的多任务训练。
3、数据透明性:
训练方法和数据准备过程均已开放,为学术界提供参考。
4、性能提升:
技术报告 v2.0 显示,训练数据量增至 50.5K 小时,模型性能显著提升。
5、开源许可:
代码和权重在 Apache 2.0 许可下开放,可用于学术和商业目的。
相关阅读文章
VoiceSculptor:西北工业大学、语图智能等机构推出的音色设计模型
上面是“一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_17556.html
workflows工作流
未来椅子3D产品ComfyUI工作流
一个浑身皮毛看起来像丘巴卡的3d动漫人物
一只可爱的毛茸茸的猫ComfyUI工作流
小孩手握锤子顽皮搞笑卡通3d形象
一轮月亮悬挂在树上的天空中ComfyUI工作流
汉堡里的一只毛茸茸的小猫ComfyUI工作流
荷塘月色ComfyUI工作流
水晶玉雕巨龙ComfyUI工作流
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

利用js+css3做一个小鱼游泳特效
css3结合svg做一个动态广告
css3绘制一个会动的大嘴鸟
会议人员60s签到倒计时插件
css3画弹珠,可以滚动!
利用css3做一个动态loading效果
自动打字效果(惊喜在后面)
制作一个好玩的倒计时






