web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. AIGC工具
  5. 百度echarts
  6. 地图大全
  7. 前端知识
  8. 更多
    vuejs
    js入门
    php入门
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站
    AI应用

语音识别模型

Qwen3-ASR:阿里云通义千问团队开源的语音识别模型系列
Qwen3-ASR:阿里云通义千问团队开源的语音识别模型系列

Qwen3-ASR是阿里云通义千问团队开源的语音识别模型系列,模型支持52个语种与方言识别、流式/非流式一体化推理,在强噪声、快语速、歌唱等复杂场景下表现稳定鲁棒——1.7B模型在中英文及方言识别领域达开源SOTA水平,0.6B模型可支持128并发、2000倍吞吐,10秒即可处理5小时音频,兼顾精度与效率需求。

Qwen3基础架构语音识别模型阿里通义
VibeVoice-ASR:微软开源专为长达60分钟的长音频语音识别模型
VibeVoice-ASR:微软开源专为长达60分钟的长音频语音识别模型

VibeVoice-ASR是微软推出的开源先进语音识别模型,专为长达60分钟的长音频处理打造。该模型可一次性完成整段音频转录,全程保留全局上下文信息,彻底规避传统分段处理导致的上下文断裂问题。

微软开源模型语音识别模型
FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型
FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型

FunAudio-ASR是阿里巴巴达摩院研发的端到端语音识别大模型,聚焦企业落地场景中的核心痛点,通过创新的Context增强模块,从根源上优化了语音识别领域的“幻觉”“串语种”等行业难题。

端到端大模型语音识别模型阿里达摩院
Nemotron Speech ASR:英伟达开源低延迟流式语音识别模型,24毫秒实现单句转录锁定

Nemotron Speech ASR是英伟达推出的开源实时流式语音识别模型,专为低延迟语音交互场景打造。依托创新的缓存感知架构,模型可缓存已处理语音特征,仅对新音频帧执行增量计算,实现单句转录锁定仅需24毫秒,彻底解决传统流式模型在长语音识别中的累积延迟难题。

英伟达语音识别模型
MedASR模型:Google推出的一款专注于医学领域的语音识别模型

MedASR支持根据特定医疗场景需求进一步微调优化。通过将医学语音高效转化为结构化文本,MedASR为医疗领域数字化应用搭建核心技术支撑,助力提升医疗服务效率与智能化水平。

AI医学助手语音识别模型谷歌AI
Trae:新一代免费的AI编程工具