web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. AIGC工具
  5. 百度echarts
  6. 地图大全
  7. 前端知识
  8. 更多
    vuejs
    js入门
    php入门
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站
    AI应用

端到端大模型

Chroma 1.0:FlashLabs推出的首款开源实时端到端语音对话模型

Chroma 1.0是FlashLabs推出的首款开源实时端到端语音对话模型,该模型创新采用语音理解与生成紧密耦合架构,搭配1:2文本-音频token调度策略,可达成亚秒级输出;仅需几秒参考音频,就能精准复刻说话人音色,speaker相似度较人类基线提升10.96%。

端到端大模型语音对话模型
HunyuanOCR:腾讯混元推出的开源轻量级端到端OCR视觉语言模型
HunyuanOCR:腾讯混元推出的开源轻量级端到端OCR视觉语言模型

HunyuanOCR是腾讯混元团队推出的开源端到端OCR视觉语言模型,其功能覆盖文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取等经典OCR任务,同时支持端到端拍照翻译与文档问答,为多场景文本处理提供一站式解决方案。

OCR视觉语言模型混元大模型端到端大模型腾讯开源
FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型
FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型

FunAudio-ASR是阿里巴巴达摩院研发的端到端语音识别大模型,聚焦企业落地场景中的核心痛点,通过创新的Context增强模块,从根源上优化了语音识别领域的“幻觉”“串语种”等行业难题。

端到端大模型语音识别模型阿里达摩院
Qwen3-Omni:阿里通义团队推出业界首个原生端到端全模态AI模型
Qwen3-Omni:阿里通义团队推出业界首个原生端到端全模态AI模型

Qwen3-Omni支持119种语言文本交互、19种语音理解语言及10种语音生成语言,轻松覆盖全球主流语种,满足跨地域业务需求。响应速度更实现突破性优化,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms,搭配长达30分钟的长音频理解能力,为实时交互场景提供流畅体验。

Qwen3基础架构端到端大模型阿里通义
Fun-Audio-Chat:阿里云通义百聆团队新一代端到端的开源语音交互模型
Fun-Audio-Chat:阿里云通义百聆团队新一代端到端的开源语音交互模型

开源的Fun-Audio-Chat-8B在语音对话、情感识别等核心任务上表现突出,综合性能超越GLM4-Voice等同尺寸竞品,现已落地智能客服、情感陪伴等多元场景,开发者可通过ModelScope、HuggingFace平台免费下载使用。

端到端大模型语音交互模型通义实验室阿里云
Trae:新一代免费的AI编程工具