Kyutai实验室正式发布Hibiki-Zero——一款具备30亿参数的同步语音到语音翻译模型。该模型凭借创新训练范式,彻底摆脱对词级对齐数据的依赖,仅通过粗略句子级对齐,即可实现高质量、低延迟的实时翻译,且原生支持跨语言音色迁移,为实时语音翻译领域提供了全新解决方案。

Kyutai模型功能特点:
1、监督预训练:
基于合成数据构建多语言数据集(覆盖法语、西班牙语、葡萄牙语、德语至英语的翻译方向),仅依靠句子级对齐数据开展监督学习,快速搭建基础翻译模型框架,降低数据依赖门槛。
2、GRPO强化学习优化:
引入全新强化学习技术——组相对策略优化(Group Relative Policy Optimization, GRPO)。该技术以BLEU指标为基础设计过程奖励,让模型自动学习最优“读写”策略,即精准判断“听到多少上下文后启动翻译”,在保障翻译质量的前提下,显著降低端到端延迟。同时,通过单一超参数即可灵活调控模型在翻译质量与延迟之间的平衡,适配不同场景需求。
Kyutai模型性能介绍:
1、主观评价:
相比基线模型Seamless及前代Hibiki,模型在跨语言说话人相似度上实现显著提升,具体数据:
法语→英语:音频质量64.5分、说话人相似度70.0分、语音自然度67.2分。
西班牙语→英语:音频质量66.8分、说话人相似度69.0分、语音自然度66.2分。
2、客观指标:
模型在提升翻译准确性的同时,成功实现延迟优化,核心数据:
法语→英语:BLEU值30.6,平均延迟6.1秒。
西班牙语→英语:BLEU值32.3,平均延迟5.6秒。
Kyutai模型核心优势:
1、高效批处理推理:
推理阶段采用简单温度采样策略,天然支持批处理操作;在单张H100GPU上,批处理推理速度可达实时速度的3倍,兼顾高效性与实用性。
2、强大新语言适应能力:
模型具备极低成本的新语种扩展能力——研究团队仅使用不到1000小时意大利语语音的句子级对齐数据集,通过“监督微调+GRPO强化学习”的标准化流程,即可快速训练出具备竞争力的意英翻译模型,大幅降低新语种适配的成本与复杂度。
相关阅读文章
DeepL Voice:一款提供即时、安全的AI语音翻译服务,支持多种语言
Pinch:涵盖了语音拨打电话、物体识别、邮件处理等多种AI翻译工具
上面是“Hibiki-Zero模型官网使用入口,30亿参数的同步语音到语音翻译模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_31036.html
Hibiki-Zero模型(官网) 打不开万能教程:
1、微信/QQ内打不开:
把链接复制到系统浏览器再访问,微信/QQ内置页常自动拦截第三方站。
2、浏览器报“违规”:
部分国产浏览器的误拦截,换用系统原生浏览器即可:iPhone→Safari,安卓→Edge、Alook、X、Via 等轻量浏览器,均不会误屏蔽。
3、网络加载慢或空白:
先切换 4G/5G 与 Wi-Fi 对比;可以尝试使用网络加速器,将网络切换至更稳定的运营商。另外,部分网站可能需要科学上网才能访问,如Google、Hugging Face等一些国外服务器的网站(不推荐)。
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

帝国cms如何过滤采集内容里的链接和广告
OmniParser V2:微软研究院研发的GUI理解模型,提升准确性与效率
Keras:新手可用它5分钟搭出第一个神经网络 











