
Hibiki-Zero继承其前身Hibiki的多流RQ-Transformer架构,采用仅解码器设计,核心依托流式神经音频编解码器Mimi,以12.5Hz恒定帧率,对源音频、目标音频,以及用于内部推理的“内心独白”文本流进行联合建模。这种一体化设计赋予模型持续处理输入语音流的能力,可同步输出连续的翻译音频及带时间戳的对应文本,完美适配实时交互场景。

DeepL Voice是一款专注于即时、安全、高质量的语音翻译产品,核心使命是帮助全球跨语言团队打破沟通壁垒,实现无缝协作。依托先进人工智能技术,产品提供低延迟、高性能的语音翻译服务,支持多语言互译,可深度集成至Microsoft Teams等主流办公平台。
Pinch是一款集成了多种功能的AI翻译工具,不仅支持实时翻译,还涵盖了语音拨打电话、物体识别、邮件处理等多种应用场景,适合需要多语言支持和多功能助手的用户。
