KaniTTS2是AI初创公司NineNineSix正式开源的新一代文本转语音(TTS)模型,专为低延迟、高自然度的实时对话场景量身打造。该模型支持语音克隆、多语言输出,同时提供完整的从零预训练代码框架,助力开发者基于自有数据快速训练定制化TTS模型。

KaniTTS2核心定位:
1、低推理延迟:RTX 5090实测实时因子(RTF)约0.2,即生成1秒语音仅需0.2秒,满足实时交互需求;
2、低显存占用:仅需3GB GPU显存,可流畅运行于消费级显卡,降低部署门槛;
3、高采样质量:采用22kHz采样率,在音质表现与运行效率之间实现最优平衡。
KaniTTS2语言与模型核心能力:
1、支持语言:目前已覆盖英语(含本地口音变体)、西班牙语、吉尔吉斯语;
2、语音克隆:支持少量样本(few-shot)驱动的说话人音色复现,还原度高;
3、模型规模:4亿参数,精准平衡语音生成效果与运行效率;
4、训练数据:基于约1万小时高质量语音完成预训练,保障基础音质;
5、训练效率:8张H100显卡并行训练,仅需6小时即可完成全量训练,大幅缩短研发周期。
KaniTTS2关键技术特性:
1、LFM2混合架构:融合LLM与FSQ(因子化标量量化)音频编解码器,兼顾语音质量与生成速度;
2、帧级位置编码:同一音频帧内4个token共享位置ID,有效减少RoPE距离衰减,显著提升长语音连贯性;
3、FlashAttention-2优化:训练速度较标准attention提升10–20倍,提升训练效率;
4、FSDP多GPU支持:通过全分片数据并行技术,实现高效分布式训练,适配大规模部署;
5、模块化OOP设计:代码结构清晰、逻辑严谨,便于开发者扩展与二次开发;
6、YAML配置驱动:所有超参数、文件路径、模型结构均通过YAML文件统一管理,无需修改核心代码,降低使用门槛。
KaniTTS2核心应用场景:
1、AI智能体语音输出:如OpenClaw、TinyClaw等智能体的语音前端适配;
2、多语言客服机器人:依托多语言支持能力,实现跨语言智能客服交互;
3、个性化语音助手:结合语音克隆功能,打造专属音色的智能助手;
4、教育/无障碍工具:用于实时文本朗读、外语发音辅助等场景;
5、游戏NPC对话生成:低延迟特性适配游戏实时交互,提升NPC对话沉浸感。
KaniTTS2相关网址:
1、GitHub:https://github.com/nineninesix-ai/kani-tts-2
2、模型:https://huggingface.co/nineninesix/kani-tts-2-pt
3、Demo:https://huggingface.co/spaces/nineninesix/kani-tts-2-pt
相关阅读文章
ComfyUI-Qwen-TTS插件安装入口,一站式文本转语音、声音克隆、声音风格设计与多角色对话合成
Qwen3-TTS-Flash:开源语音合成模型,49种音色+10种语言+9种方言
Indic Parler:多语言TTS神器,21种语言、69种语音,一键生成自然流畅语音!
上面是“KaniTTS2模型使用入口,NineNineSix正式开源的新一代TTS模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_31071.html
KaniTTS2模型(官网) 打不开万能教程:
1、微信/QQ内打不开:
把链接复制到系统浏览器再访问,微信/QQ内置页常自动拦截第三方站。
2、浏览器报“违规”:
部分国产浏览器的误拦截,换用系统原生浏览器即可:iPhone→Safari,安卓→Edge、Alook、X、Via 等轻量浏览器,均不会误屏蔽。
3、网络加载慢或空白:
先切换 4G/5G 与 Wi-Fi 对比;可以尝试使用网络加速器,将网络切换至更稳定的运营商。另外,部分网站可能需要科学上网才能访问,如Google、Hugging Face等一些国外服务器的网站(不推荐)。
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

利用JS把数组里面的数据自动生成table表格(5个一行)
网站上友情链接的交换数量是越多越好吗? 












