ComfyUI-SoulX-Podcast是面向ComfyUI打造的专用播客生成节点插件,将SoulX-Podcast长文本、多说话人、多方言播客合成能力封装为可视化工作流,支持通过简易脚本与参考音频快速克隆音色,一键产出高质量播客音频。

ComfyUI-SoulX-Podcast核心特性:
1、双人对话播客:支持S1/S2双说话人交替对话,自然模拟真实播客交互
2、多方言合成:支持普通话、四川话、河南话、粤语等(需加载对应方言模型)
3、脚本化编排:通过`[S1]`/`[S2]`标记快速定义对话内容
4、一键音色克隆:使用5–15秒参考音频(如Suno片段)即可提取并复用音色
5、超长内容生成:支持数分钟以上连贯长文本播客合成
6、全节点化工作流:从模型加载、脚本输入到音频输出,全程在ComfyUI内完成
ComfyUI-SoulX-Podcast常见问题:
Q1:模型加载失败?
– 检查模型路径是否为 `ComfyUI/models/TTS/[模型名]/`
– 确保 `.pt`/`.onnx`/`.json` 等全部文件完整
Q2:音色不稳定?
– 使用 10 秒以上、无噪音、无背景音乐、无多人混声的纯净参考音频
Q3:生成速度慢?
– 可启用 vllm 引擎(需额外安装)
– 或适当降低 `max_tokens` 数值
Q4:脚本格式报错?
– 必须使用 `[S1]`、`[S2]` 标记,方括号不可省略
ComfyUI-SoulX-Podcast安装与要求:
Python 依赖:
确保您的 ComfyUI 环境已安装以下关键依赖:
s3tokenizer diffusers torch (需要 CUDA 支持) transformers onnxruntime (或 onnxruntime-gpu) einops librosa scipy
⚠️ 重要注意事项:本项目需要 transformers==4.57.1,请谨慎安装。其他版本的 transformers 可能会导致兼容性问题。
模型准备:
模型文件需要放置在 ComfyUI 的标准模型目录下:
ComfyUI/models/TTS/[模型名称]/
目录结构示例:
ComfyUI/
└── models/
└── TTS/
└── SoulX-Podcast-1.7B/
├── soulxpodcast_config.json
├── flow.pt
├── hift.pt
├── campplus.onnx
└── [LLM模型文件...]
模型类型说明:
标准模型(如 SoulX-Podcast-1.7B):适用于标准普通话播客生成
方言模型(如 SoulX-Podcast-1.7B-dialect):支持多种中文方言生成,如河南话、四川话、粤语等
重要提示:如需使用方言功能,请确保加载 SoulX-Podcast-1.7B-dialect 模型。在 SoulX Podcast Loader 节点的 model_name 参数中选择对应的方言模型。
ComfyUI-SoulX-Podcast核心组件:
1、LLM:Qwen3-1.7B,负责自然对话生成
2、声学模型:Flow 扩散模型,支持长上下文建模
3、声码器:HiFT,实现高保真波形合成
4、说话人嵌入:CampPlus ONNX,从参考音频提取音色特征
ComfyUI-SoulX-Singer官网使用入口,高保真零样本歌声合成模型
Comfy Spaces官网首页入口,专为解决ComfyUI使用中的环境冲突、节点损坏影响全局等痛点而生
OpenClaw汉化发行版GitHub项目入口,附Windows版和Linux/Ubuntu部署教程
MagicEdit:字节跳动智能视频编辑工具,高保真精细化视频创作利器
上面是“ComfyUI-SoulX-Podcast官网使用入口,支持通过简易脚本与参考音频快速克隆音色”的全面内容,想了解更多关于 comfyUI工作流 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_31052.html
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

问答:网站在百度上搜不到了是什么原因 










