ComfyUI-SoulX-Podcast官网使用入口，支持通过简易脚本与参考音频快速克隆音色

ComfyUI-SoulX-Podcast是面向ComfyUI打造的专用播客生成节点插件，将SoulX-Podcast长文本、多说话人、多方言播客合成能力封装为可视化工作流，支持通过简易脚本与参考音频快速克隆音色，一键产出高质量播客音频。

ComfyUI-SoulX-Podcast核心特性：

1、双人对话播客：支持S1/S2双说话人交替对话，自然模拟真实播客交互

2、多方言合成：支持普通话、四川话、河南话、粤语等（需加载对应方言模型）

3、脚本化编排：通过`[S1]`/`[S2]`标记快速定义对话内容

4、一键音色克隆：使用5–15秒参考音频（如Suno片段）即可提取并复用音色

5、超长内容生成：支持数分钟以上连贯长文本播客合成

6、全节点化工作流：从模型加载、脚本输入到音频输出，全程在ComfyUI内完成

ComfyUI-SoulX-Podcast常见问题：

Q1：模型加载失败？

– 检查模型路径是否为 `ComfyUI/models/TTS/[模型名]/`

– 确保 `.pt`/`.onnx`/`.json` 等全部文件完整

Q2：音色不稳定？

– 使用 10 秒以上、无噪音、无背景音乐、无多人混声的纯净参考音频

Q3：生成速度慢？

– 可启用 vllm 引擎（需额外安装）

– 或适当降低 `max_tokens` 数值

Q4：脚本格式报错？

– 必须使用 `[S1]`、`[S2]` 标记，方括号不可省略

ComfyUI-SoulX-Podcast安装与要求：

Python 依赖：

确保您的 ComfyUI 环境已安装以下关键依赖：

s3tokenizer
diffusers
torch (需要 CUDA 支持)
transformers
onnxruntime (或 onnxruntime-gpu)
einops
librosa
scipy

⚠️ 重要注意事项：本项目需要 transformers==4.57.1，请谨慎安装。其他版本的 transformers 可能会导致兼容性问题。

模型准备：

模型文件需要放置在 ComfyUI 的标准模型目录下：

ComfyUI/models/TTS/[模型名称]/

目录结构示例：

ComfyUI/
  └── models/
      └── TTS/
          └── SoulX-Podcast-1.7B/
              ├── soulxpodcast_config.json
              ├── flow.pt
              ├── hift.pt
              ├── campplus.onnx
              └── [LLM模型文件...]

模型类型说明：

标准模型（如 SoulX-Podcast-1.7B）：适用于标准普通话播客生成

方言模型（如 SoulX-Podcast-1.7B-dialect）：支持多种中文方言生成，如河南话、四川话、粤语等

重要提示：如需使用方言功能，请确保加载 SoulX-Podcast-1.7B-dialect 模型。在 SoulX Podcast Loader 节点的 model_name 参数中选择对应的方言模型。