
ComfyUI-OpenClaw是一款以安全优先为核心设计的ComfyUI自定义节点包,可轻松实现LLM辅助创作、Webhook触发、计划任务等自动化能力,同时通过严格的安全策略守住权限边界,从根源规避通用自动化工具常见的安全风险。

ComfyUI-Yedp-Action-Director与常规静态图像加载器不同,Yedp Action Director基于Three.js技术,所有渲染操作均在客户端(用户浏览器内)完成,渲染结束后会自动将像素数据回传至ComfyUI,无缝衔接后续处理流程,彻底打破“3D预览-渲染-导入”的割裂感,大幅提升工作流的连贯性与整体效率。

SoulX-Singer是由SoulAI-Lab研发的高保真零样本歌声合成模型,仅需3–10秒参考音频,即可快速克隆任意人声,生成自然、富有情感表现力的演唱音频。

ComfyUI-SoulX-Podcast是面向ComfyUI打造的专用播客生成节点插件,将SoulX-Podcast长文本、多说话人、多方言播客合成能力封装为可视化工作流,支持通过简易脚本与参考音频快速克隆音色,一键产出高质量播客音频。

Comfy Spaces专为解决ComfyUI使用中的环境冲突、节点损坏影响全局等痛点而生,核心是为ComfyUI提供干净、独立的隔离式工作空间。每个项目均可拥有专属独立环境,即便某一工作空间内出现节点损坏、依赖冲突等问题,也不会影响主设置及其他项目,彻底杜绝“一个节点故障搞崩全局”的困扰,大幅提升ComfyUI使用效率与稳定性。

Xiaomi-Robotics-0模型是小米开源的首代机器人VLA(视觉-语言-动作)大模型,搭载47亿参数,创新采用MoT混合架构——以Qwen3-VL多模态模型为“大脑”,负责解析视觉与语言指令、理解场景意图;以Diffusion Transformer(DiT)为“小脑”,专注生成高频平滑动作块。

Ming-omni-tts核心依托团队自研技术,采用12.5Hz连续分词器,搭配逐块压缩技术,在坚守高音质输出的基础上,大幅提升推理效率,推理帧率可低至3.1Hz,有效降低延迟。同时,模型具备强劲的文本正则化能力,能够准确、自然地朗读复杂数学公式与化学方程式,完美适配专业内容播报、教育科普等对文本解析要求较高的场景。

Hibiki-Zero继承其前身Hibiki的多流RQ-Transformer架构,采用仅解码器设计,核心依托流式神经音频编解码器Mimi,以12.5Hz恒定帧率,对源音频、目标音频,以及用于内部推理的“内心独白”文本流进行联合建模。这种一体化设计赋予模型持续处理输入语音流的能力,可同步输出连续的翻译音频及带时间戳的对应文本,完美适配实时交互场景。

Seed 2.0是字节跳动Seed团队自研推出的新一代通用Agent大模型家族,由Pro/Lite/Mini三款通用模型与Code专用模型组成,全面升级多模态理解、长上下文处理与复杂任务执行能力,兼顾顶尖性能与普惠成本。

Ovis2.6-30B-A3B核心升级为MoE架构,实现300亿总参数与仅30亿激活参数的平衡,兼顾大模型能力与小模型推理成本;MoE架构提效降本、64K长上下文+高清图像处理、主动式图像思考、强化的OCR/文档/图表理解。

FireRed-Image-Edit核心优势是精准理解自然语言指令,实现高保真、视觉一致的全维度图像编辑,解决现有AI修图“改不准、易翻车、门槛高”的痛点;功能覆盖内容/风格/结构/文字四大维度,还支持虚拟试穿、老照片修复等特色玩法,适配日常修图、电商、创意创作等多场景。

Nanbeige4.1-3B以30亿小参数规模打破性能桎梏,通过多轮优化实现推理、对齐、智能体能力全方位提升;为小模型生态提供全能化发展新范式,保留轻量化部署优势的同时,具备比肩大模型的核心性能。

Ring-2.5-1T是蚂蚁集团推出的全球首个万亿参数混合线性注意力开源思维模型,核心实现“想得深、推得快、做得久”;模型开源且轻量化,重新定义万亿参数模型的性能边界,为通用人工智能体研发奠定关键基础。

Seedream 5.0 Lite核心优势是多模态统一架构+实时联网检索,视觉推理精准、内容时效性强,支持风格迁移、高阶编辑等专业功能;可通过即梦AI、火山方舟、豆包App(内测)使用,覆盖办公、营销、影视、艺术、社交等全场景图像创作需求。
