
DiaMoE-TTS是清华大学与巨人网络联合研发的多方言语音合成框架,框架创新性采用国际音标统一输入体系,融合方言感知的混合专家(MoE)架构与低资源适配策略,实现低成本、低门槛的多方言语音合成。

Qwen3-VL Cookbooks是阿里巴巴为Qwen3-VL多模态大模型量身打造的官方实战指南集合,指南覆盖物体识别、文档解析、视频理解、3D定位等十余类核心能力,每一份Cookbook均配套详细代码示例、分步操作教程与场景化最佳实践。
MineContext是字节跳动推出的开源主动式上下文感知AI工具,创新性提出“数字生活方块挖掘”理念,帮助用户高效管理分散的知识与信息资产。

Get Jobs是一款开源自动化简历投递工具,专为求职者打造高效求职解决方案。工具支持Boss直聘、猎聘、拉勾、51job、智联招聘等主流招聘平台。

VoxCPM支持零样本声音克隆,仅需一段参考音频,即可精准复刻说话者的音色、口音、情感语调等细微特征,生成高度逼真的个性化语音。其推理效率同样表现卓越,在NVIDIA RTX 4090 GPU上实时因子(RTF)低至0.17,完美满足实时交互场景需求。

LucaVirus是阿里云LucaGroup潜心研发的全球首款专为病毒领域打造的核酸-蛋白质统一语言模型,依托254亿个核苷酸与氨基酸标记的海量数据完成训练,数据覆盖几乎所有已知病毒种类。

FLM-Audio是由北京智源人工智能研究院携手Spin Matrix、新加坡南洋理工大学联合研发的原生全双工音频对话大模型,全面支持中英双语交互,凭借突破性技术架构与训练范式,重新定义智能语音对话的自然流畅体验。

AgentCPM-Explore是由清华、人大、面壁智能与OpenBMB开源社区联合研发的轻量级开源智能体模型。该模型仅依托4B参数规模,却在多项长程任务评测基准中超越同尺寸乃至更大参数量的模型,展现出极高的能力密度;同时支持超100轮稳定交互,具备强大的深度探索能力。

TextBase是一款专为AI聊天机器人开发设计的轻量级Python框架,核心优势在于极简易用、高度可扩展,能帮助开发者快速搭建、迭代和优化聊天机器人,是从入门到生产级聊天机器人开发的优选工具。

LucidDreamer是一款一款无域限制的3D场景生成管道,深度借助现有大规模扩散生成模型的强大能力,实现跨领域、高保真的3D场景创作。

Audio2PhotoReal生成的虚拟人物不仅视觉质感逼真,更能细腻复刻对话中的各类微动作与表情——无论是指点、手腕抖动、耸肩等肢体姿态,还是微笑、嘲笑等面部神情,都能精准呈现,打破“音频-视觉”的生成壁垒。
StreamRAG是一款开源的视频搜索与流媒体代理工具,核心能力是让你在 ChatGPT 中与自有视频库“对话”并直接观看视频流。

MoneyPrinter是一款专为短视频创作变现设计的自动化工具,核心功能是输入视频主题即可自动生成YouTube Shorts短视频,全程无需专业视频编辑技能,从内容生成到平台上传全流程自动化,助力快速开启YouTube创作赚钱之路。

StreamMultiDiffusion凭借区域控图、实时交互、全景生成等核心优势,成为一款兼顾专业性与易用性的全能型图像生成编辑工具,为实时AI创作场景提供了高效、灵活的解决方案。

APISR是一款专为动漫内容打造的超分辨率处理项目,聚焦解决现实场景中低质量、低分辨率动漫图像与视频的画质退化问题。它支持2x、4x等多档位上采样因子权重,可精准提升画面清晰度与细节表现力,为动漫爱好者和创作者提供专业的画质增强方案。
