
vLLM是加州大学伯克利分校 Sky Computing Lab 开源的高性能大语言模型(LLM)推理与部署框架,核心目标是为用户提供低延迟、高吞吐量、低成本的大模型服务。

SGLang是一款面向大语言模型与多模态模型的开源高性能推理框架,该框架兼容Llama、Qwen、DeepSeek等主流模型及NVIDIA、AMD GPU、CPU、TPU等多类硬件平台,依托先进的推理优化技术与活跃社区支持,助力大模型高效落地于各类实际应用场景。

xLLM可广泛适配大语言模型、多模态模型及生成式推荐等多类场景,能够提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片生态上的规模化应用。
