TurboQuant是由Google Research提出的向量量化算法,专为大模型KV Cache极致压缩设计。它可将32-bit浮点KV Cache量化至3-bit,实现显存占用降低6倍、推理速度提升8倍,且全程保持精度零损失。
字节跳动开发的一款多功能人工智能工具,基于云雀模型(豆包大模型)构建。它不仅是一个AI聊天机器人,还具备多种功能,包括写作助手、英语学习助手、音乐生成、编程助理等。