Meeseeks模型：已在魔搭社区、GitHub、Huggingface上线（附链接）-IT知识-web建站教程

Meeseeks是由美团M17团队推出的一个专注于评测大模型指令遵循（Instruction-Following）能力的基准测试。它旨在评估模型是否能够严格按照用户指令的要求生成回答，而不评估回答内容本身的知识正确性。

Meeseeks模型：已在魔搭社区、GitHub、Huggingface上线

Meeseeks支持中文和英文，已在魔搭社区、GitHub、Huggingface上线。

1、魔搭社区：https://www.modelscope.cn/datasets/ADoubLEN/Meeseeks

2、GitHub：https://github.com/ADoublLEN/Meeseeks

3、Huggingface：https://huggingface.co/datasets/meituan/Meeseeks

1、精细入微的三级评测框架：

一级能力：任务核心意图与结构的把握。评估模型是否正确理解了用户的核心任务意图、回答的整体结构是否满足指令，以及回答中的每一个独立单元是否都符合指令细节。

二级能力：具体约束类型的实现。关注模型对各类具体约束的执行情况，如内容约束（主题、文体、语言、字数等）和格式约束（模版合规、单元数量等）。

三级能力：细粒度规则的遵循。关注那些极易被模型忽略的细节规则，如押韵、关键词规避、禁止重复、符号使用、特定写作手法等。

2、革命性的“多轮纠错”模式：

如果模型的第一轮回答未能完全满足所有指令，评测框架会自动生成明确的反馈，指出具体哪个指令项未被满足，并要求模型根据该反馈修正答案。这种模式首次将模型的“自我纠错”能力纳入指令遵循的评测范畴。

3、评测结果：

基于 Meeseeks 基准的评测结果显示，推理模型 o3-mini（high）凭借绝对优势强势登顶，与另一版本 o3-mini（medium）包揽冠亚军；Claude 3.7 Sonnet 的“思考版”则稳居第三。

4、核心评测洞察：

所有模型在接收到反馈后，其指令遵循准确率均有显著提升，展现出强大的自我纠错潜力。

模型的第一轮表现与其最终表现并非完全相关，部分模型存在第一轮劣势但在第三轮表现出色的情况。

Meeseeks模型：已在魔搭社区、GitHub、Huggingface上线（附链接）