Meeseeks是由美团M17团队推出的一个专注于评测大模型指令遵循(Instruction-Following)能力的基准测试。它旨在评估模型是否能够严格按照用户指令的要求生成回答,而不评估回答内容本身的知识正确性。

Meeseeks官网首页入口:
Meeseeks支持中文和英文,已在魔搭社区、GitHub、Huggingface上线。
1、魔搭社区:https://www.modelscope.cn/datasets/ADoubLEN/Meeseeks
2、GitHub:https://github.com/ADoublLEN/Meeseeks
3、Huggingface:https://huggingface.co/datasets/meituan/Meeseeks
Meeseeks功能特点:
1、精细入微的三级评测框架:
一级能力:任务核心意图与结构的把握。评估模型是否正确理解了用户的核心任务意图、回答的整体结构是否满足指令,以及回答中的每一个独立单元是否都符合指令细节。
二级能力:具体约束类型的实现。关注模型对各类具体约束的执行情况,如内容约束(主题、文体、语言、字数等)和格式约束(模版合规、单元数量等)。
三级能力:细粒度规则的遵循。关注那些极易被模型忽略的细节规则,如押韵、关键词规避、禁止重复、符号使用、特定写作手法等。
2、革命性的“多轮纠错”模式:
如果模型的第一轮回答未能完全满足所有指令,评测框架会自动生成明确的反馈,指出具体哪个指令项未被满足,并要求模型根据该反馈修正答案。这种模式首次将模型的“自我纠错”能力纳入指令遵循的评测范畴。
3、评测结果:
基于 Meeseeks 基准的评测结果显示,推理模型 o3-mini(high)凭借绝对优势强势登顶,与另一版本 o3-mini(medium)包揽冠亚军;Claude 3.7 Sonnet 的“思考版”则稳居第三。
4、核心评测洞察:
所有模型在接收到反馈后,其指令遵循准确率均有显著提升,展现出强大的自我纠错潜力。
模型的第一轮表现与其最终表现并非完全相关,部分模型存在第一轮劣势但在第三轮表现出色的情况。
相关阅读文章
VoxCPM:0.5B轻量语音生成模型,重塑高保真实时语音合成体验
LongCat-Flash-Thinking:美团 5600 亿参数 MoE 推理模型
LucaVirus:阿里云重磅发布 核酸-蛋白质统一语言模型
FLM-Audio:北京智源等联合开发的原生全双工音频对话大模型
Spark Chemistry-X1-13B:科大讯飞开源的化学专业大语言模型
上面是“Meeseeks模型:已在魔搭社区、GitHub、Huggingface上线(附链接)”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_22152.html
workflows工作流
一棵树从鸟笼里长出来的梦幻般场景
一只在星系中漂浮宇宙生物ComfyUI工作流
一条闪闪发光的金鱼ComfyUI工作流
一条色彩斑斓的超现实小孔雀鱼ComfyUI工作流
一只可爱的雪豹在雪地里散步ComfyUI工作流
图生图局部重绘ComfyUI工作流
树上挂着一只表情可爱的香蕉ComfyUI工作流二
一幅生动而古怪的时尚鸭子插图ComfyUI工作流
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

纯css3绘制的小鸟
日历设置每个月颜色都不一样
3d空间行走效果
利用css3做一个动态loading效果
SVG路径动画效果
HTML5 Canvas 刻度尺
css3+js菜单点击动态效果
利用js做一个炫酷音乐背景效果





