HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块,每次评测需明确指定一个应用场景、一套模型适配提示,以及一项或多项评估指标。
MMBench是一款多模态基准测试工具,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程,覆盖20项细粒度能力维度,数据集包含约3000道单项选择题,均源自互联网及权威基准数据集。
CMS网站 mysql语法 调用 php语法 SEO优化 AI开源项目 DeepSeek 织梦 栏目 dedecms建站