web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. AIGC工具
  5. 百度echarts
  6. 地图大全
  7. 前端知识
  8. 更多
    vuejs
    js入门
    php入门
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站
    AI应用

大模型评测体系

HELM官网:斯坦福大学推出的语言模型整体评估体系
HELM官网:斯坦福大学推出的语言模型整体评估体系

HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块,每次评测需明确指定一个应用场景、一套模型适配提示,以及一项或多项评估指标。

AI模型评测大模型评测体系斯坦福大学
MMBench:一款由高校等联合研发多模态基准测试工具
MMBench:一款由高校等联合研发多模态基准测试工具

MMBench是一款多模态基准测试工具,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程,覆盖20项细粒度能力维度,数据集包含约3000道单项选择题,均源自互联网及权威基准数据集。

AI模型评测上海人工智能实验室南洋理工大学多模态AI模型大模型评测体系新加坡国立大学浙江大学香港中文大学
Trae:新一代免费的AI编程工具