web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. 前端知识
  5. AI应用
  6. IT知识
  7. ComfyUI插件
  8. 地图大全
  9. 休息站

大模型评测体系

HELM官网:斯坦福大学推出的语言模型整体评估体系
HELM官网:斯坦福大学推出的语言模型整体评估体系

HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块,每次评测需明确指定一个应用场景、一套模型适配提示,以及一项或多项评估指标。

AI模型评测大模型评测体系斯坦福大学
豆包网页版支持AI聊天,AI图片生成,AI漫画生成,AI写作等
[推荐] 豆包网页版:支持AI聊天,AI图片生成,AI漫画生成,AI写作等

字节跳动开发的一款多功能人工智能工具,基于云雀模型(豆包大模型)构建。它不仅是一个AI聊天机器人,还具备多种功能,包括写作助手、英语学习助手、音乐生成、编程助理等。

AI写作平台AI图片生成AI漫画生成工具AI聊天助手
MMBench:一款由高校等联合研发多模态基准测试工具
MMBench:一款由高校等联合研发多模态基准测试工具

MMBench是一款多模态基准测试工具,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程,覆盖20项细粒度能力维度,数据集包含约3000道单项选择题,均源自互联网及权威基准数据集。

AI模型评测上海人工智能实验室南洋理工大学多模态AI模型大模型评测体系新加坡国立大学浙江大学香港中文大学
扣子空间 – 免费全能AI办公智能体
Trae:新一代免费的AI编程工具