大模型评测体系 - web建站教程

返回AI项目和框架

大模型评测体系

: HELM官网：斯坦福大学推出的语言模型整体评估体系; HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块，每次评测需明确指定一个应用场景、一套模型适配提示，以及一项或多项评估指标。; AI模型评测大模型评测体系斯坦福大学

: [推荐] 豆包网页版：支持AI聊天，AI图片生成，AI漫画生成，AI写作等; 字节跳动开发的一款多功能人工智能工具，基于云雀模型（豆包大模型）构建。它不仅是一个AI聊天机器人，还具备多种功能，包括写作助手、英语学习助手、音乐生成、编程助理等。; AI写作平台 AI图片生成 AI漫画生成工具 AI聊天助手

: MMBench：一款由高校等联合研发多模态基准测试工具; MMBench是一款多模态基准测试工具，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程，覆盖20项细粒度能力维度，数据集包含约3000道单项选择题，均源自互联网及权威基准数据集。; AI模型评测上海人工智能实验室南洋理工大学多模态AI模型大模型评测体系新加坡国立大学浙江大学香港中文大学

Trae：新一代免费的AI编程工具

即梦AI网页版

支持多图参考 · 生成高质量图像及视频！！

精选热门文章

: MindVLA-o1模型使用入口，理想汽车推出的下一代自动驾驶基础模型

: EdgeClaw AI智能体框架使用入口，面壁智能联合清华、OpenBMB等机构推出的开源AI智能体框架

: SoraX：一款依托Sora 2核心技术打造的AI视频生成平台

: OmniDetect官网使用入口，多引擎AI内容检测聚合平台

: OpenNof1：开源AI自主交易系统，兼容OpenAI、DeepSeek等