
AgentCPM-Report是由清华大学自然语言处理实验室、中国人民大学、面壁智能与OpenBMB开源社区联合研发的本地化深度调研智能体,基于8B参数的MiniCPM4.1模型打造。

HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块,每次评测需明确指定一个应用场景、一套模型适配提示,以及一项或多项评估指标。

MMBench是一款多模态基准测试工具,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程,覆盖20项细粒度能力维度,数据集包含约3000道单项选择题,均源自互联网及权威基准数据集。

CMMLU是面向中文语境的综合性评估基准,专注衡量语言模型的中文知识储备与推理能力,覆盖67个从基础学科到高级专业的主题。其任务范畴横跨三类领域:需计算推理的自然科学、需知识沉淀的人文与社会科学、需生活常识的中国驾驶规则等场景。

>OpenCompass是上海AI实验室正式推出的大模型全品类开放评测体系,以完整开源、可复现的评测框架为核心,实现大语言模型、多模态模型的一站式评测,且定期发布权威评测结果榜单。

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校及机构联合打造的大模型通用能力评测社区,以“评测助力,让AI成为人类更好的伙伴”为核心使命,致力于构建公正、可信、科学、全面的大模型评测生态。平台专为评估基础
SuperCLUE是聚焦中文大模型的全维度综合性评测基准,其以四大能力象限、12项基础能力为核心评测框架,融合多轮对话、客观题测试、主观题评估等多元评测方式,从语言理解与生成、知识应用、专业技能、环境适应与安全性四大维度展开全面评测。

平台多维度拆解大模型认知能力,覆盖对话、问答、情感分析等多元应用场景;配套超22个专业数据集、8万道评测题目,同时支持文本、图像、视频等多模态模型评测,兼容PyTorch、MindSpore等多AI框架及NVIDIA、昇腾等多硬件架构。

C-Eval是由上海交通大学、清华大学与爱丁堡大学研究团队于2023年5月联合推出的中文大语言模型专属评估套件,包含13948道标准化多项选择题,覆盖52个学科领域、划分四个难度等级。

Open LLM Leaderboard是全球最大的大模型与数据集社区HuggingFace推出的开源大模型专业排行榜单,平台通过IFEval、BBH、MATH等多类权威基准测试,从指令遵循、复杂推理、数学解题、专业知识问答等核心维度对大模型进行全方位量化评估。

MMLU(大规模多任务语言理解)是一种专注于评估大模型综合能力的基准测试工具。它通过涵盖多个学科领域的问答任务,来测量模型的世界知识深度、跨领域推理能力和学术水平。

MagicArena是字节跳动推出的国内首个视觉生成大模型对战平台,平台支持用户输入文字提示词,一键调用Midjourney、FLUX、可灵、海螺、即梦等国内外主流视觉生成大模型,同步生成图片或视频内容。

百灵大模型是蚂蚁集团推出的官方Web交互平台,支持体验Ling-1T、Ring-1T等核心模型,兼具高速响应与复杂推理能力;平台原生搭载图片、音频识别等多模态功能,同时打通开源生态、提供OpenAI兼容API。

Model1是DeepSeek在FlashMLA代码库中披露的神秘模型,该模型在技术架构上实现多重突破:回归512维标准架构、深度适配NVIDIA Blackwell架构,创新引入Token级稀疏MLA、VVPA等核心机制,在性能优化、长文本处理能力与硬件适配性上实现质的跃升。
Chroma 1.0是FlashLabs推出的首款开源实时端到端语音对话模型,该模型创新采用语音理解与生成紧密耦合架构,搭配1:2文本-音频token调度策略,可达成亚秒级输出;仅需几秒参考音频,就能精准复刻说话人音色,speaker相似度较人类基线提升10.96%。