
AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校及机构联合打造的大模型通用能力评测社区,以“评测助力,让AI成为人类更好的伙伴”为核心使命,致力于构建公正、可信、科学、全面的大模型评测生态。平台专为评估基础
SuperCLUE是聚焦中文大模型的全维度综合性评测基准,其以四大能力象限、12项基础能力为核心评测框架,融合多轮对话、客观题测试、主观题评估等多元评测方式,从语言理解与生成、知识应用、专业技能、环境适应与安全性四大维度展开全面评测。

平台多维度拆解大模型认知能力,覆盖对话、问答、情感分析等多元应用场景;配套超22个专业数据集、8万道评测题目,同时支持文本、图像、视频等多模态模型评测,兼容PyTorch、MindSpore等多AI框架及NVIDIA、昇腾等多硬件架构。

C-Eval是由上海交通大学、清华大学与爱丁堡大学研究团队于2023年5月联合推出的中文大语言模型专属评估套件,包含13948道标准化多项选择题,覆盖52个学科领域、划分四个难度等级。

Open LLM Leaderboard是全球最大的大模型与数据集社区HuggingFace推出的开源大模型专业排行榜单,平台通过IFEval、BBH、MATH等多类权威基准测试,从指令遵循、复杂推理、数学解题、专业知识问答等核心维度对大模型进行全方位量化评估。

MMLU(大规模多任务语言理解)是一种专注于评估大模型综合能力的基准测试工具。它通过涵盖多个学科领域的问答任务,来测量模型的世界知识深度、跨领域推理能力和学术水平。

MagicArena是字节跳动推出的国内首个视觉生成大模型对战平台,平台支持用户输入文字提示词,一键调用Midjourney、FLUX、可灵、海螺、即梦等国内外主流视觉生成大模型,同步生成图片或视频内容。

百灵大模型是蚂蚁集团推出的官方Web交互平台,支持体验Ling-1T、Ring-1T等核心模型,兼具高速响应与复杂推理能力;平台原生搭载图片、音频识别等多模态功能,同时打通开源生态、提供OpenAI兼容API。

Model1是DeepSeek在FlashMLA代码库中披露的神秘模型,该模型在技术架构上实现多重突破:回归512维标准架构、深度适配NVIDIA Blackwell架构,创新引入Token级稀疏MLA、VVPA等核心机制,在性能优化、长文本处理能力与硬件适配性上实现质的跃升。
Chroma 1.0是FlashLabs推出的首款开源实时端到端语音对话模型,该模型创新采用语音理解与生成紧密耦合架构,搭配1:2文本-音频token调度策略,可达成亚秒级输出;仅需几秒参考音频,就能精准复刻说话人音色,speaker相似度较人类基线提升10.96%。

json-render是Vercel推出的开源工具,其核心机制涵盖Catalog定义、流式渲染、反向生成源码三大能力,支持实时反馈与高效开发流程,推动前端开发模式从编写页面代码,转向构建组件库与规则体系,是AI与前端开发融合的突破性创新。

EmbodiChain是跨维智能打造的开源具身智能学习平台,平台可基于真实世界先验信息,自动构建符合物理规律的3D场景与任务,并融合在线数据流、闭环自我修复机制,高效产出高质量训练数据。

Step3-VL-10B是阶跃星辰推出的轻量级开源多模态模型,仅搭载10B参数,却能在视觉感知、逻辑推理、数学竞赛及通用对话等核心任务中,达到200B大参数模型的性能水准。

NovaSR是一款极致轻量化的开源音频超分辨率模型,仅52KB大小即可实现核心音质升级——将16kHz低采样率音频精准提升至48kHz高采样率音频。

VerseCrafter是复旦大学联合腾讯PCG ARC Lab等机构研发的动态真实视频世界模型,该模型基于大规模真实世界数据集VerseControl4D完成训练,可高效处理复杂动态场景,生成的视频内容具备极强的时空一致性。
