web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. 前端知识
  5. AI应用
  6. IT知识
  7. Chrome插件
  8. 地图大全
  9. 休息站

AI项目和框架

AgentCPM-Report:清华大学等联合研发的本地化深度调研智能体
AgentCPM-Report:清华大学等联合研发的本地化深度调研智能体

AgentCPM-Report是由清华大学自然语言处理实验室、中国人民大学、面壁智能与OpenBMB开源社区联合研发的本地化深度调研智能体,基于8B参数的MiniCPM4.1模型打造。

OpenBMB人民大学写作智能体清华大学面壁智能
HELM官网:斯坦福大学推出的语言模型整体评估体系
HELM官网:斯坦福大学推出的语言模型整体评估体系

HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块,每次评测需明确指定一个应用场景、一套模型适配提示,以及一项或多项评估指标。

AI模型评测大模型评测体系斯坦福大学
MMBench:一款由高校等联合研发多模态基准测试工具
MMBench:一款由高校等联合研发多模态基准测试工具

MMBench是一款多模态基准测试工具,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程,覆盖20项细粒度能力维度,数据集包含约3000道单项选择题,均源自互联网及权威基准数据集。

AI模型评测上海人工智能实验室南洋理工大学多模态AI模型大模型评测体系新加坡国立大学浙江大学香港中文大学
CMMLU:专注衡量语言模型的中文知识储备与推理能力的大模型中文评估基准
CMMLU:专注衡量语言模型的中文知识储备与推理能力的大模型中文评估基准

CMMLU是面向中文语境的综合性评估基准,专注衡量语言模型的中文知识储备与推理能力,覆盖67个从基础学科到高级专业的主题。其任务范畴横跨三类领域:需计算推理的自然科学、需知识沉淀的人文与社会科学、需生活常识的中国驾驶规则等场景。

AI模型评测中文评估基准
OpenCompass:上海AI实验室开源的大模型一站式开放评测体系
OpenCompass:上海AI实验室开源的大模型一站式开放评测体系

>OpenCompass是上海AI实验室正式推出的大模型全品类开放评测体系,以完整开源、可复现的评测框架为核心,实现大语言模型、多模态模型的一站式评测,且定期发布权威评测结果榜单。

AI模型评测上海AI实验室上海人工智能实验室大模型开放评测
AGI-Eval:高校联合打造的大模型通用能力评测社区与生态平台
AGI-Eval:高校联合打造的大模型通用能力评测社区与生态平台

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校及机构联合打造的大模型通用能力评测社区,以“评测助力,让AI成为人类更好的伙伴”为核心使命,致力于构建公正、可信、科学、全面的大模型评测生态。平台专为评估基础

AI模型评测DataWhale上海交通大学华东师范大学同济大学大模型评测社区
SuperCLUE官网:一个中文大模型的全维度综合性评测基准

SuperCLUE是聚焦中文大模型的全维度综合性评测基准,其以四大能力象限、12项基础能力为核心评测框架,融合多轮对话、客观题测试、主观题评估等多元评测方式,从语言理解与生成、知识应用、专业技能、环境适应与安全性四大维度展开全面评测。

AI模型评测中文通用大模型
FlagEval:智源研究院打造的大模型全维度科学评测体系与开放平台
FlagEval:智源研究院打造的大模型全维度科学评测体系与开放平台

平台多维度拆解大模型认知能力,覆盖对话、问答、情感分析等多元应用场景;配套超22个专业数据集、8万道评测题目,同时支持文本、图像、视频等多模态模型评测,兼容PyTorch、MindSpore等多AI框架及NVIDIA、昇腾等多硬件架构。

AI模型评测FlagEval大模型评测平台智源研究院
C-Eval官网:多学科多层次中文大语言模型权威评估套件
C-Eval官网:多学科多层次中文大语言模型权威评估套件

C-Eval是由上海交通大学、清华大学与爱丁堡大学研究团队于2023年5月联合推出的中文大语言模型专属评估套件,包含13948道标准化多项选择题,覆盖52个学科领域、划分四个难度等级。

AI模型评测上海交通大学基础模型评估清华大学爱丁堡大学
Open LLM Leaderboard:HuggingFace开源大模型权威评估排行榜
Open LLM Leaderboard:HuggingFace开源大模型权威评估排行榜

Open LLM Leaderboard是全球最大的大模型与数据集社区HuggingFace推出的开源大模型专业排行榜单,平台通过IFEval、BBH、MATH等多类权威基准测试,从指令遵循、复杂推理、数学解题、专业知识问答等核心维度对大模型进行全方位量化评估。

AI模型评测Huggingface开源大模型
MMLU测评官网:一种专注于评估大模型综合能力的基准测试工具
MMLU测评官网:一种专注于评估大模型综合能力的基准测试工具

MMLU(大规模多任务语言理解)是一种专注于评估大模型综合能力的基准测试工具。它通过涵盖多个学科领域的问答任务,来测量模型的世界知识深度、跨领域推理能力和学术水平。

AI模型评测多任务语言模型
MagicArena:字节跳动国内首个视觉生成大模型对战平台
MagicArena:字节跳动国内首个视觉生成大模型对战平台

MagicArena是字节跳动推出的国内首个视觉生成大模型对战平台,平台支持用户输入文字提示词,一键调用Midjourney、FLUX、可灵、海螺、即梦等国内外主流视觉生成大模型,同步生成图片或视频内容。

AI模型评测字节跳动框架模型对战平台视觉生成模型
百灵大模型:蚂蚁集团推出的官方Web交互平台(附模型官网入口)
百灵大模型:蚂蚁集团推出的官方Web交互平台(附模型官网入口)

百灵大模型是蚂蚁集团推出的官方Web交互平台,支持体验Ling-1T、Ring-1T等核心模型,兼具高速响应与复杂推理能力;平台原生搭载图片、音频识别等多模态功能,同时打通开源生态、提供OpenAI兼容API。

AI聊天助手Ling-1T大模型Web交互平台蚂蚁集团
Model1:DeepSeek FlashMLA代码库曝光的下一代旗舰模型雏形
Model1:DeepSeek FlashMLA代码库曝光的下一代旗舰模型雏形

Model1是DeepSeek在FlashMLA代码库中披露的神秘模型,该模型在技术架构上实现多重突破:回归512维标准架构、深度适配NVIDIA Blackwell架构,创新引入Token级稀疏MLA、VVPA等核心机制,在性能优化、长文本处理能力与硬件适配性上实现质的跃升。

DeepSeek模型
Chroma 1.0:FlashLabs推出的首款开源实时端到端语音对话模型

Chroma 1.0是FlashLabs推出的首款开源实时端到端语音对话模型,该模型创新采用语音理解与生成紧密耦合架构,搭配1:2文本-音频token调度策略,可达成亚秒级输出;仅需几秒参考音频,就能精准复刻说话人音色,speaker相似度较人类基线提升10.96%。

端到端大模型语音对话模型
扣子空间 – 免费全能AI办公智能体
Trae:新一代免费的AI编程工具