大模型评测基准 - web建站教程

返回AI项目和框架

大模型评测基准

: CL-bench：腾讯混元与复旦大学联合推出的Context学习能力评测基准; CL-bench是一个专注衡量大语言模型从全新上下文信息中实时学习、应用知识的核心能力。该基准包含500个专家精心构建的复杂场景、1899个任务，全面覆盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四大类别。; 复旦大学大模型评测基准机器学习模型腾讯AI 腾讯混元AI

: [推荐] 豆包网页版：支持AI聊天，AI图片生成，AI漫画生成，AI写作等; 字节跳动开发的一款多功能人工智能工具，基于云雀模型（豆包大模型）构建。它不仅是一个AI聊天机器人，还具备多种功能，包括写作助手、英语学习助手、音乐生成、编程助理等。; AI写作平台 AI图片生成 AI漫画生成工具 AI聊天助手

: LLMEval3：复旦大学NLP实验室推出的第三代中文大模型专业知识评测基准; LLMEval3是目前国内外最权威的大语言模型（LLM）‍专业知识评测基准之一。它由复旦大学自然语言处理实验室推出，旨在填补通用模型评测中对学科深度和专业应用能力的空白。; AI模型评测 NLP实验室复旦大学大模型评测基准

Trae：新一代免费的AI编程工具

即梦AI网页版

支持多图参考 · 生成高质量图像及视频！！

精选热门文章

: LongCat-Flash-Thinking-2601：美团LongCat团队推出高效混合专家大模型

: LiveSketch：文本驱动静态素描动画生成工具，让涂鸦轻松 “活” 起来

: OpenMAIC官网使用入口，清华THU MAIC研发的开源AI互动教育平台

讯飞星火认知大模型：支持文本、语音、图像等多种信息的处理和交互

Doubao-Seed-Code：一款火山引擎开发的豆包编程模型，支持端到端完成编码、调试、修复全流程任务