
AutoGPT是一款实验性开源应用程序,凭借对GPT-4语言模型能力的深度挖掘,在GitHub斩获超10万星标。该程序以GPT-4为核心驱动,通过串联大语言模型的思维链,赋予AI Agent自主完成任意预设目标的能力,助力用户快速创建、部署和管理可自动化执行复杂工作流的智能代理。

AnythingLLM是一款开源免费的多模态全栈AI客户端,支持文本、图像、音频等多类型输入,可将各类文档与内容转化为对话上下文,赋能不同语言模型(LLM)实现精准交互。

Cherry Studio是一款集多模型对话、知识库管理、AI绘画、翻译等功能于一体的开源全能AI客户端,支持Windows、macOS、Linux多系统部署。

Being-H0.5是卢宗青团队研发的通用机器人模型,该模型构建大规模跨形态操控数据集UniHand-2.0,设计统一动作空间,让模型习得通用操控语义,实现多类机器人的策略共享。

LightOnOCR-2-1B是LightOnAI推出的轻量级OCR模型,在学术论文、数学公式、复杂表格等复杂文档处理场景中表现卓越。该模型基于RLVR强化学习技术构建,可直接输出Markdown格式结构化文本,支持表格还原、公式识别与多栏布局处理。

PubMedQA是面向生物医学研究问题回答的专业数据集,该数据集包含1000个专家标注问答实例、61200个未标注实例及211300个人工生成问答对,为生物医学自然语言处理模型提供标准化测试基准,助力研发人员开发和评估模型,提升其对生物医学文献的理解与问答能力。

VibeVoice-ASR是微软推出的开源先进语音识别模型,专为长达60分钟的长音频处理打造。该模型可一次性完成整段音频转录,全程保留全局上下文信息,彻底规避传统分段处理导致的上下文断裂问题。

H2O EvalGPT是H2O.ai推出的开源LLM大模型评估工具,为用户提供一站式平台,用于全面洞察各类大模型在海量任务及基准测试中的性能表现。无论你是希望通过大模型自动化工作流程、优化业务任务,该工具都能提供主流开源高性能大模型的详细排行榜,助力精准筛选适配项目需求的最优模型,高效完成特定任务。

LLMEval3是目前国内外最权威的大语言模型(LLM)专业知识评测基准之一。它由复旦大学自然语言处理实验室推出,旨在填补通用模型评测中对学科深度和专业应用能力的空白。

LMArena是加州大学伯克利分校推出的AI模型评估平台,用户输入问题后,平台同步输出两个AI模型的匿名回答,用户投票选出更优答案,投票结果实时反馈至公共排行榜,直接决定模型排名。

AgentCPM-Report是由清华大学自然语言处理实验室、中国人民大学、面壁智能与OpenBMB开源社区联合研发的本地化深度调研智能体,基于8B参数的MiniCPM4.1模型打造。

HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块,每次评测需明确指定一个应用场景、一套模型适配提示,以及一项或多项评估指标。

MMBench是一款多模态基准测试工具,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程,覆盖20项细粒度能力维度,数据集包含约3000道单项选择题,均源自互联网及权威基准数据集。

CMMLU是面向中文语境的综合性评估基准,专注衡量语言模型的中文知识储备与推理能力,覆盖67个从基础学科到高级专业的主题。其任务范畴横跨三类领域:需计算推理的自然科学、需知识沉淀的人文与社会科学、需生活常识的中国驾驶规则等场景。

>OpenCompass是上海AI实验室正式推出的大模型全品类开放评测体系,以完整开源、可复现的评测框架为核心,实现大语言模型、多模态模型的一站式评测,且定期发布权威评测结果榜单。
