web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. AIGC工具
  5. 百度echarts
  6. 地图大全
  7. 前端知识
  8. 更多
    vuejs
    js入门
    php入门
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站
    AI应用

AI项目和框架

Omnilingual ASR:Meta AI推出的千亿级语言自动语音识别系统
Omnilingual ASR:Meta AI推出的千亿级语言自动语音识别系统

Omnilingual ASR采用社区驱动的扩展框架,用户仅需提供少量语音-文本样本,即可快速将系统适配至新语言;同时 Meta 开源了Omnilingual ASR Corpus数据集与全新自监督式大规模多语言语音表示模型Omnilingual wav2vec 2.0,为全球语音技术研发提供核心支撑,助力推动语言平等与跨文化交流。

Meta AI语音识别系统
DeepEyesV2:小红书团队研发推出的多模态智能体模型
DeepEyesV2:小红书团队研发推出的多模态智能体模型

DeepEyesV2模型训练分为两个核心阶段:第一阶段通过监督微调,帮助模型建立工具使用的基础认知;第二阶段借助强化学习,大幅提升工具调用效率与场景泛化能力。

小红书开源智能体模型
LazyCraft:基于开源框架LazyLLM构建的AI Agent应用开发与管理平台
LazyCraft:基于开源框架LazyLLM构建的AI Agent应用开发与管理平台

LazyCraft是商汤基于开源框架LazyLLM打造的一站式AI Agent应用开发与管理平台,平台提供从应用创建、调试、发布到监控的全流程闭环能力,支持低代码拖拽式开发与组件化应用编排。

AI AgentAI模型评测LazyLLM
讯飞星火X1.5:科大讯飞推出的基于全国产算力平台的深度推理大模型
讯飞星火X1.5:科大讯飞推出的基于全国产算力平台的深度推理大模型

讯飞星火X1.5是科大讯飞推出的基于全国产算力平台的深度推理大模型,该模型在语言理解、文本生成、知识问答、逻辑推理、数学运算、代码开发等核心领域全面对标国际主流大模型,其中数学能力保持国际领先水平。

AI星火大模型推理大模型科大讯飞
UNO-Bench:美团LongCat团队研发全模态大模型的标准化评测基准
UNO-Bench:美团LongCat团队研发全模态大模型的标准化评测基准

UNO-Bench是美团LongCat团队研发的全模态大模型专业评测基准。针对现有评测体系在多模态能力评估上的局限性,该基准依托高质量、多样化的数据集构建,可精准衡量模型的单模态性能与全模态融合能力。

AI模型评测全模态大模型美团LongCat
Kosmos:FutureHouse自动化科研的新一代AI科学家

Kosmos是由FutureHouse研发的新一代AI科学家,该系统创新性采用结构化世界模型,具备海量信息高效整合与大规模任务并行处理能力,单次运行可解析1500篇学术论文、执行42000行分析代码,数据处理规模远超同类智能体系统。

AI科学家FutureHouse
Kimi-k2 Thinking:月之暗面推出的新一代通用智能体模型
Kimi-k2 Thinking:月之暗面推出的新一代通用智能体模型

Kimi-k2 Thinking是月之暗面推出的新一代通用智能体模型,具备领先的Agentic自主能力与深度推理能力。该模型可实现多轮自主思考与工具调用,无需人工干预即可完成复杂任务的规划与执行,尤其适用于需要分步拆解、逻辑推演的高难度场景。

Kimi人工智能模型月之暗面
Open-o3 Video:北京大学与字节跳动联合研发的开源视频推理模型
Open-o3 Video:北京大学与字节跳动联合研发的开源视频推理模型

Open-o3 Video是北京大学与字节跳动联合研发的开源视频推理模型,核心突破在于通过整合关键时间戳、边界框等显式时空证据,实现对视频内容的精准推理。

北京大学字节跳动视频推理模型
OmniVinci:NVIDIA推出专门处理视觉/听觉/语言的全模态大语言模型
OmniVinci:NVIDIA推出专门处理视觉/听觉/语言的全模态大语言模型

OmniVinci是NVIDIA推出的新一代全模态大语言模型,专注于视觉、听觉、语言与推理的跨模态协同任务。该模型依托独创的`OmniAlignNet`跨模态语义对齐技术、`Temporal Embedding Grouping`时序同步机制与`Constrained Rotary Time Embedding`时间感知优化方案

nvidia全模态大语言模型
AI Research Foundations:DeepMind与UCL联合推出的免费在线课程
AI Research Foundations:DeepMind与UCL联合推出的免费在线课程

AI Research Foundations是Google DeepMind与伦敦大学学院联合打造的免费在线课程,聚焦Transformer模型的核心原理与实践应用,旨在帮助学习者夯实AI研究基础,掌握现代语言模型的构建、训练与微调全流程技能。

AI研究基础课程Google DeepMind伦敦大学学院在线课程谷歌AI
Ouro:字节跳动Seed团队联合多家机构研发的循环语言模型
Ouro:字节跳动Seed团队联合多家机构研发的循环语言模型

Ouro是字节跳动Seed团队联合多家机构研发的循环语言模型,其名称源自象征循环与自迭代的“衔尾蛇”。该模型突破传统语言模型“预训练+微调”的能力构建范式,通过在潜在空间的迭代计算,将推理能力直接融入预训练阶段。

Seed团队字节跳动框架循环语言模型
SAIL-Embedding:SAIL团队和MMLab联合开发的全模态嵌入基础模型
SAIL-Embedding:SAIL团队和MMLab联合开发的全模态嵌入基础模型

SAIL-Embedding是由字节跳动抖音SAIL团队与香港中文大学MMLab联合研发的全模态嵌入基础模型,该模型支持文本、视觉、音频等任意模态输入,可生成统一且高信息量的特征表示,赋能多模态检索、分类、推荐等核心任务。

字节跳动抖音SAIL团队智能基础模型
FG-CLIP 2:360推出的新一代开源双语细粒度视觉语言对齐模型
FG-CLIP 2:360推出的新一代开源双语细粒度视觉语言对齐模型

FG-CLIP 2是360推出的新一代开源双语细粒度视觉语言对齐模型,模型凭借创新的层次化对齐架构与动态注意力机制,在29项权威基准测试中超越Google SigLIP 2、Meta MetaCLIP 2等主流模型,跻身全球顶尖视觉语言模型行列。

360开源AI视觉语言模型
OpenWork:开源AI桌面工作流平台,自动化平台技术文档
OpenWork:开源AI桌面工作流平台,自动化平台技术文档

OpenWork是一款面向知识工作者的开源桌面应用程序,提供类Claude Cowork风格的自动化工作流解决方案。该应用以简洁的引导式操作界面为核心,支持本地与远程双模式运行,既能满足个人自动化任务需求,也可适配团队协作场景,是知识工作者提升工作效率的轻量化工具。

AI工作流平台AI桌面智能体
Sonic-3模型:一款Cartesia推出的实时语音对话模型
Sonic-3模型:一款Cartesia推出的实时语音对话模型

Sonic-3是Cartesia推出的新一代实时语音交互引擎,该引擎突破传统技术框架,在低延迟交互、多语言覆盖、智能上下文理解等核心能力上实现重大突破,同时提供灵活部署与企业级安全保障,赋能多领域语音交互场景创新。

语音AI引擎语音对话模型
Trae:新一代免费的AI编程工具