
Omnilingual ASR采用社区驱动的扩展框架,用户仅需提供少量语音-文本样本,即可快速将系统适配至新语言;同时 Meta 开源了Omnilingual ASR Corpus数据集与全新自监督式大规模多语言语音表示模型Omnilingual wav2vec 2.0,为全球语音技术研发提供核心支撑,助力推动语言平等与跨文化交流。

DeepEyesV2模型训练分为两个核心阶段:第一阶段通过监督微调,帮助模型建立工具使用的基础认知;第二阶段借助强化学习,大幅提升工具调用效率与场景泛化能力。

LazyCraft是商汤基于开源框架LazyLLM打造的一站式AI Agent应用开发与管理平台,平台提供从应用创建、调试、发布到监控的全流程闭环能力,支持低代码拖拽式开发与组件化应用编排。

讯飞星火X1.5是科大讯飞推出的基于全国产算力平台的深度推理大模型,该模型在语言理解、文本生成、知识问答、逻辑推理、数学运算、代码开发等核心领域全面对标国际主流大模型,其中数学能力保持国际领先水平。

UNO-Bench是美团LongCat团队研发的全模态大模型专业评测基准。针对现有评测体系在多模态能力评估上的局限性,该基准依托高质量、多样化的数据集构建,可精准衡量模型的单模态性能与全模态融合能力。
Kosmos是由FutureHouse研发的新一代AI科学家,该系统创新性采用结构化世界模型,具备海量信息高效整合与大规模任务并行处理能力,单次运行可解析1500篇学术论文、执行42000行分析代码,数据处理规模远超同类智能体系统。

Kimi-k2 Thinking是月之暗面推出的新一代通用智能体模型,具备领先的Agentic自主能力与深度推理能力。该模型可实现多轮自主思考与工具调用,无需人工干预即可完成复杂任务的规划与执行,尤其适用于需要分步拆解、逻辑推演的高难度场景。

Open-o3 Video是北京大学与字节跳动联合研发的开源视频推理模型,核心突破在于通过整合关键时间戳、边界框等显式时空证据,实现对视频内容的精准推理。

OmniVinci是NVIDIA推出的新一代全模态大语言模型,专注于视觉、听觉、语言与推理的跨模态协同任务。该模型依托独创的`OmniAlignNet`跨模态语义对齐技术、`Temporal Embedding Grouping`时序同步机制与`Constrained Rotary Time Embedding`时间感知优化方案

AI Research Foundations是Google DeepMind与伦敦大学学院联合打造的免费在线课程,聚焦Transformer模型的核心原理与实践应用,旨在帮助学习者夯实AI研究基础,掌握现代语言模型的构建、训练与微调全流程技能。

Ouro是字节跳动Seed团队联合多家机构研发的循环语言模型,其名称源自象征循环与自迭代的“衔尾蛇”。该模型突破传统语言模型“预训练+微调”的能力构建范式,通过在潜在空间的迭代计算,将推理能力直接融入预训练阶段。

SAIL-Embedding是由字节跳动抖音SAIL团队与香港中文大学MMLab联合研发的全模态嵌入基础模型,该模型支持文本、视觉、音频等任意模态输入,可生成统一且高信息量的特征表示,赋能多模态检索、分类、推荐等核心任务。

FG-CLIP 2是360推出的新一代开源双语细粒度视觉语言对齐模型,模型凭借创新的层次化对齐架构与动态注意力机制,在29项权威基准测试中超越Google SigLIP 2、Meta MetaCLIP 2等主流模型,跻身全球顶尖视觉语言模型行列。

OpenWork是一款面向知识工作者的开源桌面应用程序,提供类Claude Cowork风格的自动化工作流解决方案。该应用以简洁的引导式操作界面为核心,支持本地与远程双模式运行,既能满足个人自动化任务需求,也可适配团队协作场景,是知识工作者提升工作效率的轻量化工具。

Sonic-3是Cartesia推出的新一代实时语音交互引擎,该引擎突破传统技术框架,在低延迟交互、多语言覆盖、智能上下文理解等核心能力上实现重大突破,同时提供灵活部署与企业级安全保障,赋能多领域语音交互场景创新。
