
Spark Chemistry-X1-13B是科大讯飞推出的化学领域专业大语言模型,依托讯飞星火X1-0420大模型基座构建,通过多类型化学任务数据集的定向微调,既具备卓越的复杂化学问题解决能力,又保留了通用大模型的灵活交互特性。

GDPval是OpenAI研发的全新AI模型评估体系,核心目标是衡量AI模型在真实经济价值任务中的实际表现。该框架从对美国GDP贡献最大的9大行业中,筛选出44类典型知识型职业,针对性设计1320个真实工作任务,

CoF是DeepMind推出的视觉推理新概念,类比语言模型领域的链式思维技术。这一范式赋予视频模型跨时间与空间的推理能力,通过逐帧生成连贯视频序列的方式,解决复杂视觉任务。

Manzano是苹果公司研发的新型多模态大语言模型,核心突破在于实现图像理解与图像生成的能力统一。模型创新性采用混合视觉分词器,将图像同步转化为两类特征表示:用于理解任务的连续嵌入向量,以及用于生成任务的离散图像标记。

Sora 2是OpenAI推出的新一代AI音视频生成模型,该模型实现三大核心技术突破:依托多模态联合训练,首次达成环境音效与画面动态的实时同步生成。

Logics-Parsing是阿里巴巴推出的开源端到端文档解析模型,基于多模态大模型Qwen2.5-VL-7B构建。该模型创新融合监督微调与布局中心型强化学习技术,攻克复杂文档的结构解析与内容理解难题。

Tinker API提供`forward_backward`、`sample`等底层操作原语,支持开发者灵活构建自定义微调或强化学习算法;兼容从小型到超大参数量的全品类开放权重模型,模型切换仅需修改代码中一个字符串参数。

xLLM可广泛适配大语言模型、多模态模型及生成式推荐等多类场景,能够提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片生态上的规模化应用。

Meta ARE是Meta推出的专业研究平台,聚焦于AI Agents的训练与系统性评估。该平台通过构建随时间动态演变的模拟环境,还原真实世界的复杂多步骤任务场景,要求Agents能够根据新信息的出现和环境条件的变化,实时调整决策策略。

FireRedChat是小红书智创音频团队打造的全双工语音交互系统,系统采用高灵活性的模块化架构,涵盖转录控制模块、交互模块、对话管理器等核心组件,支持级联与半级联两种部署模式,可按需适配不同业务场景。

TRUEBench是三星电子推出的AI基准测试工具,聚焦人工智能在实际工作场景中的生产力评估,针对性解决现有AI基准测试的核心局限性,例如以英语为中心的单一语言覆盖、局限于单轮问答的简单任务结构等问题。

GLM-4-32B是智谱推出的新一代开源基座模型,参数版本为GLM-4-32B-0414。该模型基于15T高质量数据完成预训练,重点强化代码生成、逻辑推理与工程任务处理能力,支持HTML、CSS、JS、SVG等多类语言的实时代码展示与运行。

Step-Audio-R1.1是阶跃星辰推出的全球首个开源原生语音推理模型。该模型凭借96.4% 的超高准确率登顶全球权威语音推理榜单,性能全面超越业界众多一线模型。

平台覆盖电商营销、品牌宣传、影视创作等多元场景,适配从零基础新手到资深创作者的全人群需求,能让每个人的创意理念结构化、精准视觉化呈现,最终构建有深度、可沉淀的创作者生态。

TryOnDiffusion是一款基于双UNet扩散架构的虚拟试衣AI模型,核心能力是生成服装穿在目标人物身上的高逼真可视化效果。它能够在精准保留服装细节纹理的同时,自适应人物的显著身体姿势与体型变化,在定性与定量评测中均达到业界领先水平,是高效解决虚拟试衣场景痛点的技术方案。
