Kimi k1.5是MoonshotAI研发的新一代多模态语言模型,依托强化学习优化与长上下文扩展核心技术,实现复杂推理任务性能的大幅提升,在AIME、MATH-500等权威数学推理基准测试中超越GPT-4o、Claude Sonnet 3.5,达到行业领先水平。

HunyuanCustom是一款多模态定制视频生成框架,可根据用户自定义条件,精准生成特定主题的定制化视频。该框架在人物身份一致性上表现突出,全面支持文本、图像、音频、视频多模态输入,适配虚拟人广告制作、个性化视频编辑等多元应用场景,为创作者提供高效的视频定制解决方案。

Intern-S1-Pro是上海AI实验室开源的万亿参数科学多模态大模型,采用MoE混合专家架构,基于「通专融合」SAGE技术打造。模型通过傅里叶位置编码与重构时序编码器赋予独特「物理直觉」,可统一理解从微观生命信号到宏观宇宙波动的全尺度科学数据。

本次更新包含四大核心版本:视频3.0新增AI智能分镜、15秒长视频、多语种及方言口型同步、图生视频主体参考;视频3.0 Omni强化全能参考与音色克隆能力;图片3.0支持10张参考图融合与自由编辑;图片3.0 Omni 提供2K/4K原生超清输出与批量组图创作。

GLM-OCR是智谱AI开源的轻量级多模态OCR模型,模型基于GLM-V架构打造,集成智谱自研CogViT视觉编码器与轻量跨模态连接层,创新引入多Token预测损失和强化学习训练策略,在手写体、复杂表格、代码文档、印章、多语言混排等高难识别场景表现卓越。

模型支持静态图像转动态影像、智能视频时长延长、电影级专业转场,更能实现数字人音视频精准同步,为创作者打造从短片段到长叙事的一站式视频生成解决方案,全方位适配商业创作、内容生产、行业应用等多元视频需求。

MMBench是一款多模态基准测试工具,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程,覆盖20项细粒度能力维度,数据集包含约3000道单项选择题,均源自互联网及权威基准数据集。

可灵O1是可灵AI研发的全球首个统一多模态视频生成模型,模型支持图片、视频、文字等多模态输入,可一站式完成全能创作与编辑,精准解决视频生成中的主体一致性难题,解锁多元创意组合玩法。

用户可通过Google AI Studio、Vertex AI、Gemini CLI及全新智能体开发平台Google Antigravity调用Gemini 3;同时模型已打通Cursor、GitHub、JetBrains等第三方平台,为开发者提供灵活丰富的开发选择。
