
即梦AI(原名Dreamina)是由字节跳动旗下的剪映团队推出的一款一站式AI创作平台。其核心功能包括文生图(文字生成图像)、文/图生视频(文字或图片生成视频)以及智能画布等。

字节旗下AI代码助手程,国内首款原生AI IDE,它不仅提供智能代码生成、优化和调试功能,还通过多模态交互、上下文感知和跨语言支持等创新技术,帮助开发者高效完成项目开发。

DeepSeek-Math-V2是DeepSeek团队推出的开源数学推理模型,模型聚焦答案正确性与推理过程严谨性,通过训练定理证明验证器与生成器,创新引入元验证机制,让模型能够像人类数学家一样审查证明逻辑、实现自我纠错。

StepAudio R1是阶跃星辰团队研发的全球首个开源原生音频推理模型,核心依托创新的模态锚定推理蒸馏(MGRD)框架,攻克传统音频模型在复杂推理任务中性能衰减的技术痛点,真正实现基于声学特征的深度推理。

GELab-Zero是阶跃星辰研发的开源GUI Agent模型,模型支持在消费级硬件上运行4B参数版本,兼顾低延迟响应与数据隐私保护;提供一键多终端部署能力,自动处理环境依赖与设备管理,兼容分布式任务编排及多模态Agent模式,可灵活应对复杂移动自动化任务。

Vidi2是字节跳动推出的专注于视频理解与创作的多模态大语言模型,模型可基于文本查询,精准识别视频对应时间戳并标记目标对象边界框,还创新引入VUE-STG、VUE-TR-V2两大基准测试,为STG能力评估提供更科学的标准。

可灵O1是可灵AI研发的全球首个统一多模态视频生成模型,模型支持图片、视频、文字等多模态输入,可一站式完成全能创作与编辑,精准解决视频生成中的主体一致性难题,解锁多元创意组合玩法。
Alpamayo-R1是英伟达研发的视觉-语言-动作模型,模型核心创新涵盖三大维度:构建因果链(CoC)高质量推理轨迹数据集、采用具备物理常识与具身推理能力的Cosmos-Reason作为VLM骨干网络、设计“监督微调+强化学习”多阶段训练策略。

HunyuanOCR是腾讯混元团队推出的开源端到端OCR视觉语言模型,其功能覆盖文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取等经典OCR任务,同时支持端到端拍照翻译与文档问答,为多场景文本处理提供一站式解决方案。

ViMax是香港大学数据科学实验室研发的端到端多智能体视频生成框架,框架创新性整合导演、编剧、制片人及视频生成器的核心职能,支持Idea2Video、Novel2Video、Script2Video、AutoCameo四大生成模式。

Z-Image是阿里通义推出的6B参数轻量化图像生成模型,构建单流DiT架构核心底座,衍生出三大功能变体:Z-Image-Turbo、Z-Image-Base、Z-Image-Edit,精准匹配不同场景需求。

Argus 1.0是如视推出的全球首个支持全景图输入的空间大模型,该模型具备毫秒级实时重建能力,可从全景图或普通照片中快速推理相机位姿、深度图与点云图,生成高精度三维空间模型;同时具备极强的多源输入适应性,兼容多种图像类型,生成的3D空间质量显著优于同类方案。

FrogBoss是微软研究院研发的系列编程智能模型,核心依托创新的复杂漏洞生成方法BugPilot完成训练。该方法通过让大语言模型代理(LLM)在代码库中添加新功能的过程中“无意引入漏洞”,生成更贴近真实开发场景、更具挑战性与多样性的训练数据。

Prompt Manager是一款专为提升AI工作流效率打造的提示词全生命周期管理工具,支持个人提示词的创建、编辑、分类与版本管理,通过智能分类与全局搜索功能实现提示词的快速检索。

HunyuanVideo 1.5是腾讯混元团队推出的开源轻量级视频生成模型,模型支持文生视频、图生视频双模式生成5-10秒高清内容,具备强大的指令理解能力,可精准复刻写实、动画等多元视觉风格。

InfinityStar是字节跳动推出的高效视频生成模型,该模型支持文本到图像、文本到视频、图像到视频及长时间交互视频合成等多类任务,且所有代码与模型均已开源。

DPAI Arena是JetBrains携手Linux基金会打造的开放式AI编码智能体基准测试平台,平台创新性采用多轨道架构,覆盖问题修复、PR审查、测试生成等真实开发场景,构建起透明、可扩展的评估体系。
