
模型支持近10分钟连续稳定生成,响应速度达16 FPS且端到端延迟控制在1秒内,还具备Zero-shot场景泛化能力,有效解决真实世界训练数据稀缺、成本高昂的痛点,可广泛应用于机器人训练、自动驾驶仿真、游戏开发等领域。

Qwen3-ASR是阿里云通义千问团队开源的语音识别模型系列,模型支持52个语种与方言识别、流式/非流式一体化推理,在强噪声、快语速、歌唱等复杂场景下表现稳定鲁棒——1.7B模型在中英文及方言识别领域达开源SOTA水平,0.6B模型可支持128并发、2000倍吞吐,10秒即可处理5小时音频,兼顾精度与效率需求。

SenseNova-MARS模型可像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预即可完成复杂多跳推理。

Actionbook是一个专为大语言模型(LLMs)提供实时最新的DOM结构与专业行动指南,核心解决智能体操作网站时难以处理动态页面、复杂DOM树、流式内容等行业痛点。

模型支持静态图像转动态影像、智能视频时长延长、电影级专业转场,更能实现数字人音视频精准同步,为创作者打造从短片段到长叙事的一站式视频生成解决方案,全方位适配商业创作、内容生产、行业应用等多元视频需求。

LongCat-Flash-Lite是美团重磅推出的新一代高效大语言模型,凭借创新MoE+N元语法嵌入混合架构实现技术突破,总参数量达685亿,推理时仅激活29~45亿参数,完美平衡模型能力与运行效率。

Mureka V8是昆仑万维重磅推出的新一代AI音乐大模型,深度依托MusiCoT音乐思维链技术架构,实现从传统声音拼接向类人创作逻辑的核心跨越。模型在旋律完整性、人声表现力、编曲层次感、音质空间感四大核心维度完成全面升级。

MiniMax-M2-her是MiniMax专为深度AI陪伴场景打造的专属角色扮演大模型,作为星野/Talkie的核心底层模型,凭借世界构建、故事推进、偏好感知三大核心能力,精准破解长对话中角色崩坏、剧情重复、体验衰减等行业痛点。

MiniMax Music 2.5模型支持14种音乐结构标签精准调控,创作者可像专业编曲人一样设计音乐情绪曲线;同时针对华语流行深度优化,实现清晰咬字、自然人声演绎、风格化智能混音,搭配100+乐器适配能力,达到录音室级制作水准,全方位满足多元音乐创作需求。

NVIDIA Earth-2是英伟达推出的全球首套完全开源AI气象预测模型家族,依托Atlas、StormScope、HealDA三大核心架构,分别实现15天全球中期预报、0-6小时公里级临近预报、秒级初始条件生成。
Lucy 2.0能有效校正长期运行中的质量漂移问题,实现数小时不间断的连贯生成。针对AWS Trainium3硬件深度优化后,模型可广泛应用于实时角色替换、虚拟试装等视觉特效场景,同时为机器人训练提供物理一致的实时数据增强与模拟环境。

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型,该模型在深度补全、单目深度估计及机器人抓取等核心任务中表现卓越,可助力机器人精准理解三维环境,加速具身智能技术的落地应用。

Vidu Q2参考生Pro是全球首创的「万物可参考」生产级视频生成模型,创新性支持多模态素材输入,赋能创作者一键复刻人物表情、复杂动作、特效画面、场景氛围与纹理细节,实现视频内容的精细化编辑。

VO4 AI Video Generator是一款基于前沿AI技术打造的在线视频生成平台,无需专业编辑技能,即可轻松将文本、图像转化为高质量视频内容。
DeepSeek-OCR 2是DeepSeek团队推出的第二代高性能光学字符识别模型,模型搭载因果流查询与双流注意力核心机制,可动态重排视觉Token,精准还原复杂文档的自然阅读逻辑。
