
原价千元的云服务器+通义万相组合,新用户首购仅需119元!含2核2G云服务器年卡99元、通义万相3个月节省计划20元,低成本开启AI创作之旅。

SAIL-VL2是抖音团队与新加坡国立大学联合研发的开源视觉语言基础模型,模型由SAIL-ViT视觉编码器、视觉-语言适配器与大语言模型三大核心模块构成,创新性采用渐进式训练框架,从视觉预训练、多模态融合,到最终的SFT-RL混合范式优化,实现性能阶梯式跃升。

Get Jobs是一款开源自动化简历投递工具,专为求职者打造高效求职解决方案。工具支持Boss直聘、猎聘、拉勾、51job、智联招聘等主流招聘平台。

Ming-UniAudio构建了端到端语音语言模型,精准平衡语音生成与语义理解性能;搭配扩散头技术,保障语音合成的高自然度与高还原度。尤为突出的是,模型首创指令引导的自由形式语音编辑框架,支持复杂的语义与声学修改,无需手动标定编辑区域,大幅降低操作门槛。
![FLUX.2 [klein]:Black Forest Labs开源的高效图像生成与编辑模型](/uploads/2026/01/flux-2-klein.jpg)
FLUX.2 [klein]是Black Forest Labs推出的开源高效图像生成与编辑模型,凭借突破性的架构设计与优化技术,实现0.5秒内完成高质量图像生成与编辑的亚秒级推理速度,支持文生图、图生图及多参考生成三大核心功能。

TranslateGemma是谷歌基于Gemma 3大模型架构推出的新一代开源翻译模型系列,该模型提供4B、12B、27B三种参数规模版本,分别适配移动设备、消费级笔记本、云端高性能计算平台,真正做到全场景灵活部署。

Ling-1T是蚂蚁集团重磅推出的万亿参数级开源语言模型,定位为“旗舰级非思考模型”。依托先进的 MoE(Mixture of Experts)混合专家架构,模型总参数量高达 1 万亿,推理时仅激活约 510 亿参数,在兼顾极致性能的同时大

Gemini 2.5 Computer Use是谷歌DeepMind基于Gemini 2.5大模型打造的智能计算机操作模型,突破性实现AI对浏览器的直接控制,可自主执行点击、滚动、输入等交互动作。依托强大的视觉理解与逻辑推理能力,模型能精准

Imagine v0.9是xAI公司推出的新一代视频生成模型,该模型可在20秒内生成6秒左右的高质量视频,支持精准运动控制、动态相机特效、自然对话与歌声合成,更配备语音优先交互界面,用户通过语音指令即可快速完成创作。

FunAudio-ASR是阿里巴巴达摩院研发的端到端语音识别大模型,聚焦企业落地场景中的核心痛点,通过创新的Context增强模块,从根源上优化了语音识别领域的“幻觉”“串语种”等行业难题。

GPT-5-Codex-Mini是OpenAI打造的经济高效型轻量版本。作为GPT-5-Codex的紧凑迭代,其模型体积更小、使用成本更低,完美适配基础代码生成、功能模块添加等轻量级编程需求。目前,该模型已上线CLI工具与IDE扩展插件,为开发者提供灵活、高性价比的智能编程选择。

Mini-o3在VisualProbe、V* Bench等多个权威视觉搜索基准测试中斩获SOTA(State-of-the-Art)性能,全套代码、预训练模型及数据集已完全开源,为全球研究者提供可复现、可拓展的技术底座。

UnifoLM-WMA-0架构已成功部署于真实机器人,实现动作可控生成与长期交互生成的双重突破,显著提升机器人在复杂动态环境中的自主学习与决策能力。

PromptEnhancer是腾讯混元团队重磅开源的文本到图像(T2I)提示重写框架,核心聚焦于解决T2I模型对复杂指令理解不足、生成内容与用户意图偏差的行业痛点。

通义DeepResearch无需人工干预即可生成高质量训练数据集,突破传统智能体的数据瓶颈;构建“智能体持续预训练(Agentic CPT)—监督微调(SFT)—强化学习(RL)”的端到端完整训练链路,确保模型能力的系统性迭代。

WebResearcher作为阿里巴巴通义实验室重磅推出的迭代式深度研究智能体,精准模拟人类专家的认知工作流程。它具备自主拆解复杂问题、智能协调工具调用、整合碎片化信息输出有理有据报告的核心能力,与传统研究智能体相比,通过分阶段处理研究全流程。
