web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. AIGC工具
  5. 百度echarts
  6. 地图大全
  7. 前端知识
  8. 更多
    vuejs
    js入门
    php入门
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站
    AI应用

AI多模态模型

Ovis2.6-30B-A3B模型使用入口,阿里国际Ovis系列多模态大语言模型
Ovis2.6-30B-A3B模型使用入口,阿里国际Ovis系列多模态大语言模型

Ovis2.6-30B-A3B核心升级为MoE架构,实现300亿总参数与仅30亿激活参数的平衡,兼顾大模型能力与小模型推理成本;MoE架构提效降本、64K长上下文+高清图像处理、主动式图像思考、强化的OCR/文档/图表理解。

AI多模态模型HuggingFace模型库MoE架构Ovis系列阿里国际
Codev GGUF视觉语言模型(基于Qwen2.5-VL-7B-Instruct微调)
Codev GGUF视觉语言模型(基于Qwen2.5-VL-7B-Instruct微调)

Codev GGUF是一款基于Qwen2.5-VL-7B-Instruct微调而成的70亿参数视觉语言模型,通过“监督微调(SFT)+ 基于工具感知策略优化(TAPO)的强化学习(RL)”两阶段精准训练,核心目标是实现可靠、可解释的视觉推理。

AI多模态模型AI强化学习优化AI视觉工具调用Transformers架构多模态推理AI
Qwen2.5-Omni:阿里千问专为全方位多模态感知打造的新一代端到端多模态旗舰模型
Qwen2.5-Omni:阿里千问专为全方位多模态感知打造的新一代端到端多模态旗舰模型

Qwen2.5-Omni是阿里云通义千问的新一代端到端多模态旗舰模型,支持文本/图像/音频/视频全输入,可同步输出文本+自然语音,性能超越同规模单模态模型且已全平台开源。

AI多模态模型端到端大模型通义千问阿里云AI
CUA:OpenAI开发的先进人工智能模型,结合了GPT-4o的高级推理能力
CUA:OpenAI开发的先进人工智能模型,结合了GPT-4o的高级推理能力

Computer-Using Agent是OpenAI开发的先进人工智能模型,融合GPT-4o的视觉能力与强化学习驱动的高级推理能力。它可像人类一样与图形用户界面直接交互,无需依赖特定操作系统API或网络接口,灵活性极强,能在多种数字环境中完成填写表单、网页浏览等任务。

AI多模态模型OpenAI开发
SenseNova-MARS:商汤科技开源的AI多模态自主推理模型
SenseNova-MARS:商汤科技开源的AI多模态自主推理模型

SenseNova-MARS模型可像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预即可完成复杂多跳推理。

AI多模态模型AI自主推理模型商汤科技
Step3-VL-10B:10B参数开源多模态模型,以轻量架构比肩200B级性能
Step3-VL-10B:10B参数开源多模态模型,以轻量架构比肩200B级性能

Step3-VL-10B是阶跃星辰推出的轻量级开源多模态模型,仅搭载10B参数,却能在视觉感知、逻辑推理、数学竞赛及通用对话等核心任务中,达到200B大参数模型的性能水准。

AI多模态模型AI开源项目阶跃星辰
LLaVA-OneVision-1.5:Lab开源的高性能低成本开源多模态模型
LLaVA-OneVision-1.5:Lab开源的高性能低成本开源多模态模型

LLaVA-OneVision-1.5在多模态权威基准测试中表现优异,且全链条技术资源透明开放,代码、数据与模型权重一键获取,助力开发者低成本复现与二次创新。

AI多模态模型Lab开源
openPangu-VL-7B:华为开源昇腾原生多模态大模型,端侧高效处理视觉语言任务
openPangu-VL-7B:华为开源昇腾原生多模态大模型,端侧高效处理视觉语言任务

openPangu-VL-7B是华为推出的开源多模态大模型,深度适配昇腾硬件架构,融合强大的语言理解与视觉分析能力,兼具高精度视觉定位、智能OCR识别等核心功能,可高效处理图像、文档、短视频等多类型任务。

AI多模态模型华为AI
Trae:新一代免费的AI编程工具