返回IT知识

阿里国际开源Ovis2系列：多模态大语言模型的六大版本震撼来袭，免费使用！

589 ℃

Ovis2是由阿里巴巴国际化团队推出的新型多模态大语言模型系列，旨在通过结构化嵌入对齐解决视觉与文本模态间的差异。该系列继承并优化了Ovis系列架构，强化了小规模模型的能力密度，并通过指令微调和偏好学习显著提升了思维链（CoT）推理能力。此外，Ovis2引入了视频和多图像处理能力，增强了多语言支持和复杂场景下的OCR能力。

阿里国际开源Ovis2系列：多模态大语言模型的六大版本震撼来袭，免费使用！

版本信息：

Ovis2系列包含六个不同参数规模的模型版本，分别是1B、2B、4B、8B、16B和34B。这些版本均达到了同尺寸的SOTA（State of the Art）水平。

Ovis2主要功能与特点：

1、多模态理解与生成：支持文本、图像、视频等多种输入模态，生成高质量的文本输出。

2、强化推理能力：显著提升思维链（CoT）推理能力，能够解决复杂的逻辑和数学问题。

3、视频和多图像处理：引入视频理解能力，支持关键帧选择和多图像输入。

4、多语言支持和OCR能力：支持多种语言的文本处理，并从复杂视觉元素中提取结构化数据。

5、小模型优化：通过优化训练策略，使小规模模型达到高能力密度。

Ovis2性能表现：

1、多模态通用能力：Ovis2-34B在OpenCompass多模态通用能力榜单上位列所有开源模型第二，以不到一半的参数尺寸超过了诸多70B开源旗舰模型。

2、数学推理能力：在多模态数学推理榜单上，Ovis2-34B位列所有开源模型第一。

3、视频理解能力：在视频理解榜单上，Ovis2系列也取得了领先性能。

模型（Modelscope)地址

Ovis2开源信息：

1、Ovis2代码地址：https://github.com/AIDC-AI/Ovis

2、模型（Huggingface)地址：https://huggingface.co/AIDC-AI/Ovis2-34B

3、模型（Modelscope)地址：https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45

4、 Ovis2在线Demo：https://huggingface.co/spaces/AIDC-AI/Ovis2-16B

5、arXiv研究论文地址: https://arxiv.org/abs/2405.20797

Ovis2系列模型在多模态任务中的卓越表现，使其在教育、内容创作、智能客服等领域具有广泛的应用前景。通过开源，阿里巴巴国际化团队期待与全球开发者共同探索多模态大模型的前沿，并激发更多创新应用。

相关阅读文章

DeepSeek-V4模型 - 包含deepseek-v4-pro和deepseek-v4-flash两个版本，拥有百万字超长上下文窗口

Steerling-8B模型使用入口，80亿参数规模，在1.35万亿Token语料上训练完成

Ovis2.6-30B-A3B模型使用入口，阿里国际Ovis系列多模态大语言模型

TeichAI官网使用入口，面向企业与开发者的一站式人工智能能力平台

Open Coding Agents：低成本、可复现的开源编程智能体，支持任意私有代码库

标签： AI大语言模型阿里国际阿里巴巴框架

上面是“阿里国际开源Ovis2系列：多模态大语言模型的六大版本震撼来袭，免费使用！”的全面内容，想了解更多关于 IT知识 内容，请继续关注web建站教程。

当前网址：https://ipkd.cn/webs_17679.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！

当前位置： 首页 > IT知识

Trae：新一代免费的AI编程工具

即梦AI网页版

支持多图参考 · 生成高质量图像及视频！！

豆包网页版

支持AI聊天，AI图片生成，AI漫画生成，AI写作等……

最新文章

: DeepSeek-V4模型 - 包含deepseek-v4-pro和deepseek-v4-flash两个版本，拥有百万字超长上下文窗口

: Qwen3.6-Plus编程模型 - 阿里通义重磅Agent编程模型，百万上下文+超强编码智能体

: 京东JoyMed医疗大模型 - 里程碑级医疗多模态大模型，重新定义AI诊疗新范式

: 小米OmniVoice官网 - 小米K2-Fsa重磅TTS模型，600+语言+极速克隆

: TimelessHome.AI官网 - 一款AI室内设计与虚拟家居布置平台

精选热门文章

: 豆包网页版：支持AI聊天，AI图片生成，AI漫画生成，AI写作等

: Ctrl-World模型使用入口，厘米级轨迹精度、0.986的策略评估一致性及0.93的深度准确性

: Fimo：无需复杂代码开发即可快速打造高性能动态网站的AI构建器

LangChain：一个帮助开发者实现文本生成、问答、翻译、对话等任务

批改邦：帮助教师高效批改学生作业，包括语文和英语作文

: PicoClaw官网使用入口，支持Telegram、Discord等多平台接入

日历：

上一篇：TeichAI官网使用入口，面向企业与开发者的一站式人工智能能力平台

下一篇：Matrix-Zero – 推出的世界模型

x

打工人ai神器

x

扫一扫打开藏历小程序

打开微信“扫一扫”查看今日藏历！