Ovis2是由阿里巴巴国际化团队推出的新型多模态大语言模型系列,旨在通过结构化嵌入对齐解决视觉与文本模态间的差异。该系列继承并优化了Ovis系列架构,强化了小规模模型的能力密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。此外,Ovis2引入了视频和多图像处理能力,增强了多语言支持和复杂场景下的OCR能力。

版本信息:
Ovis2系列包含六个不同参数规模的模型版本,分别是1B、2B、4B、8B、16B和34B。这些版本均达到了同尺寸的SOTA(State of the Art)水平。
Ovis2主要功能与特点:
1、多模态理解与生成:支持文本、图像、视频等多种输入模态,生成高质量的文本输出。
2、强化推理能力:显著提升思维链(CoT)推理能力,能够解决复杂的逻辑和数学问题。
3、视频和多图像处理:引入视频理解能力,支持关键帧选择和多图像输入。
4、多语言支持和OCR能力:支持多种语言的文本处理,并从复杂视觉元素中提取结构化数据。
5、小模型优化:通过优化训练策略,使小规模模型达到高能力密度。
Ovis2性能表现:
1、多模态通用能力:Ovis2-34B在OpenCompass多模态通用能力榜单上位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。
2、数学推理能力:在多模态数学推理榜单上,Ovis2-34B位列所有开源模型第一。
3、视频理解能力:在视频理解榜单上,Ovis2系列也取得了领先性能。

Ovis2开源信息:
1、Ovis2代码地址:https://github.com/AIDC-AI/Ovis
2、模型(Huggingface)地址:https://huggingface.co/AIDC-AI/Ovis2-34B
3、模型(Modelscope)地址:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
4、 Ovis2在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
5、arXiv研究论文地址: https://arxiv.org/abs/2405.20797
Ovis2系列模型在多模态任务中的卓越表现,使其在教育、内容创作、智能客服等领域具有广泛的应用前景。通过开源,阿里巴巴国际化团队期待与全球开发者共同探索多模态大模型的前沿,并激发更多创新应用。
相关阅读文章
Open Coding Agents:低成本、可复现的开源编程智能体,支持任意私有代码库
LongCat-Flash-Lite官网:美团新一代高效大语言模型
Qwen3-Max:阿里万亿参数大模型,刷新通用AI能力新高度
DreamTalk:清华联合阿里、华中科大研发,音频驱动的高逼真照片说话框架
GrOK AI:埃隆·马斯克旗下人工智能初创公司xAI推出的对话机器人
上面是“阿里国际开源Ovis2系列:多模态大语言模型的六大版本震撼来袭,免费使用!”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_17679.html
workflows工作流
一对葫芦ComfyUI工作流
森林里一只邪恶的树妖ComfyUI工作流
在森林中心有一座蛇形的房子ComfyUI工作流
一张皮卡丘向观众眨眼的逼真照片ComfyUI工作流
在地铁站里一个迷茫的非主流姑娘
图生图生成动漫效果ComfyUI工作流
一个巨大的漆黑的蟹王ComfyUI工作流
一名男子跪在月球岩石表面看见小行星碰撞
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

制作一个好玩的倒计时
利用js+css3做一个小鱼游泳特效
纯css制作卡通头像(随鼠标转头)
canvas空间文本射线
用ascii字符画图像
2023年程序猿如何给自己开启一场烟花盛会
iframe开发admin后台
利用CSS3做一个星级评分样式














