Ovis2是由阿里巴巴国际化团队推出的新型多模态大语言模型系列,旨在通过结构化嵌入对齐解决视觉与文本模态间的差异。该系列继承并优化了Ovis系列架构,强化了小规模模型的能力密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。此外,Ovis2引入了视频和多图像处理能力,增强了多语言支持和复杂场景下的OCR能力。

版本信息:
Ovis2系列包含六个不同参数规模的模型版本,分别是1B、2B、4B、8B、16B和34B。这些版本均达到了同尺寸的SOTA(State of the Art)水平。
Ovis2主要功能与特点:
1、多模态理解与生成:支持文本、图像、视频等多种输入模态,生成高质量的文本输出。
2、强化推理能力:显著提升思维链(CoT)推理能力,能够解决复杂的逻辑和数学问题。
3、视频和多图像处理:引入视频理解能力,支持关键帧选择和多图像输入。
4、多语言支持和OCR能力:支持多种语言的文本处理,并从复杂视觉元素中提取结构化数据。
5、小模型优化:通过优化训练策略,使小规模模型达到高能力密度。
Ovis2性能表现:
1、多模态通用能力:Ovis2-34B在OpenCompass多模态通用能力榜单上位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。
2、数学推理能力:在多模态数学推理榜单上,Ovis2-34B位列所有开源模型第一。
3、视频理解能力:在视频理解榜单上,Ovis2系列也取得了领先性能。

Ovis2开源信息:
1、Ovis2代码地址:https://github.com/AIDC-AI/Ovis
2、模型(Huggingface)地址:https://huggingface.co/AIDC-AI/Ovis2-34B
3、模型(Modelscope)地址:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
4、 Ovis2在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
5、arXiv研究论文地址: https://arxiv.org/abs/2405.20797
Ovis2系列模型在多模态任务中的卓越表现,使其在教育、内容创作、智能客服等领域具有广泛的应用前景。通过开源,阿里巴巴国际化团队期待与全球开发者共同探索多模态大模型的前沿,并激发更多创新应用。
相关阅读文章
Quick BI官网:实现毫秒级查询响应,10亿数据查询 + 计算仅需0.3秒
Refly官网:全球首个开源Vibe Workflow平台,集成13+主流大语言模型
蓝耘MCP广场:集成了众多MCP(模型上下文协议)服务的平台
一款群核科技开源的三维空间理解设计的大型语言模型—— SpatialLM
上面是“阿里国际开源Ovis2系列:多模态大语言模型的六大版本震撼来袭,免费使用!”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_17679.html
workflows工作流
一张精心制作的熊岛复古地图ComfyUI工作流
基础扩图comfyui工作流
一只被水晶包围的小动物ComfyUI工作流
一个威武雄壮的战士ComfyUI工作流
一个骷髅海盗船长ComfyUI工作流
一个超凡脱俗的女明星的特写镜头ComfyUI工作流
停在音乐节露营地的一辆复古大众巴士由羊毛制成
一个质朴的木制窗户上放着各种葫芦、南瓜等
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

js实现下雪特效
3d文字360度旋转
利用CSS3代码编写45款按钮效果
jquery鼠标滑过图片边框特效(jquery.focus-follow插件)
如何利用svg做一个有趣的loading动画加载
js导出excel插件(兼容mac电脑Numbers表格)
日历设置每个月颜色都不一样
利用js+css3做一个小鱼游泳特效




