Ovis2是由阿里巴巴国际化团队推出的新型多模态大语言模型系列,旨在通过结构化嵌入对齐解决视觉与文本模态间的差异。该系列继承并优化了Ovis系列架构,强化了小规模模型的能力密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。此外,Ovis2引入了视频和多图像处理能力,增强了多语言支持和复杂场景下的OCR能力。
版本信息:
Ovis2系列包含六个不同参数规模的模型版本,分别是1B、2B、4B、8B、16B和34B。这些版本均达到了同尺寸的SOTA(State of the Art)水平。
Ovis2主要功能与特点:
1、多模态理解与生成:支持文本、图像、视频等多种输入模态,生成高质量的文本输出。
2、强化推理能力:显著提升思维链(CoT)推理能力,能够解决复杂的逻辑和数学问题。
3、视频和多图像处理:引入视频理解能力,支持关键帧选择和多图像输入。
4、多语言支持和OCR能力:支持多种语言的文本处理,并从复杂视觉元素中提取结构化数据。
5、小模型优化:通过优化训练策略,使小规模模型达到高能力密度。
Ovis2性能表现:
1、多模态通用能力:Ovis2-34B在OpenCompass多模态通用能力榜单上位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。
2、数学推理能力:在多模态数学推理榜单上,Ovis2-34B位列所有开源模型第一。
3、视频理解能力:在视频理解榜单上,Ovis2系列也取得了领先性能。
Ovis2开源信息:
1、Ovis2代码地址:https://github.com/AIDC-AI/Ovis
2、模型(Huggingface)地址:https://huggingface.co/AIDC-AI/Ovis2-34B
3、模型(Modelscope)地址:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
4、 Ovis2在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
5、arXiv研究论文地址: https://arxiv.org/abs/2405.20797
Ovis2系列模型在多模态任务中的卓越表现,使其在教育、内容创作、智能客服等领域具有广泛的应用前景。通过开源,阿里巴巴国际化团队期待与全球开发者共同探索多模态大模型的前沿,并激发更多创新应用。
Doubao-1.5-pro:一款由豆包团队开发的高性能稀疏 MoE大语言模型
人大高瓴AI联合蚂蚁推出LLaDA,打破大语言模型“逆诅咒”
Qihoo-T2X:一款由360CVGroup开发的高效扩散变换器模型
上面是“阿里国际开源Ovis2系列:多模态大语言模型的六大版本震撼来袭,免费使用!”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_17679.html
workflows工作流
停在音乐节露营地的一辆复古大众巴士由羊毛制成
文生图工作流:树枝上站着一只鸟
去掉背景(抠图)comfyui工作流
一个男人正走进科幻的大门ComfyUI工作流
一条精致透明的朱红色水晶龙
一只透明老虎骨骼标本ComfyUI工作流
一只可爱的小鸟在飞翔ComfyUI工作流
一个外国人在吹奏萨克斯ComfyUI工作流
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!