Ovis2是由阿里巴巴国际化团队推出的新型多模态大语言模型系列,旨在通过结构化嵌入对齐解决视觉与文本模态间的差异。该系列继承并优化了Ovis系列架构,强化了小规模模型的能力密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。此外,Ovis2引入了视频和多图像处理能力,增强了多语言支持和复杂场景下的OCR能力。
版本信息:
Ovis2系列包含六个不同参数规模的模型版本,分别是1B、2B、4B、8B、16B和34B。这些版本均达到了同尺寸的SOTA(State of the Art)水平。
Ovis2主要功能与特点:
1、多模态理解与生成:支持文本、图像、视频等多种输入模态,生成高质量的文本输出。
2、强化推理能力:显著提升思维链(CoT)推理能力,能够解决复杂的逻辑和数学问题。
3、视频和多图像处理:引入视频理解能力,支持关键帧选择和多图像输入。
4、多语言支持和OCR能力:支持多种语言的文本处理,并从复杂视觉元素中提取结构化数据。
5、小模型优化:通过优化训练策略,使小规模模型达到高能力密度。
Ovis2性能表现:
1、多模态通用能力:Ovis2-34B在OpenCompass多模态通用能力榜单上位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。
2、数学推理能力:在多模态数学推理榜单上,Ovis2-34B位列所有开源模型第一。
3、视频理解能力:在视频理解榜单上,Ovis2系列也取得了领先性能。
Ovis2开源信息:
1、Ovis2代码地址:https://github.com/AIDC-AI/Ovis
2、模型(Huggingface)地址:https://huggingface.co/AIDC-AI/Ovis2-34B
3、模型(Modelscope)地址:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
4、 Ovis2在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
5、arXiv研究论文地址: https://arxiv.org/abs/2405.20797
Ovis2系列模型在多模态任务中的卓越表现,使其在教育、内容创作、智能客服等领域具有广泛的应用前景。通过开源,阿里巴巴国际化团队期待与全球开发者共同探索多模态大模型的前沿,并激发更多创新应用。
一款群核科技开源的三维空间理解设计的大型语言模型—— SpatialLM
一款支持文本、图像、语音等多种模态的AI训练模型——序列猴子
一款90分钟内生成10万Token,相比传统方法提速3倍以上的AI框架——TokenSwift
LLM4AD:一个开源、简洁、模块化的基于大模型的自动算法设计平台
上面是“阿里国际开源Ovis2系列:多模态大语言模型的六大版本震撼来袭,免费使用!”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_17679.html
workflows工作流
星空星域星球comfyui工作流
一只开屏的白色孔雀ComfyUI工作流
一杯咖啡蒸汽形成云ComfyUI工作流
冬天的严寒里红梅枝上停留着一只鸟
一张科幻照片,火星车在沙漠里ComfyUI工作流
一辆老式灵车在黑暗中从雾中出现ComfyUI工作流
一个破旧的工厂,一个骷髅雕像
梦幻向日葵ComfyUI工作流
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!