web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. AIGC工具
  5. 百度echarts
  6. 地图大全
  7. 前端知识
  8. 更多
    vuejs
    js入门
    php入门
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站
    AI应用

AI视觉语言模型

Thinker:优必选开源具身智能视觉语言大模型 专为机器人场景打造
Thinker:优必选开源具身智能视觉语言大模型 专为机器人场景打造

Thinker模型聚焦机器人核心需求,打造任务规划、空间理解、时间推理、视觉定位四大核心能力,精准解决机器人“想得到但抓不准”的行业痛点。模型基于20亿原始数据精炼的1000万高质量数据训练,依托自动化标注体系将人工参与率控制在1%以下,兼顾训练效率与数据质量。

AI视觉语言模型GitHub仓库
FG-CLIP 2:360推出的新一代开源双语细粒度视觉语言对齐模型
FG-CLIP 2:360推出的新一代开源双语细粒度视觉语言对齐模型

FG-CLIP 2是360推出的新一代开源双语细粒度视觉语言对齐模型,模型凭借创新的层次化对齐架构与动态注意力机制,在29项权威基准测试中超越Google SigLIP 2、Meta MetaCLIP 2等主流模型,跻身全球顶尖视觉语言模型行列。

360开源AI视觉语言模型
DeepSeek-OCR:DeepSeek团队开源的高效长文本视觉语言处理模型
DeepSeek-OCR:DeepSeek团队开源的高效长文本视觉语言处理模型

DeepSeek-OCR是DeepSeek团队研发的一款视觉语言模型,主打基于视觉压缩技术的长文本高效处理能力。该模型采用DeepEncoder编码器+DeepSeek3B-MoE解码器的架构,可在保留高分辨率输入信息的前提下,大幅降低激活内存占用与视觉标记数量。

AI视觉语言模型DeepSeek模型
SAIL-VL2:抖音 × 新加坡国立大学联合开源的视觉语言模型
SAIL-VL2:抖音 × 新加坡国立大学联合开源的视觉语言模型

SAIL-VL2是抖音团队与新加坡国立大学联合研发的开源视觉语言基础模型,模型由SAIL-ViT视觉编码器、视觉-语言适配器与大语言模型三大核心模块构成,创新性采用渐进式训练框架,从视觉预训练、多模态融合,到最终的SFT-RL混合范式优化,实现性能阶梯式跃升。

AI视觉语言模型抖音AI新加坡国立大学
Granite-Docling-258M:IBM轻量级视觉语言模型
Granite-Docling-258M:IBM轻量级视觉语言模型

Granite-Docling-258M模型支持阿拉伯语、中文、日语等多语言处理,并创新性采用DocTags格式精准描述文档结构,搭配与Docling库的无缝集成能力,赋予用户强大的定制化空间与错误处理机制,成为企业级文档智能化升级的高效利器。

AI视觉语言模型IBM模型
Helix:一款由Figure AI发布的新型通用视觉语言动作(VLA)模型
Helix:一款由Figure AI发布的新型通用视觉语言动作(VLA)模型

一款由Figure AI发布的新型VLA(视觉-语言-动作)模型,能够通过自然语言指令控制人形机器人的动作。它支持全上半身控制,实现高精度动作协调,还支持多机器人协作。

AI视觉语言模型人形机器人
一款由浙大阿里巴巴等多家机构联合开发的先进医学视觉语言模型——HealthGPT
一款由浙大阿里巴巴等多家机构联合开发的先进医学视觉语言模型——HealthGPT

HealthGPT一款由浙江大学、电子科技大学、阿里巴巴等多家机构联合开发的先进医学视觉语言模型(Med-LVLM),它能够处理多种医学图像(如X光、CT、MRI等),并提供诊断建议、视觉问答和医学文本生成等功能。

AI医学AI视觉语言模型
Trae:新一代免费的AI编程工具