web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. AIGC工具
  5. 百度echarts
  6. 地图大全
  7. 前端知识
  8. 更多
    vuejs
    js入门
    php入门
    mysql
    wordpress
    织梦cms
    帝国cms
    git教程
    IT知识
    模板大全
    休息站
    AI应用

SenseNova-MARS:商汤科技开源的AI多模态自主推理模型

54 ℃

SenseNova-MARS商汤科技开源的多模态自主推理模型,提供8B、32B两种参数规模,为业内首个融合动态视觉推理与图文搜索的Agentic VLM。模型可像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预即可完成复杂多跳推理。在MMSearch、HR-MMSearch、FVQA等七大基准测试中,SenseNova-MARS-32B以69.74分的平均成绩,超越Gemini-3-Pro(69.06分)、GPT-5.2(67.64分),在开源模型中达到SOTA水平,成为AI从「能回答」向「能执行」跨越的重要标志。

SenseNova-MARS:商汤科技开源的AI多模态自主推理模型

SenseNova-MARS的主要功能:

1、多模态搜索推理

深度融合图像与文本实现跨模态信息检索,支持动态调用工具,高效完成复杂知识多跳推理。

2、细粒度视觉分析

兼容4K/8K超高清图像处理,可精准裁剪、识别占比不足5%的微小视觉细节,捕捉画面核心信息。

3、自主Agent执行

具备智能体级自主任务规划能力,可无缝协同多工具形成执行闭环,无需人工干预解决复杂多模态问题。

SenseNova-MARS的技术原理:

1、双阶段训练架构

第一阶段基于约3000个高质量多轮交互轨迹完成冷启动监督微调,让模型掌握基础工具使用模式;第二阶段采用BN-GSPO强化学习算法,通过组内与批次双重归一化稳定训练,优化多工具协同调用与推理决策能力。

2、BN-GSPO强化学习算法

针对多工具场景中轨迹长度、奖励尺度差异导致的训练不稳定问题,先对同组样本做组归一化消除内部偏差,再对全批次做归一化平衡不同任务学习信号,实现多工具策略的稳定高效优化。

3、动作空间与工具设计

每轮可自主选择文本搜索、图像搜索、图像裁剪、终止回答四大动作;图像裁剪通过归一化边界框坐标实现精准局部放大,所有工具调用均遵循标准化JSON格式,保障交互一致性。

4、奖励模型机制

采用GPT-4o作为评判器,从答案准确性和格式合规性双维度提供稀疏奖励;准确性奖励衡量最终答案与ground truth的语义匹配度,格式奖励确保每轮输出包含合规的思考过程与工具调用结构。

5、自动化数据合成

基于多模智能体搭建专属数据引擎,通过细粒度视觉锚点定位、多跳深度关联检索、闭环自洽性校验三大环节,自动挖掘跨网页实体逻辑并构建高复杂度推理链路,同时精准过滤幻觉数据,保障训练数据高质量。

SenseNova-MARS的应用场景:

1、体育竞技分析

精准识别赛车服等装备上的微小logo,自动检索关联企业、车手背景信息,可计算赛事时间差值,辅助赛事数据核实与专业分析。

2、商业情报挖掘

从峰会、展会照片中快速识别企业标志,一键搜集关联产品参数、企业融资信息,高效辅助行业竞争格局分析与商业决策。

3、新闻事实核查

针对高分辨率新闻图片,深度追溯事件背景、人物身份等关键信息,精准验证社交媒体流传信息的真实性,助力新闻事实核查。

4、学术研究与教育

自动分析论文图表数据并检索相关研究背景、文献资料,大幅加速学术文献综述、知识整合过程,提升科研与教学效率。

5、地理旅行探索

识别地标、路牌等场景微小细节,实时检索关联历史文化、地理信息,为用户提供沉浸式、智能化的地理旅行导览体验。

进入SenseNova-MARS官网入口

相关阅读文章

Kapi相机APP最新版

办公小浣熊APP最新版

Step3-VL-10B:10B参数开源多模态模型,以轻量架构比肩200B级性能

SenseNova-SI:商汤推出的开源空间智能大模型,专注于提升空间智能

LLaVA-OneVision-1.5:Lab开源的高性能低成本开源多模态模型

标签: AI多模态模型 AI自主推理模型 商汤科技

上面是“SenseNova-MARS:商汤科技开源的AI多模态自主推理模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。

当前网址:https://ipkd.cn/webs_29452.html

SenseNova-MARS(官网) 打不开万能教程:

1、微信/QQ内打不开:

把链接复制到系统浏览器再访问,微信/QQ内置页常自动拦截第三方站。

2、浏览器报“违规”:

部分国产浏览器的误拦截,换用系统原生浏览器即可:iPhone→Safari,安卓→Edge、Alook、X、Via 等轻量浏览器,均不会误屏蔽。

3、网络加载慢或空白:

先切换 4G/5G 与 Wi-Fi 对比;可以尝试使用网络加速器,将网络切换至更稳定的运营商。另外,部分网站可能需要科学上网才能访问,如Google、Hugging Face等一些国外服务器的网站(不推荐)。

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

当前位置: 首页 > AI项目和框架
Trae:新一代免费的AI编程工具

呱呱工具箱

一款免费的在线小工具,无需下载,打开即可使用!呱呱工具箱

在线育儿补贴计算器

快来看看你到底可以领到多少补贴!生活小工具
上一篇:
下一篇:
x 打工人ai神器