SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B、32B两种参数规模,为业内首个融合动态视觉推理与图文搜索的Agentic VLM。模型可像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预即可完成复杂多跳推理。在MMSearch、HR-MMSearch、FVQA等七大基准测试中,SenseNova-MARS-32B以69.74分的平均成绩,超越Gemini-3-Pro(69.06分)、GPT-5.2(67.64分),在开源模型中达到SOTA水平,成为AI从「能回答」向「能执行」跨越的重要标志。

SenseNova-MARS的主要功能:
1、多模态搜索推理:
深度融合图像与文本实现跨模态信息检索,支持动态调用工具,高效完成复杂知识多跳推理。
2、细粒度视觉分析:
兼容4K/8K超高清图像处理,可精准裁剪、识别占比不足5%的微小视觉细节,捕捉画面核心信息。
3、自主Agent执行:
具备智能体级自主任务规划能力,可无缝协同多工具形成执行闭环,无需人工干预解决复杂多模态问题。
SenseNova-MARS的技术原理:
1、双阶段训练架构:
第一阶段基于约3000个高质量多轮交互轨迹完成冷启动监督微调,让模型掌握基础工具使用模式;第二阶段采用BN-GSPO强化学习算法,通过组内与批次双重归一化稳定训练,优化多工具协同调用与推理决策能力。
2、BN-GSPO强化学习算法:
针对多工具场景中轨迹长度、奖励尺度差异导致的训练不稳定问题,先对同组样本做组归一化消除内部偏差,再对全批次做归一化平衡不同任务学习信号,实现多工具策略的稳定高效优化。
3、动作空间与工具设计:
每轮可自主选择文本搜索、图像搜索、图像裁剪、终止回答四大动作;图像裁剪通过归一化边界框坐标实现精准局部放大,所有工具调用均遵循标准化JSON格式,保障交互一致性。
4、奖励模型机制:
采用GPT-4o作为评判器,从答案准确性和格式合规性双维度提供稀疏奖励;准确性奖励衡量最终答案与ground truth的语义匹配度,格式奖励确保每轮输出包含合规的思考过程与工具调用结构。
5、自动化数据合成:
基于多模智能体搭建专属数据引擎,通过细粒度视觉锚点定位、多跳深度关联检索、闭环自洽性校验三大环节,自动挖掘跨网页实体逻辑并构建高复杂度推理链路,同时精准过滤幻觉数据,保障训练数据高质量。
SenseNova-MARS的应用场景:
1、体育竞技分析:
精准识别赛车服等装备上的微小logo,自动检索关联企业、车手背景信息,可计算赛事时间差值,辅助赛事数据核实与专业分析。
2、商业情报挖掘:
从峰会、展会照片中快速识别企业标志,一键搜集关联产品参数、企业融资信息,高效辅助行业竞争格局分析与商业决策。
3、新闻事实核查:
针对高分辨率新闻图片,深度追溯事件背景、人物身份等关键信息,精准验证社交媒体流传信息的真实性,助力新闻事实核查。
4、学术研究与教育:
自动分析论文图表数据并检索相关研究背景、文献资料,大幅加速学术文献综述、知识整合过程,提升科研与教学效率。
5、地理旅行探索:
识别地标、路牌等场景微小细节,实时检索关联历史文化、地理信息,为用户提供沉浸式、智能化的地理旅行导览体验。
相关阅读文章
Step3-VL-10B:10B参数开源多模态模型,以轻量架构比肩200B级性能
SenseNova-SI:商汤推出的开源空间智能大模型,专注于提升空间智能
LLaVA-OneVision-1.5:Lab开源的高性能低成本开源多模态模型
上面是“SenseNova-MARS:商汤科技开源的AI多模态自主推理模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_29452.html
SenseNova-MARS(官网) 打不开万能教程:
1、微信/QQ内打不开:
把链接复制到系统浏览器再访问,微信/QQ内置页常自动拦截第三方站。
2、浏览器报“违规”:
部分国产浏览器的误拦截,换用系统原生浏览器即可:iPhone→Safari,安卓→Edge、Alook、X、Via 等轻量浏览器,均不会误屏蔽。
3、网络加载慢或空白:
先切换 4G/5G 与 Wi-Fi 对比;可以尝试使用网络加速器,将网络切换至更稳定的运营商。另外,部分网站可能需要科学上网才能访问,如Google、Hugging Face等一些国外服务器的网站(不推荐)。
workflows工作流
一个漂亮的混血女孩ComfyUI工作流
一桌精致的美食,桌上几杯白葡萄酒
一座生动的点彩主义灯塔ComfyUI工作流
一只在森林里漫步的麋鹿ComfyUI工作流
一个美丽的女孩穿着花瓣做的衣服
树上挂着一只快乐香蕉ComfyUI工作流一
懂王特朗普3d漫画ComfyUI工作流
一位漂亮的女人坐在樱花树旁
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

js+css3做一个灯泡开灯关灯效果
一个包含老黄历、佛历、道历、星宿等数据的日历网站
日历设置每个月颜色都不一样
纯css翻书效果
jquery鼠标滑过图片边框特效(jquery.focus-follow插件)
利用css3做一个动态loading效果
黑客入侵效果代码
制作一个好玩的倒计时






