墨风如雪博客

  • 源码小店
  • 传家宝VPS
让AI使用变得如此简单
  1. 首页
  2. AI
  3. 正文

仅凭80亿参数就想挑战GPT-5.2?商汤这个开源“侦探”有点东西

2026年 1月 30日 27点热度 0人点赞 0条评论

2026年的开年大戏,比我想象中来得更早一些。

就在1月30日,当大家还在讨论GPT-5.2的逻辑推理是否已经触顶时,商汤科技悄无声息地丢出了一枚重磅炸弹:SenseNova-MARS。这不是又一个只会“看图说话”的多模态模型,而是一个能自主思考、会用工具、甚至有点“侦探直觉”的智能体。

最让圈内人咋舌的不是它的技术架构,而是那个刺眼的分数——在多模态搜索与推理的综合平均分上,它拿下了69.74分。

asdfsadfs

这个数字意味着什么?意味着它在纸面实力上,压过了谷歌的Gemini-3-Pro(69.06分),也超过了OpenAI的GPT-5.2(67.64分)。而且,它还是开源的。

不止是“看”,它学会了“查”

过去我们玩多模态模型(VLM),流程通常是这样的:你扔给AI一张图,问它“这是哪?”,AI依靠训练时记住的知识库,运气好能蒙对,运气不好就开始一本正经地胡说八道。

SenseNova-MARS的逻辑完全不同。它更像是一个随身携带了放大镜和百科全书的福尔摩斯。

商汤这次主打的概念叫“自主规划”与“多工具协作”。简单来说,当这个模型面对一个复杂问题时,它不再是靠“猜”,而是靠“查”。它能像人类一样,把一个大问题拆解成几个步骤:

  1. 观察:看到图里的物体。
  2. 规划:思考需要什么信息才能回答问题。
  3. 行动:调用工具去获取信息(比如切割图片、搜索网络)。
  4. 反馈:根据搜到的结果修正答案。

举个很现实的例子:给它一张F1赛车手的照片,问“这个车手所在的车队成立于哪一年?”。

普通模型可能会盯着赛车服上的模糊Logo发呆。但SenseNova-MARS会先调用图像裁剪工具,把那个只占画面不到5%的微小Logo切出来放大;识别清楚后,立刻启动图文搜索,去网上查这个Logo对应的品牌;确认品牌是某某车队后,再进行二次搜索查询该车队的成立年份。

这套“识别-查询-计算”的连招,就是它得分比GPT-5.2高的秘诀。特别是在HR-MMSearch(高清细节搜索)这项被誉为“AI界奥林匹克”的测试中,它拿到了54.43分,远超那些虽然参数巨大但只会“单次直觉推理”的闭源模型。

dsgdfgsfd

怎么练出“直觉”的?

要把AI训练成这样并不容易。这就好比教一个学生,光让他背书(预训练)是不够的,你得让他去实习,去解决实际问题。

商汤团队这次采用了一种双阶段的训练策略,非常有意思:

第一阶段叫“打基础”。他们利用自动化引擎合成了一大堆逻辑严密的高难度案例,像是给AI编了一套《侦探入门指南》,强制它学习基础的工具使用逻辑。

第二阶段叫“练实战”。这是拉开差距的关键。他们引入了强化学习,配合一种名为BN-GSPO的算法。这就好比把AI扔进模拟实战演练,做对了给奖励,做错了没糖吃。久而久之,模型就培养出了一种“工具使用直觉”。它不再是机械地调用工具,而是知道在什么情况下该搜图,什么情况下该搜字,甚至知道什么时候该停下来思考。

给开发者的一份大礼

对于我们在AI圈摸爬滚打的人来说,SenseNova-MARS最吸引人的点在于它的开源。

商汤这次非常实在,直接放出了8B(80亿参数)和32B(320亿参数)两个版本。

  • 8B版本:轻量级,适合显存有限的开发者,甚至有望在高端边缘设备上跑起来。
  • 32B版本:满血版,那个吊打GPT-5.2的成绩就是它跑出来的,适合需要极致推理能力的科研或商业项目。
fsadfasdf

这意味着,不管是做商业情报分析(自动从峰会照片里扒竞品信息),还是做复杂的学术图表验证,我们现在都有了一个SOTA(当前最优)级别的开源底座可用。模型权重、训练代码、甚至合成数据集,全都在Hugging Face和GitHub上公开了。

结语

SenseNova-MARS的出现,某种程度上标志着多模态AI正在从“感知时代”跨入“行动时代”。

以前我们惊叹于AI能“看懂”一张图,现在我们开始要求AI能“搞定”图里的事。虽然69.74分距离满分还有很长的路要走,但在开源领域,商汤确实把天花板向上狠狠顶了一截。

如果你手头有显卡,不妨去下载那个32B的版本跑跑看。说不定,你电脑里现在就住着一个比GPT-5.2还要精明的“数字侦探”。


如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

wx
  • 我的博客:https://blog.worldcodeing.com/
  • 传家宝VPS:https://www.legacyvps.com/
  • 源码小站:https://www.worldcodeing.com/
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: SenseNova-MARS 开源项目
最后更新:2026年 1月 30日

墨风如雪

一个热爱生活,热爱分享的程序员

打赏 点赞
< 上一篇
下一篇 >

墨风如雪

一个热爱生活,热爱分享的程序员

最新 热点 随机
最新 热点 随机
这回不仅是听个响:Mureka V8想让AI音乐直接上架Spotify 语音识别变天了:阿里Qwen3-ASR开源,Whisper迎来最强对手 仅凭80亿参数就想挑战GPT-5.2?商汤这个开源“侦探”有点东西 视频生成圈炸了:SkyReels-V3开源,三大功能硬刚商业模型 告别AI塑料感?通义Z-Image开源:6B参数要把“大众脸”送进历史堆 Kimi K2.5开源:自带百人众包团队,月之暗面重新定义生产力
这可能是最懂人话的AI:阿里MAI-UI让手机自动驾驶成真DeepSeek新年炸场:给失控的AI模型装上数学红绿灯微信抛出亿元算力包,小程序AI变现的最后一块拼图补齐了英伟达Rubin炸场:算力暴涨5倍,黄仁勋要让AI推理“白菜价”告别“手搓”场景:智元用LLM重构具身智能的“练功房”全球AGI第一股诞生:智谱02513.HK敲钟,中国AI的成人礼
AI圈炸锅了!Mistral Medium 3:性能 SOTA,成本打骨折,企业玩家的新宠? 重新安装功能强大的Linux服务器系统:一键重装脚本 告别抽卡玄学:Seedream 4.5 如何终结AI绘图的一致性噩梦 如何使用Java原子类实现自旋锁和读写锁? Suna 来了!这个能对话、能干活的开源 AI 智能体,也许是 Manus 的劲敌! Java中的构造器(构造方法)和this关键字
标签聚合
java 开源 大模型 算法 设计模式 教程 spring AI

COPYRIGHT © 2023 墨风如雪博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang