智谱AI掀桌子了：那个会“思考”的视觉模型，9B参数硬刚72B巨兽

2025年 7月 2日 287点热度 0人点赞 0条评论

朋友们，AI圈又地震了！

就在我们还在讨论哪个模型能多看几页PDF、多认几张图的时候，智谱AI（Zhipu AI）直接甩出王炸——GLM-4.1V-Thinking。注意这个后缀，“Thinking”，品出点不一样的味道了吗？

没错，这货不再满足于“看见”，它要的是“思考”。

我们见惯了会“看”的AI，给它一张图，它告诉你“这是一只猫”。但如果你问它：“这只猫为什么看起来很警惕？它下一步可能要去哪？”大部分模型就得开始“自由发挥”了。

GLM-4.1V-Thinking要解决的就是这个。它内置了一套骚操作——“思维链”（Chain-of-Thought）推理机制。简单来说，它在处理复杂视觉问题时，会像一个学霸解题一样，在脑子里一步步分析、推导，而不是直接蹦出个答案。

比如，看到一张复杂的物理实验图，它会先识别器材，再分析连接方式，推导物理原理，最后预测实验结果。每一步都有迹可循，这让它的回答不仅更准，而且逻辑清晰，有种“智商在线”的踏实感。

光说不练假把式。最让我热血沸腾的，是它的性能数据。

智谱这次开源的GLM-4.1V-9B-Thinking，参数量只有9B。在如今这个动辄千亿参数的“军备竞赛”时代，这算是个轻量级选手。但就是这个“小家伙”，在28项权威的多模态评测中，有18项的成绩持平甚至超越了72B参数的Qwen-2.5-VL！

这什么概念？这简直是AI界的“轻量级拳王”跨级别挑战，还把重量级选手打得有来有回。它用硬核实力告诉我们：参数大小不是唯一的神，聪明的“大脑结构”才是王道。

说了这么多，这东西到底能干嘛？应用场景简直不要太酷：

最关键的是，这一切的背后，是超长的64K上下文和对4K高清图像的支持。这意味着无论你的“投喂”的材料多复杂、多高清，它都能从容应对。

最后，也是最重要的一点：智谱把这套模型给开源了！

这已经不是“交个朋友”，这简直是把压箱底的宝贝拿出来，邀请整个社区一起“搞事情”。

总而言之，GLM-4.1V-Thinking的发布，就像在多模态领域投下了一颗深水炸弹。它不仅秀出了惊人的技术实力，更用开源和生态扶持的姿态，向所有开发者发出了“黄金时代，即刻启程”的邀请函。

好了，不说了，我得赶紧去GitHub上把玩一下这个“会思考的眼睛”了。兄弟们，冲！

如果你也对最新的AI信息感兴趣或者有疑问都可以加入我的大家庭第一时间分享最新AI资讯、工具、教程、文档欢迎你的加入！！！😉😉😉

公众号：墨风如雪小站

本作品采用知识共享署名 4.0 国际许可协议进行许可