墨风如雪博客

  • 源码小店
  • 传家宝VPS
让AI使用变得如此简单
  1. 首页
  2. AI
  3. 正文

智谱GLM-4.6V开源:不仅仅是“看懂”,它终于长出了“双手”

2025年 12月 8日 215点热度 0人点赞 0条评论

2025年12月8日,智谱AI没有预告,直接甩出了一张王炸:GLM-4.6V系列多模态大模型正式上线并全量开源。

如果你还在关注那些只会“看图说话”的模型,那这次你可能要刷新一下认知了。智谱这次的更新,不是简单的参数堆叠,而是试图解决多模态领域一个最尴尬的痛点——大模型不仅要有眼睛,还得有手。

iShot_2025-12-08_22.58.46

从“解说员”进化为“操作员”

过去我们用视觉模型(VLM),流程通常是这样的:扔一张图给模型,问它“这是什么”,模型回答“这是一个网页报错”。然后呢?然后就没有然后了。你得自己去写代码修复。

GLM-4.6V的核心突破在于“原生多模态工具调用”。这是什么概念?意味着图像、视频不再仅仅是需要被“翻译”成文字的累赘,它们直接成为了函数调用的参数。

模型可以直接读取你的屏幕截图,理解UI布局,然后调用工具去点击、输入、甚至直接生成前端代码并进行视觉修正。它不再是一个站在旁边指指点点的解说员,而是一个能真正下场干活的操作员。对于想做多模态Agent(智能体)的开发者来说,这简直是梦寐以求的基础设施。

iShot_2025-12-08_22.58.38

两款模型,丰俭由人

这次智谱的刀法依旧精准,推出了两款定位截然不同的模型:

GLM-4.6V (106B):这是给追求极致性能的玩家准备的。虽然参数量高达106B,但激活参数控制在12B(MoE架构),在云端高性能集群上,它能处理复杂的长文档和深度推理任务。根据官方数据,它的表现直接对标行业顶尖闭源模型。

GLM-4.6V-Flash (9B):这是给务实派准备的惊喜。9B的体量意味着它可以轻松部署在本地,甚至是一些端侧设备上。虽然是轻量版,但它在OCR、视频理解等高频场景下的表现并不含糊,甚至在这个尺寸下击败了Qwen3-VL-8B等竞品。

更重要的是,全系模型支持128k的超长上下文。什么概念?你可以一次性扔给它一本150页的技术文档,或者一段1小时的视频,它不仅能读完,还能在里面精准地找到你需要的细节。

iShot_2025-12-08_22.58.11

价格屠夫与开源诚意

技术再好,用不起也是白搭。智谱这次显然是想快速抢占市场。

相比上一代GLM-4.5V,新版API的价格直接腰斩了50%。输入1元/百万tokens,输出3元/百万tokens。而那个可以在本地跑得飞起的Flash版本,智谱直接宣布:免费。

在开源策略上,智谱也没有藏着掖着。权重、推理代码、示例工程全部推上了GitHub和Hugging Face。MIT协议,允许商业使用。这意味着,明天你可能就会看到一大波基于GLM-4.6V的垂直应用如雨后春笋般冒出来。

iShot_2025-12-08_22.57.16

写在最后

在2025年这个节点,单纯比拼OCR准确率或者识图能力的时代已经过去了。GLM-4.6V的出现,标志着多模态模型开始向“行动派”转型。

对于开发者而言,现在最大的问题不再是“模型能不能看懂这张图”,而是“既然它能看懂也能操作,我们能用它创造出什么样的新物种?”

大模型的下半场,拼的是落地,而GLM-4.6V,显然已经把梯子架好了。


如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

wx
  • 我的博客:https://blog.worldcodeing.com/
  • 传家宝VPS:https://www.legacyvps.com/
  • 源码小站:https://www.worldcodeing.com/
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: GLM-4.6V 智谱
最后更新:2025年 12月 8日

墨风如雪

一个热爱生活,热爱分享的程序员

打赏 点赞
< 上一篇
下一篇 >

墨风如雪

一个热爱生活,热爱分享的程序员

最新 热点 随机
最新 热点 随机
Kimi K2.5开源:自带百人众包团队,月之暗面重新定义生产力 告别修图软件的图层噩梦,腾讯混元3.0让AI学会了“思考” 参数仅100亿却硬刚千亿巨头:阶跃星辰Step3-VL-10B凭什么封神? 腾讯CodeBuddy 2.0:从“副驾驶”到“全栈合伙人”的进化 97毫秒极致响应!Qwen3-TTS开源,重新定义语音生成的“速度与激情” 2026开年王炸:文心5.0带着2.4万亿参数和原生全模态来了
闭源的墙角被挖塌了?GLM-4.7登顶开源王座,这回真不兴嘲讽仅需1GB内存!腾讯混元MT1.5开源,让手机翻译彻底告别云端依赖十天谈下二十亿美金:Meta豪掷千金买下的中国AI天才,到底凭什么?智谱ZCode上手:把Claude和Gemini装进桌面,编程还能这么玩?告别延迟!通义开源Fun-Audio-Chat,这才是我们要的语音AI这可能是最懂人话的AI:阿里MAI-UI让手机自动驾驶成真
Google 暂时停止 Gemini 2.5 Pro 免费 API 访问 AI圈炸锅!OpenAI发布o3和o4-mini:不止聪明,更能“看图思考”和自主干活了? AI视频革命奇点:Sora 2的数字幻境 纯血国产的逆袭:GLM-Image如何用昇腾芯片霸榜Hugging Face Meta ASR新篇章:当AI学会了全世界的语言 AI语音圈炸锅了!MiniMax Speech-02凭啥超越ElevenLabs和OpenAI,双榜登顶?
标签聚合
java 教程 spring 大模型 AI 算法 deepseek 设计模式

COPYRIGHT © 2023 墨风如雪博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang