墨风如雪博客

你有没有这种感觉：现在的 AI 聊天机器人，像极了一个急于表现的抢答选手。你刚把问题抛出去，还没等气口喘匀，它就急吼吼地扔回来一段看似通顺实则经不起推敲的答案。这就是传统 RAG（检索增强生成）的通病——线性的、一次性的、浅尝辄止的。但谷歌刚刚发布的 Gemini Deep Research Agent，似乎打算终结这个“抢答时代”。这不仅仅是一个新模型，更像是谷歌在 AI 工业化进程中投下的一枚深水炸弹。基于 Gemini 3 Pro 构建，这个智能体不只是在回答问题，它在真正地“做研究”。更重要的是，谷歌…

2025年 12月 14日 0条评论 178点热度 0人点赞墨风如雪阅读全文

如果是长期关注大模型领域的朋友，大概都会有这样一种感觉：现在的AI虽然智商越来越高，但只要一开口说话，那种特有的“塑料感”还是很难消除。无论是语音的机械停顿，还是多模态交互时的“脑子慢半拍”，都时刻提醒着我们，对面只是个程序。但在2025年12月9日，这个局面似乎被阿里的Qwen团队撕开了一道口子。他们正式发布的Qwen3-Omni-Flash-2025-12-01，不再仅仅是在刷榜单上的分数（虽然分数确实也刷得很猛），而是实打实地盯着“像人一样交流”这件事死磕。作为一名在这个圈子里摸爬滚打的观察者，我想聊聊为…

2025年 12月 13日 0条评论 269点热度 0人点赞墨风如雪阅读全文

就在刚刚过去的12月11日，OpenAI给沉寂了一段时间的科技圈扔下了一枚重磅炸弹。如果你还记得上个月谷歌Gemini 3发布时带来的震撼，那你大概能理解OpenAI内部那种“红色警报”的紧迫感。GPT-5.2就是在这种高压环境下诞生的产物。这次没有那些虚头巴脑的炫技，OpenAI把所有的技能点都点在了一个最务实的方向上：让专业的人，干活更快。那个“每周少干10小时”的说法，到底靠不靠谱？这是大家最关心的噱头，但仔细看OpenAI甩出的数据，你会发现这不全是营销话术。以前我们用AI，更多是当百科全书或者是写…

2025年 12月 13日 0条评论 215点热度 0人点赞墨风如雪阅读全文

就在几天前，科技圈里悄悄发生了一件大事。如果你经常关注开源社区，大概率已经被面壁智能（OpenBMB）刷屏了。2025年12月10日，他们正式把自己压箱底的宝贝——语音生成基础模型 VoxCPM 更新到了 1.5 版本，并且直接开源。为什么要专门聊它？因为在很长一段时间里，开源界的TTS（文本转语音）模型总让人觉得差点意思：要么音质像个没有感情的朗读机器，要么生成速度慢到让你怀疑人生。但这次 VoxCPM 1.5 的出现，似乎就是为了打破这个僵局而来的。实话说，这次升级有点猛，咱们拆开来看看它到底强在哪儿。 …

2025年 12月 11日 0条评论 243点热度 0人点赞墨风如雪阅读全文

2025 年的年末，AI 编程圈子比以往任何时候都要热闹。就在大家都以为今年的大模型混战已经尘埃落定的时候，Mistral AI 在 12 月 9 日突然杀了个回马枪，发布了全新的 Devstral 2 编程模型家族，以及一个让人眼前一亮的终端工具 Mistral Vibe CLI。这次发布不仅仅是丢出两个权重文件那么简单，Mistral 显然是看准了现在最火的“Agentic Coding”（代理式编程）赛道，试图用开源方案去动一动闭源巨头们的奶酪。如果你是开发者，或者是对本地部署感兴趣的技术极客，这次更新里…

2025年 12月 11日 0条评论 179点热度 0人点赞墨风如雪阅读全文

2025年12月9日，科技圈发生了一件可能会被载入AI发展史的大事。当大部分人还在讨论哪家的大模型写诗更押韵时，智谱AI默默干了一件事：他们把自家的核心AI Agent模型——AutoGLM，正式开源了。这不仅仅是开源了一个模型，更像是把一把通往“真·智能手机”时代的钥匙，交到了每一个开发者，甚至是普通玩家手里。真的能看懂屏幕的AI 先别急着划走，我们得搞清楚AutoGLM和Siri、小爱同学到底有什么区别。传统的语音助手，本质上是在调用APP提供的接口。如果APP不开接口，助手就是个瞎子。但AutoGLM…

2025年 12月 9日 0条评论 221点热度 0人点赞墨风如雪阅读全文

2025年12月8日，智谱AI没有预告，直接甩出了一张王炸：GLM-4.6V系列多模态大模型正式上线并全量开源。如果你还在关注那些只会“看图说话”的模型，那这次你可能要刷新一下认知了。智谱这次的更新，不是简单的参数堆叠，而是试图解决多模态领域一个最尴尬的痛点——大模型不仅要有眼睛，还得有手。从“解说员”进化为“操作员” 过去我们用视觉模型（VLM），流程通常是这样的：扔一张图给模型，问它“这是什么”，模型回答“这是一个网页报错”。然后呢？然后就没有然后了。你得自己去写代码修复。 GLM-4.6V的核心突破在于“…

2025年 12月 8日 0条评论 326点热度 0人点赞墨风如雪阅读全文

2025年的AI圈，大家都卷累了。就在我们以为今年的大模型之战会以平淡收场时，谷歌在12月5日突然抛出了一枚重磅炸弹：Gemini 3 Deep Think模式正式公测。这不是一次普通的版本迭代。如果说之前的AI是在拼谁说话更快、谁的嘴皮子更利索，那么这一次，谷歌把赛道直接拉升到了“脑力”维度。那个曾经只会根据概率预测下一个单词的聊天机器人，现在学会了像人类专家一样，在此刻停顿下来，深吸一口气，开始推演。从“脱口而出”到“深思熟虑” 一直以来，大模型都有个通病：太快了。你问一个复杂的问题，它恨不得在0.5秒…

2025年 12月 7日 0条评论 149点热度 0人点赞墨风如雪阅读全文

说实话，在此之前，我对所谓的“数字人”一直是持保留态度的。你肯定也见过那种视频：一张僵硬的脸，嘴巴机械地一张一合，眼神空洞得像是在念稿子。那种东西，与其叫“数字人”，不如叫“对口型机器”。但在2025年12月4日，快手可灵AI把这个定义彻底改写了。可灵数字人2.0正式全量上线。这次更新最让我感到兴奋的，不是什么复杂的参数堆砌，而是一个非常感性的变化：它终于从“会说话”，进化到了“会表演”。给AI装上“导演思维” 以前的数字人技术，很多时候是听不懂人话的。你给它一段悲伤的音频，它可能还是瞪着大眼睛在那儿念词。 …

2025年 12月 6日 0条评论 203点热度 0人点赞墨风如雪阅读全文

如果你也是一名被Midjourney或是Stable Diffusion折磨过的AI创作者，那你一定经历过这种崩溃时刻：你好不容易“炼”出了一个完美的角色形象，光影绝佳，眼神到位。但当你试图让这个角色换个姿势，或者走进下一个场景时，由于AI那不可控的随机性，原来的主角突然“整容”了——要么五官乱飞，要么气质大变。为了保持角色一致性，我们不得不在此前花费大量时间去训练LoRA，或者在ControlNet里反复调试参数。但就在2025年12月初，字节跳动旗下的火山引擎发布了Seedream 4.5，并迅速在Libl…

2025年 12月 5日 0条评论 343点热度 0人点赞墨风如雪阅读全文

1…5 678 9…57

谷歌掀桌子：Gemini Deep Research 让深度思考进入白菜价时代

告别AI塑料感：阿里Qwen3-Omni-Flash要把大模型做成真人

GPT-5.2深夜炸场：为了让你每周少干10小时，OpenAI拼了

告别机械音！VoxCPM 1.5开源，这才是我们要的“最强嘴替”

Mistral 掀桌了：Devstral 2 与 Vibe CLI 重塑开源编程体验

今夜，智谱把“手机贾维斯”的源代码，扔到了GitHub上

智谱GLM-4.6V开源：不仅仅是“看懂”，它终于长出了“双手”

谷歌深夜炸场：月费250刀的Deep Think，这次真的学会了“慢思考”

快手可灵2.0炸场：告别面瘫机器人，你的JPG照片现在能拿奥斯卡了

告别抽卡玄学：Seedream 4.5 如何终结AI绘图的一致性噩梦