墨风如雪博客

  • 源码小店
  • 传家宝VPS
让AI使用变得如此简单
  1. 首页
  2. AI
  3. 正文

小红书亮剑:这匹开源黑马,敢和 Gemini 掰手腕了

2025年 8月 6日 257点热度 0人点赞 0条评论

在多模态AI的牌桌上,玩家们一直仰望着 Gemini 和 GPT-4o 这样的闭源巨头。开源社区虽然英雄辈出,但总感觉在最顶尖的视觉语言理解上,还差着那么一口气。直到 2025 年 8 月 6 日,一个意想不到的玩家——小红书 Hi Lab,带着他们的 dots.vlm1,直接掀了桌子。

这不仅仅是一次常规的模型开源,更像是一份战书。它的核心信息很简单:我们来了,而且我们能打。

GxqV9iGbMAA8i32

王炸组合:自研视觉心脏 + 顶级语言大脑

忘掉那些在现有模型上修修补补的“微调”方案吧。小红书这次玩得很大,他们为 dots.vlm1 打造了一颗全新的“视觉心脏”——一个从零开始训练的 12亿参数 NaViT 视觉编码器。

“从零训练”这四个字,在圈内意味着巨大的投入和底气。它摆脱了对现有视觉模型的依赖,意味着感知能力的上限完全由自己定义。更妙的是,它原生支持动态分辨率,不再需要把所有图片都粗暴地裁剪成一个尺寸,无论是高清长图还是奇形怪状的图表,都能尽收眼底。

而与这颗强大心脏匹配的,是久经考验的 DeepSeek-V3 语言模型。这相当于给一辆底盘扎实的越野车,装上了一台性能猛兽的引擎。视觉的深度感知,加上文本的强大推理,双剑合璧。

afe149b2-a7ce-4bbc-aec7-e8e2126fd1b3

不走寻常路:用“结构化”数据喂出的刁钻胃口

如果说模型架构是骨骼,那训练数据就是血肉。dots.vlm1 的强大,很大程度上源于它“挑食”的训练数据。

除了常规的图文配对,Hi Lab 团队给它“喂”了海量的结构化图片。这意味着什么?它看的不再仅仅是“一只猫在草地上”,而是复杂的科研图表、密密麻麻的商业报表和技术文档。通过这种特训,dots.vlm1 练就了一双“火眼金睛”,能精准洞察图片中的逻辑关系和结构信息,而不是仅仅看个热闹。

这种对高质量、结构化数据的执着,让它在处理现实世界中最棘手的视觉任务时,表现得游刃有余。

实力如何?数据不说谎

空谈架构和数据都是虚的,我们直接看战绩。

在 MMMU(多学科理解)、MathVista(数学推理)这类公认的高难度综合基准上,dots.vlm1 的表现已经杀到了闭源顶流 Gemini 2.5 Pro 的门前,差距微乎其微。特别是在 ChartQA(图表问答)这类任务上,它甚至实现了反超。

这意味着,当其他开源模型还在努力理解“图片里有什么”时,dots.vlm1 已经能和你讨论“这张财务报表第三季度的同比增长率是多少”了。同时,它的文本能力也完全看齐 DeepSeek 主力模型,写代码、解数学题都不在话下。

GxrC4nzawAQR5bO

开源的终极形态:给你全套“施工图纸”

小红书这次的开源,不是扔出一个模型文件就完事了。他们几乎是把整个项目的“施工图纸”都交给了社区:从视觉预训练,到多模态预训练,再到最终的指令微调,全套方案、中间模型、训练细节一并放出。

这背后传递的信号是:我们不仅做出了一个好模型,我们还希望整个社区都能复现、借鉴、并超越它。这才是开源精神最纯粹的体现。

总而言之,dots.vlm1 的出现,不是在开源多模态领域里添了一块砖,而是直接立起了一座新的灯塔。它证明了通过创新的架构设计和高质量的数据工程,开源模型完全有能力与闭源巨头一较高下。

对于开发者和研究者来说,一个强大、可复现、商业友好的多模态基础设施已经摆在面前。接下来,就看大家能用它创造出怎样的新物种了。

d1b35c71-fb5e-4c08-b6c8-2eb197cb94d4

如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

wx
  • 我的博客:https://blog.worldcodeing.com/
  • 传家宝VPS:https://www.legacyvps.com/
  • 源码小站:https://www.worldcodeing.com/
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: AI 小红书
最后更新:2025年 8月 6日

墨风如雪

一个热爱生活,热爱分享的程序员

打赏 点赞
< 上一篇
下一篇 >

文章评论

您需要 登录 之后才可以评论

墨风如雪

一个热爱生活,热爱分享的程序员

最新 热点 随机
最新 热点 随机
1美元雇佣顶级架构师?MiniMax M2.5要把Agent价格打穿 那个霸榜的Pony Alpha现身了:智谱GLM-5硬刚Claude Opus 纯国产算力硬刚GPT?聊聊刚发布的讯飞星火X2 阿里Qwen-Image-2.0实测:终于有一款能听懂人话、写对汉字的AI了 别再等Sora了,字节Seedance 2.0才是AI视频的“导演时刻” Mistral 掀桌子:40亿参数跑本地,Voxtral 2 把延迟压进了200毫秒
告别修图软件的图层噩梦,腾讯混元3.0让AI学会了“思考”Kimi K2.5开源:自带百人众包团队,月之暗面重新定义生产力告别AI塑料感?通义Z-Image开源:6B参数要把“大众脸”送进历史堆视频生成圈炸了:SkyReels-V3开源,三大功能硬刚商业模型仅凭80亿参数就想挑战GPT-5.2?商汤这个开源“侦探”有点东西语音识别变天了:阿里Qwen3-ASR开源,Whisper迎来最强对手
一张3090就能跑!腾讯混元A13B,这是给AI圈的降维打击? 告别低效!Claude Code:你的代码库来了个“全能管家” 不同的角度看待问题 ArangoDB你会使用吗? ComfyUI“打通任督二脉”:直接调用Veo2、GPT-4o等65大模型!一键串联你的AI工作流 KubeKey快速上手指南:一步步教你如何使用 Google Skills:AI时代的学习革命,你准备好了吗?
标签聚合
算法 教程 开源 AI spring java 设计模式 大模型

COPYRIGHT © 2023 墨风如雪博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang