墨风如雪博客

  • 源码小店
  • 传家宝VPS
QwQ
AI

不只靠“堆参数”:Qwen新突破ParScale,用“并行”让模型更聪明

大语言模型(LLM)的能力提升,似乎一直在遵循一条“越大越好”的定律——参数量越多,模型在各种任务上表现越强。然而,“大”模型带来了巨大的计算和显存开销,让许多研究者和开发者望而却步。近期,Qwen团队提出了一个令人耳目一新的解决方案:ParScale,它另辟蹊径,通过创新的“并行推理”方法,在不显著增加模型参数的情况下,显著提升模型性能。 ParScale:一种全新的扩展范式 传统上,提升模型能力主要依靠两种方式:一是增加参数量(模型变大),二是增加推理计算深度(比如多次迭代或思维链)。ParScale则引入了“…

2025年 5月 19日 0条评论 838点热度 0人点赞 墨风如雪 阅读全文
AI

风暴眼中的新王:阿里通义千问 Qwen2 登顶开源竞技场,Qwen2.5-Omni 或将掀起新浪潮?

嘿,各位 AI 圈的朋友们,最近是不是感觉大模型圈又热闹起来了?没错,就在大家还在讨论 Llama 3 有多香的时候,一个来自东方的“狠角色”悄悄地,然后是惊人地,爬上了那个让无数模型“瑟瑟发抖”的排行榜——LMSys Chatbot Arena! 主角是谁?阿里巴巴的通义千问 Qwen2,具体来说,是那个 720 亿参数的大家伙 Qwen2-72B-Instruct。 一、不只是“刷榜”,这次是“民心所向” 咱圈内人都知道,跑分是一回事,实际用起来怎么样是另一回事。LMSys Chatbot Arena 这地方,…

2025年 4月 6日 0条评论 542点热度 0人点赞 墨风如雪 阅读全文
AI

320亿参数逆袭6710亿!阿里QwQ-32B开源引爆AI效率革命:单卡运行、成本降60倍,国产芯片突围AGI

前言: 2025 年 3 月 10 日,阿里巴巴通义团队正式开源了推理模型 QwQ-32B,以 320 亿参数 的精悍体量实现了与 6710 亿参数 的 DeepSeek-R1 满血版性能比肩。这款模型不仅凭借极低的部署成本引发全球开发者热议,更通过强化学习(RL)的创新应用,标志着 AI 技术从“参数竞赛”向“效率革命”的历史性转变。以下,我们将从技术突破、性能表现、应用场景、行业影响、开源生态以及部署安装教程六个维度,全面剖析 QwQ-32B 的独特魅力。 一、技术突破:强化学习驱动的参数效率革命 QwQ-32…

2025年 3月 10日 0条评论 489点热度 0人点赞 墨风如雪 阅读全文

墨风如雪

一个热爱生活,热爱分享的程序员

最新 热点 随机
最新 热点 随机
1美元雇佣顶级架构师?MiniMax M2.5要把Agent价格打穿 那个霸榜的Pony Alpha现身了:智谱GLM-5硬刚Claude Opus 纯国产算力硬刚GPT?聊聊刚发布的讯飞星火X2 阿里Qwen-Image-2.0实测:终于有一款能听懂人话、写对汉字的AI了 别再等Sora了,字节Seedance 2.0才是AI视频的“导演时刻” Mistral 掀桌子:40亿参数跑本地,Voxtral 2 把延迟压进了200毫秒
字节跳动炸开AI新边界!开源多模态模型BAGEL:这颗“魔法贝果”有多能打? Java多线程编程中的ReentrantReadWriteLock详解 java 消息队列框架RocketMQ的(超详细总结) K8s常用命令和使用技巧(超详细) 360 FG-CLIP2:让AI拥有“火眼金睛”,刷新全球图文理解上限 DeepSeek技术全景解析:从入门到精通的完整指南
标签聚合
大模型 开源 算法 spring 教程 AI 设计模式 java

COPYRIGHT © 2023 墨风如雪博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang