现在 AI 不只是大模型越来越强,小模型也逐渐拉近距离,稍早阿里巴巴正式推出全新 Qwen3.5 小模型全系列,让不少人都惊艳,连马斯克本人都在下方留言称赞「智慧密度惊人」。 这次新模型的重点在「更多智能、更少运算」,其中90亿参数的Qwen3.5-9B模型在多项第三方基准测试中,接近甚至超越参数为13倍以上的OpenAI GPT-OSS-120B模型,即便在一般的笔记本也能顺畅运行。

这次推出的 Qwen 3.5 小模型系列共有四款开放权重模型,分别为:
- Qwen3.5-0.8B(8 亿参数)
- Qwen3.5-2B(20 亿参数)
- Qwen3.5-4B(40 亿参数)
- Qwen3.5-9B(90 亿参数)
技术层面部分,Qwen3.5系列采用混合注意力架构,结合Gated DeltaNet线性注意力机制与Gated Attention,每8个区块中以3:1比例交替使用,能有效提升推理吞吐量并降低内存消耗。 更重要是,这四款模型皆为原生支持多模态,能同处理文字、图片和视频。 原生上下文长度为 262,144 个 tokens,4B 和 9B 可扩充到 1,010,000 tokens。
也具备 Agent 能力,原生支持工具呼叫、多轮思考模式与视觉代理任务,如:桌面作、文件解析或自主程式码生成,经强化学习优化后适合建构轻量级智能代理。
在实际性能测试部分,Qwen3.5-9B 可说表现突出。
研究生级科学推理基准的GPQA Diamond,9B得分为81.7,高于GPT-OSS-120B的80.1,多语言知识基准MMMLU达81.2也同样领先。 视觉推理部分,MMMU-Pro 得分 70.1,超越 Gemini 2.5 Flash-Lite(59.7)与前代 Qwen3-VL-30B-A3B(63.0);视频理解 Video-MME(含字幕)得分 84.5;数学基准 HMMT 得分 83.2;文件处理 OmniDocBench 得分 87.7:
与上一代Qwen3系列相比,Qwen3.5-4B效能已接近前代80BA3B模型,而9B版本在GPQA、IFEval、长上下文LongBench v2等项目,更是全面超越前代大3倍的Qwen3-30B,由此可见真的猛:
以下是各模型适合到硬件环境:
- 0.8B与2B版本内存需求极低,可在智能手机、边缘装置或IoT设备上运行。
- 4B 版本可在标准笔记本、M1 MacBook Air、甚至是网页浏览器中流畅执行,适合用在轻量的代理应用。
- 9B 版本经 4-bit 量化后,可在搭载 12 至 24GB 内存的 GPU 或一般笔记本上运行。
对于有兴趣的人,可 Hugging Face 或阿里巴巴 ModelScope 下载使用。
随着阿里巴巴 Qwen3.5 小模型系列的推出,也打破「参数越大越强」的传统思维,证明通过混合架构、多模态原生设计与强化学习,小型模型也能提供顶尖推理、视觉理解与 Agent 能力,很推荐大家玩玩看。