速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行

近日(2026 年 2 月)一项学术团队的革命性研究成果震撼了 AI 图像生成领域。 由Yuang Ai、Jiaming Han等研究人员共同开发的BitDance,是一款拥有140亿参数的开源自回归图像生成模型。 该模型通过创新的「二进制视觉 Token」技术,不仅在 DPG-Bench 基准测试中获得 88.28 分的优异成绩,更实现了相比传统自回归模型高达 30 倍的生成加速,为高效率、高品质的视觉内容创作开辟了全新道路。
中国团队推出速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行 - 安卓手赚网

核心技术突破:二进制 Token 的三大创新

BitDance 的技术架构建立在三个关键创新之上,这些创新共同解决了传统离散自回归模型在视觉生成领域长期面临的瓶颈:

1. 大词汇二进制分词器(Large-Vocabulary Binary Tokenizer)

传统的视觉生成模型(如 VQ-GAN)通常使用包含 16,000 个以上索引的庞大词汇表来表示图像Token,这种方式不仅计算成本高昂,且生成速度缓慢。 BitDance 采用全新的二进制表示方法,将视觉信息压缩为二进制编码。
中国团队推出速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行 - 安卓手赚网

这种设计让每个 Token 能够表示高达 2256 种状态,创造出一种既紧凑又极具表现力的离散表示形式。 研究团队形容这就像「从厚重的油画转变为快速的摩斯电码」:在保留语义信息的同时,大幅降低了数据的「重量」。

2. 二进制扩散头(Binary Diffusion Head)

从如此庞大的离散空间中进行采样,传统的分类方法(softmax)面临巨大挑战。 BitDance 创新性地采用二进制扩散头,不再试图预测浮点数值,而是通过连续空间扩散技术来生成二进制令牌。

这种方法让模型能够高效处理离散的二进制状态,将原本复杂的采样问题转化为一系列快速的二进制决策,显著提升了生成效率。

3. 下一区块扩散范式(Next-Patch Diffusion Paradigm)

这是BitDance实现30倍加速的关键所在。 传统自回归模型采用序列生成方式,一次只能预测一个令牌; 而BitDance的下一区块扩散技术允许模型每步并行预测多达64个视觉Token

这种并行预测能力彻底打破了自回归模型的序列瓶颈,以生成1024×1024分辨率的图像为例,传统模型可能需要数千个生成步骤,而BitDance-14B-64x版本仅需64个步骤即可完成,实现了质的飞跃。

性能表现:超越业界标杆

BitDance 在多项权威基准测试中展现了卓越的生成能力:

  • DPG-Bench:获得88.28分,超越FLUX.1 Dev(83.84分)等主流开源模型,甚至逼近GPT Image 1(85.15分)和Seedream 3.0(88.27分)等商业闭源模型
  • GenEval:达到0.86分,展现优异的文本对齐能力
  • ImageNet 256×256:FID 分数达到 1.24,为所有自回归模型中的最佳表现
中国团队推出速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行 - 安卓手赚网

更值得注意的是,BitDance 在实现顶尖性能的同时,保持了极高的参数效率。 研究显示,使用下一区块扩散技术时,BitDance仅需2.6亿参数(260M),就能超越使用14亿参数(1.4B)的并行自回归模型,同时实现8.7倍的速度提升。

根据官方公布的范例,该模型可生成品质相当优异且风格各异(写实、动漫… )的图片,连中文在内的文字也能正成生成:
中国团队推出速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行 - 安卓手赚网

官方范例:
中国团队推出速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行 - 安卓手赚网
中国团队推出速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行 - 安卓手赚网

中国团队推出速度快30倍的图像生成开源模型「BitDance」,可用消费及显卡本地端运行 - 安卓手赚网

开源生态:Apache 2.0 授权助力社群发展

BitDance 采用 Apache 2.0 开源授权,研究团队已在 Hugging Face 和 GitHub 上完整释出了模型权重、训练代码及推论范例。 目前提供两个主要版本:

  • BitDance-14B-64x:每步预测64个令牌,生成1024×1024图像仅需64步
  • BitDance-14B-16x:每步预测16个令牌,生成1024×1024图像需256步,支持512px和1024px分辨率

开发者可在标准消费级GPU(如RTX 3090/4090)上在本地端部署此140亿参数完整模型,这得益于其二进制Token带来的内存带宽优化。

产业意义:边缘 AI 的新曙光

BitDance 的出现标志着 AI 效率革命的新阶段。 当业界正致力于将大语言模型的权重量化至 1-bit(如 Microsoft 的 BitNet b1.58),BitDance 则将这种「精简哲学」延伸至数据表示层:视觉 Token 本身。

这种二进制原生设计大幅降低了内存带宽需求,不仅让云端服务器运算成本显著下降,更为在笔记本电脑甚至智能手机上运行高质量多模态 AI 代理奠定了基础。 当 1-bit 权重、二进制令牌与稀疏注意力机制结合,我们或许正在见证下一代 AI 架构的雏形。

结语

BitDance 不仅是一款性能卓越的图像生成模型,更是对传统自回归视觉生成范式的根本性反思。 通过拥抱二进制表示的简洁性,研究团队证明了「标准」方法可能存在的巨大效率浪费,并开启了一个无需专用硬件即可实现极速生成的新时代。

对于开发者而言,BitDance 的代码已经开放、模型已可下载、速度提升真实可测。 这场由二进制 Token 驱动的视觉生成革命,才刚刚开始,有兴趣与能力的朋友可以自行下载测试。

(0)
MobileGuru007MobileGuru007

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注