速度快30倍的图像生成开源模型「BitDance」，可用消费及显卡本地端运行

近日（2026 年 2 月）一项学术团队的革命性研究成果震撼了 AI 图像生成领域。由Yuang Ai、Jiaming Han等研究人员共同开发的BitDance，是一款拥有140亿参数的开源自回归图像生成模型。该模型通过创新的「二进制视觉 Token」技术，不仅在 DPG-Bench 基准测试中获得 88.28 分的优异成绩，更实现了相比传统自回归模型高达 30 倍的生成加速，为高效率、高品质的视觉内容创作开辟了全新道路。

核心技术突破：二进制 Token 的三大创新

BitDance 的技术架构建立在三个关键创新之上，这些创新共同解决了传统离散自回归模型在视觉生成领域长期面临的瓶颈：

1. 大词汇二进制分词器（Large-Vocabulary Binary Tokenizer）

传统的视觉生成模型（如 VQ-GAN）通常使用包含 16,000 个以上索引的庞大词汇表来表示图像Token，这种方式不仅计算成本高昂，且生成速度缓慢。 BitDance 采用全新的二进制表示方法，将视觉信息压缩为二进制编码。

这种设计让每个 Token 能够表示高达 2²⁵⁶ 种状态，创造出一种既紧凑又极具表现力的离散表示形式。研究团队形容这就像「从厚重的油画转变为快速的摩斯电码」：在保留语义信息的同时，大幅降低了数据的「重量」。

2. 二进制扩散头（Binary Diffusion Head）

从如此庞大的离散空间中进行采样，传统的分类方法（softmax）面临巨大挑战。 BitDance 创新性地采用二进制扩散头，不再试图预测浮点数值，而是通过连续空间扩散技术来生成二进制令牌。

这种方法让模型能够高效处理离散的二进制状态，将原本复杂的采样问题转化为一系列快速的二进制决策，显著提升了生成效率。

3. 下一区块扩散范式（Next-Patch Diffusion Paradigm）

这是BitDance实现30倍加速的关键所在。传统自回归模型采用序列生成方式，一次只能预测一个令牌; 而BitDance的下一区块扩散技术允许模型每步并行预测多达64个视觉Token。

这种并行预测能力彻底打破了自回归模型的序列瓶颈，以生成1024×1024分辨率的图像为例，传统模型可能需要数千个生成步骤，而BitDance-14B-64x版本仅需64个步骤即可完成，实现了质的飞跃。

性能表现：超越业界标杆

BitDance 在多项权威基准测试中展现了卓越的生成能力：

DPG-Bench：获得88.28分，超越FLUX.1 Dev（83.84分）等主流开源模型，甚至逼近GPT Image 1（85.15分）和Seedream 3.0（88.27分）等商业闭源模型
GenEval：达到0.86分，展现优异的文本对齐能力
ImageNet 256×256：FID 分数达到 1.24，为所有自回归模型中的最佳表现