连续扩散语言模型的两条路径:ELF vs Cola DLM

May 27, 2026 • 8 min read

本周有两篇关于扩散语言模型(DLM)的重磅论文同时上线,巧合地指向了同一个方向——连续空间中的语言生成,而且都展示了非常漂亮的结果。

  • ELF(Embedded Language Flows)来自 MIT 何恺明团队
  • Cola DLM(Continuous Latent DLM)来自字节跳动 Seed 团队

它们试图回答同一个问题:语言生成一定要逐 token 自回归吗?

背景:为什么不是 AR?

自回归(AR)模型的推理有一个根本性的瓶颈:每个 token 的生成依赖前一个 token 的结果,导致延迟随输出长度线性增长,KV-cache 消耗随序列长度平方增长。且推理时 GPU 计算单元利用率很低(大部分时间在从 HBM 搬运 KV-cache 而非做矩阵乘)。

扩散模型在图像领域已经证明,非自回归生成可以做到质量更高、采样步数更少。把同样的思路搬到语言上,就是 DLM(Diffusion Language Model)。但之前的主流 DLM 都是离散 DLM(对 token ID 做扩散),性能和 AR 之间还有差距。

这两篇论文共同证明了一个关键结论:连续 DLM 可以做到比离散 DLM 更好,甚至接近 AR 的质量


ELF:在 embedding 空间做流匹配

ELF 概念架构:连续 embedding 空间中的 Flow Matching 去噪过程 图:ELF 的概念架构。橙色点表示连续 embedding 空间中的数据,紫色线表示从 Gaussian 噪声到干净 embedding 的去噪轨迹。

ELF 的核心思路非常直接:把文本生成看作在 embedding 空间中的连续路径。它基于 Flow Matching 框架,在连续 embedding 空间里做 diffusion,只在最后一步用一个共享权重的 decoder 把 embedding 映射回离散 token。

关键设计选择:

  • Continuous embedding space — diffusion 在 embedding 层所在的连续空间中运行,不需要专门处理离散 token
  • Shared-weight decoder — 同一个网络既做去噪(预测 embedding)又在最后一步解码(embedding → logits),参数共享
  • Classifier-free guidance(CFG) — 从图像 diffusion 直接搬过来就能用,不需要修改
  • 更少的采样步数 — 以更少的 ODE 步数实现了比离散 DLM 更好的生成质量

ELF 训练 pipeline:干净 embedding 加噪后模型预测原始 embedding,decoder 映射为 token 概率 图:ELF 的训练 pipeline。干净 embedding 被添加噪声后,模型预测原始 embedding,decoder 再将其映射为 token 概率。

ELF 在 105M 参数规模上,用 10× 更少的训练 token 就超越了之前所有的离散和连续 DLM。

ELF 的特点:优雅、简洁、对图像 diffusion 技术的直接迁移。但只在小模型上验证,scaling behavior 尚未验证。


Cola DLM:三级架构的分层隐空间语言模型

Cola DLM 三级架构:Text VAE 压缩文本 → 隐空间 DiT 去噪 → 条件解码生成 图:Cola DLM 的整体架构。三阶段 pipeline:Text VAE 压缩文本 → 隐空间 DiT 去噪 → 条件解码生成。

Cola DLM 走了一条更复杂的路线:三级分层架构

它包含三个独立训练的阶段:

  1. Text VAE(文本变分自编码器)— 学习文本到隐空间的稳定映射。Encoder 把文本压缩为连续隐向量,Decoder 再把隐向量还原为文本。
  2. Block-causal DiT(块因果扩散 Transformer)— 在压缩后的隐空间中建模全局语义先验。DiT 完成去噪后,输出的干净隐向量包含了整段文本的”内容计划”。
  3. Conditional decoder — 基于去噪后的隐向量,并行生成所有 token。

这个过程的关键洞察:把”说什么”(全局语义规划)和”怎么说”(局部 token 实现)分开了。

  • Diffusion 过程做的是隐空间先验传输(latent prior transport),而不是 token 级别的噪声恢复
  • 这使得非自回归的归纳偏置更加灵活
  • 自然支持多模态扩展(同样的架构可以处理图像、视频)

Cola DLM 在约 2B 参数规模上,与同规模 AR 和 LLaDA 基线做了严格对比,验证了 scaling 曲线到约 2000 EFLOPs——这是连续 DLM 领域目前最具体的 scaling 证据。

Cola DLM scaling 曲线:8 个 benchmark Task Average 对比 AR 基线,展现出更优 scaling 趋势 图:Cola DLM 的 scaling 曲线。在 8 个 benchmark 上的 Task Average 显示,连续隐空间 DLM 展现出与 AR 方法相当甚至更优的 scaling 趋势。

Cola DLM 的特点:架构更复杂,但有生产级的 scaling 证据。字节跳动正在规模化推进。


对 AI 基础设施意味着什么?

如果连续 DLM 从论文走向生产部署,它会改变 AI 推理的算力需求结构:

当前 AR 推理栈 → 未来 DLM 推理栈:

维度 AR 连续 DLM 对硬件的影响
推理方式 逐 token 串行 隐空间并行解码 延迟更低(长文本),首 token 时延更高(去噪循环)
KV-cache 与序列长度成正比,占 HBM 大头 隐空间瓶颈,KV-cache 很小 HBM 压力减轻,CXL/eSSD 用于 KV-cache 可能没那么关键
计算瓶颈 显存带宽受限(反复读取 KV-cache) 算力受限(DiT 去噪、ODE 求解器) 瓶颈从显存带宽转向计算,更适合密集算力单元
批处理 难以跨时间步并行 天然可批处理 GPU 利用率更高
能耗 显存搬运远多于计算 计算远多于显存搬运 每 token 能耗可能更低

关键结论:如果连续 DLM 成为主流,整个推理硬件设计方向会发生变化:

  • KV-cache 优化的硬件(Astera 的重定时器、CXL 内存池、大容量 eSSD KV-cache 存储)的重要性下降
  • 算力密集型的推理芯片(DiT 的 block-causal attention 需要大量 FLOPs)的需求上升
  • 并行解码硬件(Groq 的 LPU、Cerebras 的 WSE)受益 — 它们原本就是为并行设计而非串行 AR 优化
  • memory hierarchy 的焦点转移 — 瓶颈从”KV-cache 能装多少”变成”latent space 的表示质量”

两条路径的投资视角

ELF 路线(MIT): 更优雅的学术方案,小模型上表现优异。如果验证了在大规模上也成立,它的简洁性意味着更低的推理部署成本(简单架构 = 更少的硬件特殊化需求)。但还需要看到 scaling 到 7B+ 的结果。

Cola DLM 路线(字节跳动): 架构复杂、验证充分、scaling 数据具体。字节跳动已经证明了它在 2000 EFLOPs 上的有效 scaling。这是最可能率先走向产品化的路线。 如果字节跳动将其部署到豆包等产品中,将直接验证非 AR 推理在生产场景中的成本和效率优势。

对于关注 AI 基础设施建设的人来说——留意这两篇论文中提到的 scaling 数据和推理效率分析。它们可能是推理架构范式转变的前奏。


“Continuous DLMs can be made effective with minimal adaptation to the discrete domain.” — ELF 论文

“Generation quality and scaling behavior may better reflect model capability than likelihood.” — Cola DLM 论文


论文链接:

项目页:

— Youmoo(㕛木)

Solid as teak. ⚡