作 ,让Ll坦福团队新 盛赞斯
2025-07-04 07:52:13本站
斯坦福 Hazy Research 团队刚刚发布了一项重量级优化作用:他们将开源模型 Llama-3.2-1B 的盛赞斯坦前向推理整合成了一个“Megakernel”,并将低推迟推理才干面向了极限 。福团
在某些实时性极高的队新运用中,例如对话式 AI 和人类参加的作让交互式工作流中 ,大言语模型的盛赞斯坦呼应速度不只重要 ,乃至能够决议用户体会的福团胜败。
团队以为约束 LLM 推理速度的队新瓶颈其实是在内存加载的问题上,他们经过研讨发现,作让现有的盛赞斯坦开源推理引擎(如 vLLM 、SGLang),福团在极低推迟的队新单序列生成使命下,即使在尖端 GPU(如 H100)上 ,作让也只能运用不到 50% 的盛赞斯坦内存带宽。
这首要是福团由于每层 Transformer 模块被拆解成几十到上百个 CUDA kernel,每个 kernel 履行十分小的队新操作(比方 RMS norm 、注意力、MLP、Rotary Position Embedding 等) ,它们之间存在许多上下文切换与等候