你的位置: 滚球app官网 > 新闻资讯 >

开云kaiyun体育存在一些自然的高负载大家(expert)-滚球app官网

发布日期:2025-04-12 06:12    点击次数:141

开云kaiyun体育存在一些自然的高负载大家(expert)-滚球app官网

淌若某个GPU的盘算推算或通讯负载过重,将成为性能瓶颈,拖慢通盘系统。

IT之家 3 月 1 日音书,DeepSeek 官方本日在知乎发布《DeepSeek-V3 / R1 推理系统概览》一文,持重先容奈何使用大边界跨节点大家并行(Expert Parallelism / EP)来增大 batch size,奈何守密传输的耗时开云kaiyun体育,奈何进行负载平衡。

官方暗示,DeepSeek-V3 / R1 推理系统的优化观点是更大的蒙眬,更低的延长。

IT之家附 DeepSeek 提议的有策动如下:

大边界跨节点大家并行(Expert Parallelism / EP)

由于 DeepSeek-V3 / R1 的大家数目稠密,况且每层 256 个大家中仅激活其中 8 个。模子的高度寥落性决定了 DeepSeek 必须给与很大的 overall batch size,智商给每个大家提供迷漫的 expert batch size,从而末端更大的蒙眬、更低的延时。需要大边界跨节点大家并行(Expert Parallelism / EP)。

DeepSeek 给与多机多卡间的大家并行政策来达到以下观点:

Prefill:路由大家 EP32、MLA 和分享大家 DP32,一个部署单位是 4 节点,32 个冗余路由大家,每张卡 9 个路由大家和 1 个分享大家

Decode:路由大家 EP144、MLA 和分享大家 DP144,一个部署单位是 18 节点,32 个冗余路由大家,每张卡 2 个路由大家和 1 个分享大家

盘算推算通讯重迭

多机多卡的大家并行会引入相比大的通讯支出,因此使用双 batch 重迭来遮盖通讯支出,提升举座蒙眬。

对于 prefill 阶段,两个 batch 的盘算推算和通讯交错进行,一个 batch 在进行盘算推算的工夫不错去遮盖另一个 batch 的通讯支出;

Prefill 阶段的双 batch 重迭

对于 decode 阶段,不同阶段的本质时辰有所别离,因此将 attention 部分拆成了两个 stage,总共 5 个 stage 的活水线来末端盘算推算和通讯的重迭。

Decode 阶段的双 batch 重迭

对于更多双 batch 重迭的细节,可参考 profiling 数据 GitHub 仓库:https://github.com/deepseek-ai/profile-data。

尽可能地负载平衡

由于给与了很大边界的并行(包括数据并行和大家并行),淌若某个 GPU 的盘算推算或通讯负载过重,将成为性能瓶颈,拖慢通盘系统;同期其他 GPU 因为恭候而空转,变成举座操纵率着落。因此需尽可能为每个 GPU 分派平衡的盘算推算负载、通讯负载。

Prefill Load Balancer

中枢问题:不同数据并行(DP)实例上的肯求个数、长度不同,导致 core-attention 盘算推算量、dispatch 发送量也不同

优化观点:各 GPU 的盘算推算量尽量调换(core-attention 盘算推算负载平衡)、输入的 token 数目也尽量调换(dispatch 发送量负载平衡),幸免部分 GPU 措置时辰过长

Decode Load Balancer

中枢问题:不同数据并行(DP)实例上的肯求数目、长度不同,导致 core-attention 盘算推算量(与 KVCache 占用量关连)、dispatch 发送量不同

优化观点:各 GPU 的 KVCache 占用量尽量调换(core-attention 盘算推算负载平衡)、肯求数目尽量调换(dispatch 发送量负载平衡)

Expert-Parallel Load Balancer

中枢问题:对于给定 MoE 模子,存在一些自然的高负载大家(expert),导致不同 GPU 的大家盘算推算负载不平衡

优化观点:每个 GPU 上的大家盘算推算量平衡(即最小化系数 GPU 的 dispatch 承袭量的最大值)

参考架构图

线上系统的骨子统计数据

DeepSeek V3 和 R1 的系数工作均使用 H800 GPU,使用和测验一致的精度,即矩阵盘算推算和 dispatch 传输给与和测验一致的 FP8 门径,core-attention 盘算推算和 combine 传输给与和测验一致的 BF16,最猛经过保证了工作末端。另外,由于白日的工作负荷高,晚上的工作负荷低,因此 DeepSeek 末端了一套机制:

白日负荷高时用系数节点部署推理工作。

晚上负荷低时,减少推理节点,以用来作念磋磨和测验。、

在最近的 24 小时里(北京时辰 2025/02/27 12:00 至 2025/02/28 12:00),DeepSeek V3 和 R1 推理工作占用节点总和,峰值占用为 278 个节点,平均占用 226.75 个节点(每个节点为 8 个 H800 GPU)。假设 GPU 租借资本为 2 好意思金 / 小时,总资本为 $87,072 / 天。

在 24 小时统计时段内,DeepSeek V3 和 R1:

输入 token 总额为 608B,其中 342B tokens(56.3%)掷中 KVCache 硬盘缓存。

输出 token 总额为 168B。平均输出速度为 20~22 tps,平均每输出一个 token 的 KVCache 长度是 4989。

平均每台 H800 的蒙眬量为:对于 prefill 任务,输入蒙眬约 73.7k tokens / s(含缓存掷中);对于 decode 任务,输出蒙眬约 14.8k tokens / s。以上统计包括了网页、APP 和 API 的系数负载。淌若系数 tokens 一王人按照 DeepSeek R1 的订价盘算推算,表面上一天的总收入为 $562,027,资本利润率 545%。

“虽然咱们骨子上莫得这样多收入,因为 V3 的订价更低,同期收费工作只占了一部分,另外夜间还会有扣头。”

DeepSeek R1 的订价:$0.14 / 百万输入 tokens (缓存掷中)开云kaiyun体育,$0.55 / 百万输入 tokens (缓存未掷中),$2.19 / 百万输出 tokens。




相关资讯