大模型显存计算器

帮助您估算训练和推理所需的GPU显存

计算逻辑说明

1. 模型权重显存

参数量(B) * 1024³ * 量化位数 / 8 / 1024³ GB

例:7B模型 INT4量化 = 7 * 1024³ * 4/8 / 1024³ ≈ 3.6 GB

2. 中间激活值显存

• 隐藏层大小 = √(参数数量 / 层数 / 12) * 2

• 每层激活值 = batch_size * seq_length * hidden_size * 2字节(FP16)

• 总激活值 = 每层激活值 * 层数 / 1024³ GB

例:7B模型 2048长度 ≈ 28.0 GB

3. 训练额外显存

• 优化器状态(Adam) = 模型权重 * (32/量化位数) * 2

• 梯度 = 模型权重 * (32/量化位数)

• LoRA训练 = 基础显存 * 0.1(仅训练部分参数)

例:7B模型 INT4训练 ≈ 3.6 * (32/4) * 3 ≈ 86.4 GB

推理显存需求

0 GB

训练显存需求

0 GB

量化方式说明

GPTQ量化

• 一种基于近似的权重量化方法

• G4比FP16减少75%显存占用

• 精度损失较小,广泛应用于开源模型

GGUF量化

• llama.cpp使用的量化格式

• Q4_K_M: 4-bit量化,较好的精度平衡

• Q5_K_M: 5-bit量化,更高精度

• Q8_0: 8-bit量化,最小精度损失

AWQ量化

• 激活感知量化方法

• 4-bit量化with良好性能平衡

• 支持更快的推理速度

推荐显卡