运行channel INT8后sglang报错OOM
#3
by
zhangneilc
- opened
我们使用channel INT8之后sglang报错OOM,但是我们使用的是4台A100*40GB模组,总的显存是1280GB。
按理说671B的INT8的模型,不至于1280GB都没法加载。因为另外一台H20 1040GB的显存运行FP8的R1是正常的。
所以是不是config里面删除了量化,那么sglang加载DeepSeek-R1-Channel的时候,按照BF16的去分配从而导致了只是在启动阶段就报错OOM。
zhangneilc
changed discussion title from
运行channel 16后sglang报错OOM
to 运行channel INT8后sglang报错OOM
launch SGLang时加了--quantization w8a8_int8
吗