运行channel INT8后sglang报错OOM

#3
by zhangneilc - opened

我们使用channel INT8之后sglang报错OOM,但是我们使用的是4台A100*40GB模组,总的显存是1280GB。

按理说671B的INT8的模型,不至于1280GB都没法加载。因为另外一台H20 1040GB的显存运行FP8的R1是正常的。

所以是不是config里面删除了量化,那么sglang加载DeepSeek-R1-Channel的时候,按照BF16的去分配从而导致了只是在启动阶段就报错OOM。

zhangneilc changed discussion title from 运行channel 16后sglang报错OOM to 运行channel INT8后sglang报错OOM

launch SGLang时加了--quantization w8a8_int8

Your need to confirm your account before you can post a new comment.

Sign up or log in to comment