RedHatAI
/

quantization

danieldk HF Staff commited on Apr 16

Commit

59b2fef

1 Parent(s): 32721c3

Sync capabilities with upstream

Files changed (1) hide show

build.toml CHANGED Viewed

@@ -11,7 +11,7 @@ src = [
 include = [ "." ]
 [kernel.cutlass_w8a8]
-cuda-capabilities = [ "7.5", "8.0", "8.6", "8.7", "8.9", "9.0", "9.0a" ]
 src = [
   "core/math.hpp",
   "cutlass_w8a8/common.hpp",
@@ -47,7 +47,7 @@ depends = [ "cutlass_3_6", "torch" ]
 [kernel.fp8_common]
 language = "cuda-hipify"
-cuda-capabilities = [ "7.5", "8.0", "8.6", "8.7", "8.9", "9.0", "9.0a" ]
 rocm-archs = [ "gfx906", "gfx908", "gfx90a", "gfx940", "gfx941", "gfx942", "gfx1030", "gfx1100", "gfx1101" ]
 src = [
   "fp8/amd/hip_float8.h",
@@ -61,7 +61,7 @@ include = [ "." ]
 depends = [ "torch" ]
 [kernel.fp8_marlin]
-cuda-capabilities = [ "8.0", "8.6", "8.7", "8.9", "9.0", "9.0a" ]
 src = [
   "fp8/fp8_marlin.cu",
   "gptq_marlin/marlin.cuh",
@@ -71,7 +71,7 @@ depends = [ "torch" ]
 [kernel.int8_common]
 language = "cuda-hipify"
-cuda-capabilities = [ "7.5", "8.0", "8.6", "8.7", "8.9", "9.0", "9.0a" ]
 rocm-archs = [ "gfx906", "gfx908", "gfx90a", "gfx940", "gfx941", "gfx942", "gfx1030", "gfx1100", "gfx1101" ]
 src = [
   "compressed_tensors/int8_quant_kernels.cu",
@@ -81,7 +81,7 @@ include = [ "." ]
 depends = [ "torch" ]
 [kernel.gptq_marlin]
-cuda-capabilities = [ "8.0", "8.6", "8.7", "8.9", "9.0", "9.0a" ]
 src = [
   "core/scalar_type.hpp",
   "gptq_marlin/awq_marlin_repack.cu",
@@ -94,7 +94,7 @@ include = [ "." ]
 depends = [ "torch" ]
 [kernel.marlin]
-cuda-capabilities = [ "8.0", "8.6", "8.7", "8.9", "9.0", "9.0a" ]
 src = [
   "core/scalar_type.hpp",
   "marlin/dense/common/base.h",

 include = [ "." ]
 [kernel.cutlass_w8a8]
+cuda-capabilities = [ "7.5", "8.0", "8.6", "8.7", "8.9", "9.0", "10.0", "10.1", "12.0" ]
 src = [
   "core/math.hpp",
   "cutlass_w8a8/common.hpp",
 [kernel.fp8_common]
 language = "cuda-hipify"
+cuda-capabilities = [ "7.0", "7.2", "7.5", "8.0", "8.6", "8.7", "8.9", "9.0", "10.0", "10.1", "12.0" ]
 rocm-archs = [ "gfx906", "gfx908", "gfx90a", "gfx940", "gfx941", "gfx942", "gfx1030", "gfx1100", "gfx1101" ]
 src = [
   "fp8/amd/hip_float8.h",
 depends = [ "torch" ]
 [kernel.fp8_marlin]
+cuda-capabilities = [ "8.0", "8.6", "8.7", "8.9", "9.0", "10.0", "10.1", "12.0" ]
 src = [
   "fp8/fp8_marlin.cu",
   "gptq_marlin/marlin.cuh",
 [kernel.int8_common]
 language = "cuda-hipify"
+cuda-capabilities = [ "7.5", "8.0", "8.6", "8.7", "8.9", "9.0", "10.0", "10.1", "12.0" ]
 rocm-archs = [ "gfx906", "gfx908", "gfx90a", "gfx940", "gfx941", "gfx942", "gfx1030", "gfx1100", "gfx1101" ]
 src = [
   "compressed_tensors/int8_quant_kernels.cu",
 depends = [ "torch" ]
 [kernel.gptq_marlin]
+cuda-capabilities = [ "8.0", "8.6", "8.7", "8.9", "9.0", "10.0", "10.1", "12.0" ]
 src = [
   "core/scalar_type.hpp",
   "gptq_marlin/awq_marlin_repack.cu",
 depends = [ "torch" ]
 [kernel.marlin]
+cuda-capabilities = [ "8.0", "8.6", "8.7", "8.9", "9.0", "10.0", "10.1", "12.0" ]
 src = [
   "core/scalar_type.hpp",
   "marlin/dense/common/base.h",