Spaces:

LPX55
/

Kontext-Multi_Lightning_4bit-nf4

Runtime error

LPX55 commited on Jul 8

Commit

541e5d2

verified ·

1 Parent(s): 8c3a28b

Update app_kontext.py

Files changed (1) hide show

app_kontext.py CHANGED Viewed

@@ -41,17 +41,17 @@ logger = logging.getLogger(__name__)
 # TESTING TWO QUANTIZATION METHODS
 # 1) If FP8 is supported; `torchao` for quantization
-quant_config = PipelineQuantizationConfig(
-    quant_backend="torchao",
-    quant_kwargs={"quant_type": "float8dq_e4m3_row"},
-    components_to_quantize=["transformer"]
-)
-# 2) Otherwise, standard 4-bit quantization with bitsandbytes
 # quant_config = PipelineQuantizationConfig(
-#     quant_backend="bitsandbytes_4bit",
-#     quant_kwargs={"load_in_4bit": True, "bnb_4bit_compute_dtype": torch.bfloat16, "bnb_4bit_quant_type": "nf4"},
 #     components_to_quantize=["transformer"]
 # )
 try:
     # Set max memory usage for ZeroGPU

 # TESTING TWO QUANTIZATION METHODS
 # 1) If FP8 is supported; `torchao` for quantization
 # quant_config = PipelineQuantizationConfig(
+#     quant_backend="torchao",
+#     quant_kwargs={"quant_type": "float8dq_e4m3_row"},
 #     components_to_quantize=["transformer"]
 # )
+# 2) Otherwise, standard 4-bit quantization with bitsandbytes
+quant_config = PipelineQuantizationConfig(
+    quant_backend="bitsandbytes_4bit",
+    quant_kwargs={"load_in_4bit": True, "bnb_4bit_compute_dtype": torch.bfloat16, "bnb_4bit_quant_type": "nf4"},
+    components_to_quantize=["transformer"]
+)
 try:
     # Set max memory usage for ZeroGPU