Smart_LLM

Running on Zero

Daemontatox commited on Feb 15

Commit

32359f6

verified ·

1 Parent(s): afeb266

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,10 +32,10 @@ class StopOnTokens(StoppingCriteria):
 def initialize_model():
     quantization_config = BitsAndBytesConfig(
-        load_in_8bit=True,
-        bnb_8bit_compute_dtype=torch.bfloat16,
-        bnb_8bit_quant_type="nf4",
-        bnb_8bit_use_double_quant=True,
     )
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
@@ -47,7 +47,7 @@ def initialize_model():
         quantization_config=quantization_config,
         torch_dtype=torch.bfloat16,
         trust_remote_code=True
-    )
     return model, tokenizer

 def initialize_model():
     quantization_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_compute_dtype=torch.bfloat16,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_use_double_quant=True,
     )
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
         quantization_config=quantization_config,
         torch_dtype=torch.bfloat16,
         trust_remote_code=True
+    ).to("cuda")
     return model, tokenizer