HF-QA-Demo

Paused

MWilinski commited on Dec 6, 2023

Commit

721e663

1 Parent(s): 7b60eea

awq fix

Files changed (1) hide show

qa_engine/qa_engine.py CHANGED Viewed

@@ -66,7 +66,7 @@ class TransformersPipelineModel(LLM):
         tokenizer = AutoTokenizer.from_pretrained(model_id)
         if "AWQ" in model_id:
             model = AutoAWQForCausalLM.from_quantized(model_id, fuse_layers=True,
-                                          trust_remote_code=False, safetensors=True).model
         else:
             model = AutoModelForCausalLM.from_pretrained(
                 model_id,
@@ -80,6 +80,7 @@ class TransformersPipelineModel(LLM):
             'text-generation',
             model=model,
             tokenizer=tokenizer,
             device_map='auto',
             eos_token_id=tokenizer.eos_token_id,
             pad_token_id=tokenizer.eos_token_id,

         tokenizer = AutoTokenizer.from_pretrained(model_id)
         if "AWQ" in model_id:
             model = AutoAWQForCausalLM.from_quantized(model_id, fuse_layers=True,
+                                          trust_remote_code=False, safetensors=True, torch_dtype=torch.bfloat16)
         else:
             model = AutoModelForCausalLM.from_pretrained(
                 model_id,
             'text-generation',
             model=model,
             tokenizer=tokenizer,
+            torch_dtype=torch.bfloat16,
             device_map='auto',
             eos_token_id=tokenizer.eos_token_id,
             pad_token_id=tokenizer.eos_token_id,