Spaces:

Daemontatox
/

Mawared-Support-Assistant

Sleeping

Daemontatox commited on Jan 13

Commit

64f4771

verified ·

1 Parent(s): 2c311d4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -171,31 +171,30 @@ retriever = db.as_retriever(
- quantization_config = BitsAndBytesConfig(
          load_in_8bit=True,
          bnb_8bit_compute_dtype=torch.bfloat16,
          bnb_8bit_quant_type="nf4",
          bnb_8bit_use_double_quant=True
-     )
-  model_id = "mistralai/Mistral-Nemo-Instruct-2407"
- tokenizer = AutoTokenizer.from_pretrained(model_id)
- model = AutoModelForCausalLM.from_pretrained(
          model_id,
          torch_dtype=torch.float16,
          device_map="cuda",
          attn_implementation="flash_attention_2",
          quantization_config=quantization_config
-     )
- pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=8192 )
- llm = HuggingFacePipeline(pipeline=pipe)

+quantization_config = BitsAndBytesConfig(
          load_in_8bit=True,
          bnb_8bit_compute_dtype=torch.bfloat16,
          bnb_8bit_quant_type="nf4",
          bnb_8bit_use_double_quant=True
+)
+model_id = "mistralai/Mistral-Nemo-Instruct-2407"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(
          model_id,
          torch_dtype=torch.float16,
          device_map="cuda",
          attn_implementation="flash_attention_2",
          quantization_config=quantization_config
+)
+pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=8192 )
+llm = HuggingFacePipeline(pipeline=pipe)