Spaces:

Daemontatox
/

Mawared-Support-Assistant

Running

Daemontatox commited on Jan 13

Commit

6c8aa67

verified ·

1 Parent(s): 632dfa0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -151,16 +151,16 @@ retriever = db.as_retriever(
 # )
-#llm = ChatOpenAI(
-   # base_url="https://openrouter.ai/api/v1",
-    #temperature=0.01,
-   # api_key=OPENAPI_KEY,
-    #model="google/gemini-2.0-flash-exp:free",
-    #max_tokens=None,
-    #timeout=None,
-  #  max_retries=3,
-#)
 # llm = ChatCerebras(
@@ -171,31 +171,6 @@ retriever = db.as_retriever(
-quantization_config = BitsAndBytesConfig(
-         load_in_4bit=True,
-         bnb_4bit_compute_dtype=torch.bfloat16,
-         bnb_4bit_quant_type="nf4",
-         bnb_4bit_use_double_quant=True
-)
-model_id = "meta-llama/Llama-3.2-3B-Instruct"
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(
-         model_id,
-         torch_dtype=torch.float16,
-         device_map="cuda",
-         attn_implementation="flash_attention_2",
-         #quantization_config=quantization_config
-)
-pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=8192 )
-llm = HuggingFacePipeline(pipeline=pipe)

 # )
+llm = ChatOpenAI(
+    base_url="https://openrouter.ai/api/v1",
+    temperature=0.01,
+    api_key=OPENAPI_KEY,
+    model="google/gemini-2.0-flash-exp:free",
+    max_tokens=None,
+    timeout=None,
+    max_retries=3,
+)
 # llm = ChatCerebras(