Spaces:

Manel
/

Stoic

Sleeping

Manel commited on Oct 12, 2024

Commit

8c0109f

verified ·

1 Parent(s): 38348b6

update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -23,8 +23,9 @@ def load_model(model_name):
     if model_name=='llama':
         from langchain.llms import CTransformers
-        model =  CTransformers(model="TheBloke/Llama-2-7B-Chat-GGML", model_file = 'llama-2-7b-chat.ggmlv3.q2_K.bin',
-                    model_type='llama', gpu_layers=0, config={"context_length":2048,})
         tokenizer = None
     elif model_name=='mistral':
@@ -85,10 +86,11 @@ def wrap_model(model, tokenizer):
         model=model,
         tokenizer=tokenizer,
         task="text-generation",
-        temperature=0.2,
-        repetition_penalty=1.1,
-        #return_full_text=True,
-        max_new_tokens=1000,
         pad_token_id=2,
         do_sample=True)
     HF_pipeline = HuggingFacePipeline(pipeline=text_generation_pipeline)

     if model_name=='llama':
         from langchain.llms import CTransformers
+        model =  CTransformers(model="TheBloke/Llama-2-7B-Chat-GGML",
+                    model_file = 'llama-2-7b-chat.ggmlv3.q4_0.bin',
+                    model_type='llama', gpu_layers=0) # config={"context_length":2048,})
         tokenizer = None
     elif model_name=='mistral':
         model=model,
         tokenizer=tokenizer,
         task="text-generation",
+        temperature=0.5,
+        repetition_penalty=2.1,
+        no_repeat_ngram_size=3
+        max_new_tokens=400,
+        num_beams=2,
         pad_token_id=2,
         do_sample=True)
     HF_pipeline = HuggingFacePipeline(pipeline=text_generation_pipeline)