Spaces:

chegde
/

verithoughts-demo

Paused

chegde commited on May 27

Commit

d811871

verified ·

1 Parent(s): fb7c6fd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -63,25 +63,27 @@ def generate_response(user_message, history):
     with torch.no_grad():
         outputs = veri_model.generate(
             **inputs,
-            max_new_tokens=4096,
-            temperature=0.7,
             top_p=0.95,
             do_sample=True,
-            top_k=50,            # Top-k sampling for efficiency
  #           pad_token_id=veri_tokenizer.eos_token_id,
  #           eos_token_id=veri_tokenizer.eos_token_id,
-            use_cache=True,      # Enable KV caching for faster generation
-            repetition_penalty=1.1,  # Reduce repetition
-            length_penalty=1.0,
-            early_stopping=True,     # Stop early when appropriate
-            num_beams=1,            # Greedy search for speed
-            pad_token_id=veri_tokenizer.eos_token_id
         )
     response = veri_tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
     # Truncate at CODE END to remove repetitive content
-    response = truncate_at_code_end(response)
     if torch.cuda.is_available():

     with torch.no_grad():
         outputs = veri_model.generate(
             **inputs,
+            max_new_tokens=20000,
+            temperature=0.6,
             top_p=0.95,
             do_sample=True,
+            frequency_penalty = 0,
+            presence_penalty = 0
+ #           top_k=50,            # Top-k sampling for efficiency
  #           pad_token_id=veri_tokenizer.eos_token_id,
  #           eos_token_id=veri_tokenizer.eos_token_id,
+ #           use_cache=True,      # Enable KV caching for faster generation
+ #           repetition_penalty=1.1,  # Reduce repetition
+ #           length_penalty=1.0,
+ #           early_stopping=True,     # Stop early when appropriate
+ #           num_beams=1,            # Greedy search for speed
+ #           pad_token_id=veri_tokenizer.eos_token_id
         )
     response = veri_tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
     # Truncate at CODE END to remove repetitive content
+    # response = truncate_at_code_end(response)
     if torch.cuda.is_available():