Spaces:

SimpleBerry
/

LLaMA-O1-Supervised-1129-Demo

Running

Di Zhang commited on Dec 2, 2024

Commit

4d271cd

verified ·

1 Parent(s): 669aad1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -47,28 +47,7 @@ def format_response(response):
     response = response.replace('<negative_rating>','👎')
 @spaces.GPU
-def generate_text_gpu(message, history, max_tokens=512, temperature=0.9, top_p=0.95):
-    input_text = llama_o1_template(message)
-    inputs = tokenizer(input_text, return_tensors="pt").to(accelerator.device)
-    # Generate the text with the model
-    output = model.generate(
-        **inputs,
-        max_length=max_tokens,
-        temperature=temperature,
-        top_p=top_p,
-        do_sample=True,
-    )
-    response = tokenizer.decode(output[0], skip_special_tokens=False)
-    yield response
 def generate_text(message, history, max_tokens=512, temperature=0.9, top_p=0.95):
-    try:
-        yield generate_text_gpu(message, history, max_tokens=512, temperature=0.9, top_p=0.95)
-        return
-    except Exception as e:
-        print(e)
     input_text = llama_o1_template(message)
     inputs = tokenizer(input_text, return_tensors="pt").to(accelerator.device)

     response = response.replace('<negative_rating>','👎')
 @spaces.GPU
 def generate_text(message, history, max_tokens=512, temperature=0.9, top_p=0.95):
     input_text = llama_o1_template(message)
     inputs = tokenizer(input_text, return_tensors="pt").to(accelerator.device)