Spaces:

pandora-s
/

Pixtral-12B-EXL2

Runtime error

App Files Files Community

pandora-s commited on Nov 11, 2024

Commit

5749a76

verified ·

1 Parent(s): 52c2787

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -8

app.py CHANGED Viewed

@@ -33,7 +33,6 @@ import requests
 from huggingface_hub import snapshot_download
-default_temperature = 0.15
 default_max_context = 16384
 default_max_output = 512
@@ -53,11 +52,9 @@ for model in available_models:
     dirs.update({model: snapshot_download(repo_id="turboderp/pixtral-12b-exl2", revision=model)})
 @spaces.GPU(duration=45)
-def run_inference(message, history, model_picked, temperature, context_size, max_output):
     if not model_picked:
         model_picked = default_bpw
-    if not temperature:
-        temperature = default_temperature
     if not context_size:
         context_size = default_max_context
     if not max_output:
@@ -128,7 +125,6 @@ def run_inference(message, history, model_picked, temperature, context_size, max
     output = generator.generate(
         prompt = prompt,
         max_new_tokens = max_output,
-        temperature = temperature,
         add_bos = True,
         encode_special_tokens = True,
         decode_special_tokens = True,
@@ -153,7 +149,6 @@ The current default settings are:
 - Model Quant: 4.0bpw
 - Context Size: 16k tokens
 - Max Output: 512 tokens
-- Temperature: 0.15
 You can select other quants and experiment!
@@ -166,8 +161,7 @@ examples = [
 ]
 drop = gr.Dropdown(available_models, label="EXL2 Quant", value=default_bpw)
-temperature_gradio = gr.Slider(minimum = 0, maximum = 1, label="Temperature", value=default_temperature, step = 0.05)
 context_size_gradio = gr.Slider(minimum = 256, maximum = 32768, label="Context Size", value=default_max_context, step = 1)
 output_length_gradio = gr.Slider(minimum = 1, maximum = 4096, label="Max Ouput Length", value=default_max_output, step = 1)
-demo = gr.ChatInterface(fn=run_inference, examples = examples, title="Pixtral 12B EXL2", multimodal=True, description=description, additional_inputs = [drop,  temperature_gradio, context_size_gradio, output_length_gradio])
 demo.queue().launch()

 from huggingface_hub import snapshot_download
 default_max_context = 16384
 default_max_output = 512
     dirs.update({model: snapshot_download(repo_id="turboderp/pixtral-12b-exl2", revision=model)})
 @spaces.GPU(duration=45)
+def run_inference(message, history, model_picked, context_size, max_output):
     if not model_picked:
         model_picked = default_bpw
     if not context_size:
         context_size = default_max_context
     if not max_output:
     output = generator.generate(
         prompt = prompt,
         max_new_tokens = max_output,
         add_bos = True,
         encode_special_tokens = True,
         decode_special_tokens = True,
 - Model Quant: 4.0bpw
 - Context Size: 16k tokens
 - Max Output: 512 tokens
 You can select other quants and experiment!
 ]
 drop = gr.Dropdown(available_models, label="EXL2 Quant", value=default_bpw)
 context_size_gradio = gr.Slider(minimum = 256, maximum = 32768, label="Context Size", value=default_max_context, step = 1)
 output_length_gradio = gr.Slider(minimum = 1, maximum = 4096, label="Max Ouput Length", value=default_max_output, step = 1)
+demo = gr.ChatInterface(fn=run_inference, examples = examples, title="Pixtral 12B EXL2", multimodal=True, description=description, additional_inputs = [drop, context_size_gradio, output_length_gradio])
 demo.queue().launch()