Spaces:

MaxLSB
/

LeCarnet-Demo

Sleeping

App Files Files Community

MaxLSB commited on Jun 20

Commit

9be0b0d

verified ·

1 Parent(s): 63d4a2a

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -10

app.py CHANGED Viewed

@@ -23,15 +23,16 @@ if not hf_token:
 tokenizer = None
 model = None
-def load_model(model_name):
     """Loads the specified model and tokenizer."""
     global tokenizer, model
     if model_name not in MODEL_PATHS:
         raise ValueError(f"Unknown model: {model_name}")
     print(f"Loading {model_name}...")
-    tokenizer = AutoTokenizer.from_pretrained(MODEL_PATHS[model_name], token=hf_token)
-    model = AutoModelForCausalLM.from_pretrained(MODEL_PATHS[model_name], token=hf_token)
     model.eval()
     print(f"{model_name} loaded.")
@@ -42,23 +43,29 @@ load_model(initial_model)
 def respond(
     prompt: str,
-    chat_history,
     model_choice: str,
     max_tokens: int,
     temperature: float,
     top_p: float,
 ):
     global tokenizer, model
     # Reload model if it's not the currently loaded one
-    if model.config._name_or_path != MODEL_PATHS[model_choice]:
         load_model(model_choice)
     inputs = tokenizer(prompt, return_tensors="pt")
     streamer = TextIteratorStreamer(
         tokenizer,
         skip_prompt=False,
         skip_special_tokens=True,
     )
     generate_kwargs = dict(
         **inputs,
         streamer=streamer,
@@ -68,15 +75,22 @@ def respond(
         top_p=top_p,
         eos_token_id=tokenizer.eos_token_id,
     )
     thread = threading.Thread(target=model.generate, kwargs=generate_kwargs)
     thread.start()
     accumulated = ""
     for new_text in streamer:
         accumulated += new_text
         yield accumulated
-with gr.Blocks(css=css, fill_width=True) as demo:
     with gr.Row():
         with gr.Column(scale=1):
             model_dropdown = gr.Dropdown(
@@ -86,13 +100,13 @@ with gr.Blocks(css=css, fill_width=True) as demo:
                 interactive=True
             )
             max_tokens_slider = gr.Slider(
-                1, 512, value=512, step=1, label="Max new tokens"
             )
             temperature_slider = gr.Slider(
-                0.1, 2.0, value=0.7, step=0.1, label="Temperature"
             )
             top_p_slider = gr.Slider(
-                0.1, 1.0, value=0.9, step=0.05, label="Top‑p"
             )
         with gr.Column(scale=3):
@@ -116,4 +130,4 @@ with gr.Blocks(css=css, fill_width=True) as demo:
 if __name__ == "__main__":
     demo.queue()
-    demo.launch()

 tokenizer = None
 model = None
+def load_model(model_name: str):
     """Loads the specified model and tokenizer."""
     global tokenizer, model
     if model_name not in MODEL_PATHS:
         raise ValueError(f"Unknown model: {model_name}")
     print(f"Loading {model_name}...")
+    repo = MODEL_PATHS[model_name]
+    tokenizer = AutoTokenizer.from_pretrained(repo, use_auth_token=hf_token)
+    model = AutoModelForCausalLM.from_pretrained(repo, use_auth_token=hf_token)
     model.eval()
     print(f"{model_name} loaded.")
 def respond(
     prompt: str,
+    chat_history: list,
     model_choice: str,
     max_tokens: int,
     temperature: float,
     top_p: float,
 ):
     global tokenizer, model
     # Reload model if it's not the currently loaded one
+    current_path = getattr(model.config, "_name_or_path", None)
+    desired_path = MODEL_PATHS[model_choice]
+    if current_path != desired_path:
         load_model(model_choice)
+    # Tokenize
     inputs = tokenizer(prompt, return_tensors="pt")
     streamer = TextIteratorStreamer(
         tokenizer,
         skip_prompt=False,
         skip_special_tokens=True,
     )
+    # Prepare generation kwargs
     generate_kwargs = dict(
         **inputs,
         streamer=streamer,
         top_p=top_p,
         eos_token_id=tokenizer.eos_token_id,
     )
+    # Launch generation in a background thread
     thread = threading.Thread(target=model.generate, kwargs=generate_kwargs)
     thread.start()
+    # Stream back to the UI
     accumulated = ""
     for new_text in streamer:
         accumulated += new_text
         yield accumulated
+# If you have custom CSS, define it here; otherwise set to None or remove the css= line below
+custom_css = None
+with gr.Blocks(css=custom_css, fill_width=True) as demo:
     with gr.Row():
         with gr.Column(scale=1):
             model_dropdown = gr.Dropdown(
                 interactive=True
             )
             max_tokens_slider = gr.Slider(
+                minimum=1, maximum=512, value=512, step=1, label="Max new tokens"
             )
             temperature_slider = gr.Slider(
+                minimum=0.1, maximum=2.0, value=0.7, step=0.1, label="Temperature"
             )
             top_p_slider = gr.Slider(
+                minimum=0.1, maximum=1.0, value=0.9, step=0.05, label="Top‑p"
             )
         with gr.Column(scale=3):
 if __name__ == "__main__":
     demo.queue()
+    demo.launch()