Spaces:

hackergeek98
/

therpist2

Runtime error

App Files Files Community

hackergeek98 commited on Mar 21

Commit

e5a2042

verified ·

1 Parent(s): e9027a1

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -44

app.py CHANGED Viewed

@@ -1,52 +1,56 @@
 import gradio as gr
-import torch
-from peft import PeftModel
-from transformers import AutoModelForCausalLM, AutoTokenizer
-from huggingface_hub import login
-import os
-# Get token from environment (automatically loaded from secrets)
-hf_token = os.getenv("gemma3")
-login(hf_token)
-# Load tokenizer
-tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-1b-pt")
-# Load base model on CPU with optimizations
-base_model = AutoModelForCausalLM.from_pretrained(
-    "google/gemma-3-1b-pt",
-    torch_dtype=torch.bfloat16,  # Efficient memory usage
-    low_cpu_mem_usage=True
-)
-# Load fine-tuned model
-model = PeftModel.from_pretrained(base_model, "hackergeek98/gemma-finetuned")
-model = model.to("cpu")  # Ensure it runs on CPU
-# Chatbot function
-def chat(message, history=[]):
-    messages = [{"role": "user", "content": message}]
-    input_ids = tokenizer(message, return_tensors="pt").input_ids.to("cpu")
-    with torch.no_grad():  # Disable gradient calculations for efficiency
-        output_ids = model.generate(input_ids, max_length=100)
-    response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
-    history.append((message, response))  # Store conversation history
-    return history, history
-# Gradio UI
 demo = gr.ChatInterface(
-    chat,
-    chatbot=gr.Chatbot(height=400),
     additional_inputs=[
-        gr.Textbox(value="Welcome to the chatbot!", label="System message")
     ],
-    title="Fine-Tuned Gemma Chatbot",
-    description="This chatbot is fine-tuned on Persian text using Gemma.",
 )
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+from huggingface_hub import InferenceClient
+client = InferenceClient("hackergeek98/gemma-finetuned")
+def respond(
+    message,
+    history: list[tuple[str, str]],
+    system_message,
+    max_tokens,
+    temperature,
+    top_p,
+):
+    # Preparing the messages list
+    messages = [{"role": "system", "content": system_message}]
+    # Adding conversation history
+    for val in history:
+        if val[0]:
+            messages.append({"role": "user", "content": val[0]})
+        if val[1]:
+            messages.append({"role": "assistant", "content": val[1]})
+    # Adding the new user message
+    messages.append({"role": "user", "content": message})
+    # Initialize the response string
+    response = ""
+    # Corrected method for chat completion
+    for message in client.chat_completion(
+        messages=messages,  # Argument should be named 'messages'
+        max_tokens=max_tokens,
+        temperature=temperature,
+        top_p=top_p,
+        stream=True  # Stream the response
+    ):
+        # Accumulate the response from the streaming output
+        token = message.choices[0].delta.content
+        response += token
+        yield response
+# Gradio interface setup
 demo = gr.ChatInterface(
+    respond,
     additional_inputs=[
+        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
+        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
+        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
+        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
     ],
 )
+# Run the app
 if __name__ == "__main__":
     demo.launch()