Spaces:

michailroussos
/

ID2223-lab2

Sleeping

App Files Files Community

michailroussos commited on Dec 7, 2024

Commit

1960c65

1 Parent(s): 9764582

more changes to work with our model

Browse files

Files changed (2) hide show

app.py +18 -41
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -1,9 +1,12 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import torch
-client = AutoModelForCausalLM.from_pretrained("michailroussos/model-mistral_CP1250", torch_dtype=torch.float16)
-tokenizer = AutoTokenizer.from_pretrained("michailroussos/model-mistral_CP1250")
 def respond(
     message,
@@ -13,44 +16,19 @@ def respond(
     temperature,
     top_p,
 ):
-    messages = [{"role": "system", "content": system_message}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    # Convert messages to prompt
-    prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     # Generate response
-    inputs = tokenizer(prompt, return_tensors="pt").to(client.device)
-    response = ""
-    for _ in range(max_tokens):
-        with torch.no_grad():
-            outputs = client.generate(
-                inputs.input_ids,
-                max_new_tokens=1,
-                temperature=temperature,
-                top_p=top_p,
-                do_sample=True,
-            )
-        new_token = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
-        response += new_token
-        inputs = tokenizer(inputs.input_ids.tolist()[0] + outputs[0][inputs.input_ids.shape[1]:].tolist(), return_tensors="pt")
-        yield response
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
@@ -67,6 +45,5 @@ demo = gr.ChatInterface(
     ],
 )
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+from ctransformers import AutoModelForCausalLM
+# Use ctransformers for GGUF models
+client = AutoModelForCausalLM.from_pretrained(
+    "michailroussos/model-mistral_CP1250",
+    model_type='mistral',
+    gpu_layers=0  # Set to 0 for CPU, or appropriate number for GPU
+)
 def respond(
     message,
     temperature,
     top_p,
 ):
+    # Combine system message and current message
+    full_prompt = f"{system_message}\n{message}"
     # Generate response
+    response = client(
+        full_prompt,
+        max_new_tokens=max_tokens,
+        temperature=temperature,
+        top_p=top_p
+    )
+    return response
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
     ],
 )
 if __name__ == "__main__":
+    demo.launch()

requirements.txt CHANGED Viewed

@@ -1,3 +1,5 @@
 huggingface_hub==0.25.2
 transformers==4.47.0
-torch

 huggingface_hub==0.25.2
 transformers==4.47.0
+torch
+ctransformers
+gradio