Spaces:

asimsultan
/

megabeam-chat

Runtime error

asimsultan commited on Jun 30

Commit

838377c

verified ·

1 Parent(s): 6df679f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,20 +1,12 @@
-from transformers import AutoTokenizer, AutoModelForCausalLM
-from vllm import LLM, SamplingParams
 import gradio as gr
-model_name = "aws-prototyping/MegaBeam-Mistral-7B-512k"
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    trust_remote_code=True
-)
-def chat(prompt: str):
-    llm = LLM(model=model_name)
-    sampling = SamplingParams(temperature=0.7, max_tokens=512)
-    outputs = llm.generate([prompt], sampling)
-    return outputs[0].outputs[0].text
-iface = gr.Interface(fn=chat, inputs="text", outputs="text")
-iface.launch()

 import gradio as gr
+from llama_cpp import Llama
+MODEL_PATH = "model.gguf"  # downloaded in advance
+llm = Llama(model_path=MODEL_PATH, n_ctx=8192, n_threads=4)
+def chat(prompt):
+    response = llm(prompt, max_tokens=512, temperature=0.7)
+    return response["choices"][0]["text"]
+gr.Interface(fn=chat, inputs="text", outputs="text", title="MegaBeam Mistral 512K - GGUF").launch()