Spaces:

MrOvkill
/

starcoder-15b-instruct

Sleeping

SMeyersMrOvkill commited on May 19, 2024

Commit

9cf6b89

1 Parent(s): f2fbba5

v0.1

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,11 +1,11 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
 """
 For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
 """
-client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
 def respond(
     message,
@@ -14,6 +14,7 @@ def respond(
     max_tokens,
     temperature,
     top_p,
 ):
     messages = [{"role": "system", "content": system_message}]
@@ -27,12 +28,13 @@ def respond(
     response = ""
-    for message in client.chat_completion(
         messages,
         max_tokens=max_tokens,
         stream=True,
         temperature=temperature,
         top_p=top_p,
     ):
         token = message.choices[0].delta.content

 import gradio as gr
+from llama_cpp import Llama
 """
 For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
 """
+llm = Llama.from_pretrained("bartowski/starcoder2-15b-instruct-v0.1-GGUF", filename="starcoder2-15b-instruct-v0.1-Q6_K.gguf", n_gpu_layers=99, n_ctx=16384)
 def respond(
     message,
     max_tokens,
     temperature,
     top_p,
+    top_k
 ):
     messages = [{"role": "system", "content": system_message}]
     response = ""
+    for message in llm.create_chat_completion(
         messages,
         max_tokens=max_tokens,
         stream=True,
         temperature=temperature,
         top_p=top_p,
+        top_k=42,
     ):
         token = message.choices[0].delta.content

requirements.txt CHANGED Viewed