Spaces:

jikoni
/

llamaSMS

Sleeping

App Files Files Community

Tri4 commited on Aug 11, 2024

Commit

d36e009

verified ·

1 Parent(s): 331935a

Create main.py

Browse files

Files changed (1) hide show

main.py +80 -0

main.py ADDED Viewed

	@@ -0,0 +1,80 @@

+from flask import Flask, request, jsonify
+from huggingface_hub import InferenceClient
+# Initialize Flask app
+app = Flask(__name__)
+print("\nHello welcome to Sema AI\n", flush=True)  # Flush to ensure immediate output
+@app.route("/")
+def hello():
+    return "hello 🤗, Welcome to Sema AI Chat Service."
+# Initialize InferenceClient
+client = InferenceClient("mistralai/Mistral-7B-Instruct-v0.1")
+def format_prompt(message, history):
+    prompt = "<s>"
+    for user_prompt, bot_response in history:
+        prompt += f"[INST] {user_prompt} [/INST]"
+        prompt += f" {bot_response}</s> "
+    prompt += f"[INST] {message} [/INST]"
+    return prompt
+def generate(prompt, history, temperature=0.9, max_new_tokens=256, top_p=0.95, repetition_penalty=1.0):
+    temperature = float(temperature)
+    if temperature < 1e-2:
+        temperature = 1e-2
+    top_p = float(top_p)
+    generate_kwargs = dict(
+        temperature=temperature,
+        max_new_tokens=max_new_tokens,
+        top_p=top_p,
+        repetition_penalty=repetition_penalty,
+        do_sample=True,
+        seed=42,
+    )
+    formatted_prompt = format_prompt(prompt, history)
+    # Get response from Mistral model
+    response = client.text_generation(
+        formatted_prompt,
+        **generate_kwargs,
+        stream=True,
+        details=True,
+        return_full_text=False
+    )
+    output = ""
+    for token in response:
+        output += token.token.text
+    return output
+@app.route("/generate", methods=["POST"])
+def generate_text():
+    data = request.json
+    prompt = data.get("prompt", "")
+    history = data.get("history", [])
+    temperature = data.get("temperature", 0.9)
+    max_new_tokens = data.get("max_new_tokens", 256)
+    top_p = data.get("top_p", 0.95)
+    repetition_penalty = data.get("repetition_penalty", 1.0)
+    print(f"{prompt}: \n")
+    try:
+        response_text = generate(
+            prompt,
+            history,
+            temperature=temperature,
+            max_new_tokens=max_new_tokens,
+            top_p=top_p,
+            repetition_penalty=repetition_penalty
+        )
+        return jsonify({"response": response_text})
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
+if __name__ == "__main__":
+    app.run(debug=True, port=5000)