Spaces:

likewendy
/

phi-4

Running

likewendy commited on Jan 6

Commit

d5e204e

1 Parent(s): d2baa2c

code

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,12 @@
-import spaces
 import gradio as gr
 from llama_cpp import Llama
-import os
-# 响应函数
-@spaces.GPU
 def respond(
     message,
     history: list[tuple[str, str]],
@@ -22,26 +24,22 @@ def respond(
             messages.append({"role": "assistant", "content": assistant_msg})
     messages.append({"role": "user", "content": message})
-    llm = Llama.from_pretrained(
-        repo_id="matteogeniaccio/phi-4",
-        filename="phi-4-Q4_K_M.gguf",
-        verbose=True,
-        main_gpu=1,
-        n_gpu_layers=-1
-    )
     # 使用llama-cpp-python的方式生成响应
     response = llm.create_chat_completion(
         messages=messages,
         max_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
-        stream=False
     )
-    # 返回流式响应
     for chunk in response:
         if chunk and chunk.get("choices") and chunk["choices"][0].get("delta", {}).get("content"):
-            yield chunk["choices"][0]["delta"]["content"]
 # Gradio 界面
 demo = gr.ChatInterface(
@@ -52,7 +50,10 @@ demo = gr.ChatInterface(
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(
             minimum=0.1,
-            maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"
         ),
     ],
 )

 import gradio as gr
 from llama_cpp import Llama
+llm = Llama.from_pretrained(
+    repo_id="matteogeniaccio/phi-4",
+    filename="phi-4-Q4_K_M.gguf",
+    verbose=True
+)
 def respond(
     message,
     history: list[tuple[str, str]],
             messages.append({"role": "assistant", "content": assistant_msg})
     messages.append({"role": "user", "content": message})
     # 使用llama-cpp-python的方式生成响应
     response = llm.create_chat_completion(
         messages=messages,
         max_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
+        stream=True
     )
+    # 流式响应处理
+    partial_message = ""
     for chunk in response:
         if chunk and chunk.get("choices") and chunk["choices"][0].get("delta", {}).get("content"):
+            content = chunk["choices"][0]["delta"]["content"]
+            partial_message += content
+            yield partial_message
 # Gradio 界面
 demo = gr.ChatInterface(
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(
             minimum=0.1,
+            maximum=1.0,
+            value=0.95,
+            step=0.05,
+            label="Top-p (nucleus sampling)"
         ),
     ],
 )