Spaces:

harsh-manvar
/

vllm-test-ui

Runtime error

harsh-manvar commited on Dec 27, 2024

Commit

1e819e6

verified ·

1 Parent(s): f71f3be

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,13 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
 from vllm import LLM, SamplingParams
-# Load the model and tokenizer from Hugging Face
 model_name = "facebook/opt-125m"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 # Initialize vLLM with CPU-only configuration
-vllm_model = LLM(model=model_name, tensor_parallel_size=1, device="cpu")
 def generate_response(prompt, max_tokens, temperature, top_p):
     # Tokenize the prompt
@@ -20,8 +20,11 @@ def generate_response(prompt, max_tokens, temperature, top_p):
         top_p=top_p,
     )
-    # Generate text using vLLM
-    output = vllm_model.generate(inputs["input_ids"], sampling_params)
     # Decode the generated tokens to text
     generated_text = tokenizer.decode(output[0]["token_ids"], skip_special_tokens=True)

 import gradio as gr
+from transformers import AutoTokenizer
 from vllm import LLM, SamplingParams
+# Load the model and tokenizer from Hugging Face
 model_name = "facebook/opt-125m"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 # Initialize vLLM with CPU-only configuration
+vllm_model = LLM(model=model_name, tensor_parallel_size=1, device="cpu", async_output=False)
 def generate_response(prompt, max_tokens, temperature, top_p):
     # Tokenize the prompt
         top_p=top_p,
     )
+    # Generate text using vLLM (synchronous mode)
+    try:
+        output = vllm_model.generate(inputs["input_ids"], sampling_params)
+    except NotImplementedError as e:
+        return f"Error: {e}. Ensure that async_output is supported or disabled."
     # Decode the generated tokens to text
     generated_text = tokenizer.decode(output[0]["token_ids"], skip_special_tokens=True)