Spaces:

Xkev
/

Llama-3.2V-11B-cot

Running on Zero

Xkev commited on Nov 23, 2024

Commit

55dbdd5

verified ·

1 Parent(s): e1a1812

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -56,17 +56,12 @@ def bot_streaming(message, history, max_new_tokens=250):
         inputs = processor(text=texts, images=images, return_tensors="pt").to("cuda")
     generation_kwargs = dict(inputs, max_new_tokens=max_new_tokens)
-    generated_text = ""
-    thread = Thread(target=model.generate, kwargs=generation_kwargs)
-    thread.start()
-    buffer = ""
-    for new_text in streamer:
-        buffer += new_text
-        generated_text_without_prompt = buffer
-        time.sleep(0.01)
-        yield buffer
 demo = gr.ChatInterface(fn=bot_streaming, title="LLaVA-CoT",

         inputs = processor(text=texts, images=images, return_tensors="pt").to("cuda")
     generation_kwargs = dict(inputs, max_new_tokens=max_new_tokens)
+    with torch.no_grad():
+        output = model.generate(**inputs, **generation_kwargs)
+    output_text = processor.decode(output[0][inputs['input_ids'].shape[1]:]).replace('<|eot_id|>', '')
+    yield output_text
 demo = gr.ChatInterface(fn=bot_streaming, title="LLaVA-CoT",