Spaces:

prithivMLmods
/

core-OCR

Running on Zero

App Files Files Community

prithivMLmods commited on Feb 8

Commit

f8a9b16

verified ·

1 Parent(s): 2aadb64

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -11

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import torch
 import edge_tts
 import asyncio
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
-from transformers import Qwen2VLForConditionalGeneration, AutoProcessor, TextIteratorStreamer
 from transformers.image_utils import load_image
 import time
@@ -82,18 +82,13 @@ def generate(
     files = input_dict.get("files", [])
     # Check if input includes image(s)
-    if len(files) > 1:
-        images = [load_image(image) for image in files]
-    elif len(files) == 1:
-        images = [load_image(files[0])]
-    else:
-        images = []
     # Check if message is for TTS
     tts_prefix = "@tts"
     is_tts = any(text.strip().lower().startswith(f"{tts_prefix}{i}") for i in range(1, 7))
     voice_index = next((i for i in range(1, 7) if text.strip().lower().startswith(f"{tts_prefix}{i}")), None)
     if is_tts and voice_index:
         voice = TTS_VOICES[voice_index - 1]
         text = text.replace(f"{tts_prefix}{voice_index}", "").strip()
@@ -114,7 +109,6 @@ def generate(
         prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
         inputs = processor(text=[prompt], images=images, return_tensors="pt", padding=True).to("cuda")
-        # Handle generation for multimodal input
         streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
         generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=max_new_tokens)
@@ -163,8 +157,11 @@ def generate(
         yield final_response
         if is_tts and voice:
-            output_file = asyncio.run(text_to_speech(final_response, voice))
-            # Return playable audio separately
             yield gr.Audio(output_file, autoplay=True)
 demo = gr.ChatInterface(

 import edge_tts
 import asyncio
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
 from transformers.image_utils import load_image
 import time
     files = input_dict.get("files", [])
     # Check if input includes image(s)
+    images = [load_image(image) for image in files] if files else []
     # Check if message is for TTS
     tts_prefix = "@tts"
     is_tts = any(text.strip().lower().startswith(f"{tts_prefix}{i}") for i in range(1, 7))
     voice_index = next((i for i in range(1, 7) if text.strip().lower().startswith(f"{tts_prefix}{i}")), None)
     if is_tts and voice_index:
         voice = TTS_VOICES[voice_index - 1]
         text = text.replace(f"{tts_prefix}{voice_index}", "").strip()
         prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
         inputs = processor(text=[prompt], images=images, return_tensors="pt", padding=True).to("cuda")
         streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
         generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=max_new_tokens)
         yield final_response
         if is_tts and voice:
+            loop = asyncio.new_event_loop()
+            asyncio.set_event_loop(loop)
+            output_file = loop.run_until_complete(text_to_speech(final_response, voice))
+            # Separate yield for audio output
             yield gr.Audio(output_file, autoplay=True)
 demo = gr.ChatInterface(