Spaces:

prithivMLmods
/

Tiny-VLMs-Lab

Running on Zero

prithivMLmods commited on 4 days ago

Commit

1d278fb

verified ·

1 Parent(s): 929bc6a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,7 +19,7 @@ from PIL import Image
 import fitz
 from transformers import (
-    Qwen2_5_VLForConditionalGeneration,
     AutoModelForVision2Seq,
     AutoModelForImageTextToText,
     AutoModel,
@@ -73,14 +73,14 @@ SUBFOLDER = "Recognition"
 processor_g = AutoProcessor.from_pretrained(
     MODEL_ID_G, trust_remote_code=True, subfolder=SUBFOLDER
 )
-model_g = Qwen2_5_VLForConditionalGeneration.from_pretrained(
     MODEL_ID_G, trust_remote_code=True, subfolder=SUBFOLDER, torch_dtype=torch.float16
 ).to(device).eval()
 MODEL_ID_I = "HuggingFaceTB/SmolVLM2-2.2B-Instruct"
 processor_i = AutoProcessor.from_pretrained(MODEL_ID_I, trust_remote_code=True)
 model_i = AutoModelForImageTextToText.from_pretrained(
-    MODEL_ID_I, trust_remote_code=True, torch_dtype=torch.float16, _attn_implementation="flash_attention_2"
 ).to(device).eval()
@@ -186,6 +186,8 @@ def process_document_stream(
     messages = [{"role": "user", "content": [{"type": "image", "image": image}, {"type": "text", "text": prompt_input}]}]
     prompt_full = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = processor(text=[prompt_full], images=[image], return_tensors="pt", padding=True, truncation=True, max_length=MAX_INPUT_TOKEN_LENGTH).to(device)
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = {

 import fitz
 from transformers import (
+    Qwen2VLForConditionalGeneration,
     AutoModelForVision2Seq,
     AutoModelForImageTextToText,
     AutoModel,
 processor_g = AutoProcessor.from_pretrained(
     MODEL_ID_G, trust_remote_code=True, subfolder=SUBFOLDER
 )
+model_g = Qwen2VLForConditionalGeneration.from_pretrained(
     MODEL_ID_G, trust_remote_code=True, subfolder=SUBFOLDER, torch_dtype=torch.float16
 ).to(device).eval()
 MODEL_ID_I = "HuggingFaceTB/SmolVLM2-2.2B-Instruct"
 processor_i = AutoProcessor.from_pretrained(MODEL_ID_I, trust_remote_code=True)
 model_i = AutoModelForImageTextToText.from_pretrained(
+    MODEL_ID_I, trust_remote_code=True, torch_dtype=torch.bfloat16, _attn_implementation="flash_attention_2"
 ).to(device).eval()
     messages = [{"role": "user", "content": [{"type": "image", "image": image}, {"type": "text", "text": prompt_input}]}]
     prompt_full = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = processor(text=[prompt_full], images=[image], return_tensors="pt", padding=True, truncation=True, max_length=MAX_INPUT_TOKEN_LENGTH).to(device)
+    # Convert floating point tensors to the model's dtype
+    inputs = {k: v.to(dtype=model.dtype) if isinstance(v, torch.Tensor) and v.dtype.is_floating_point else v for k, v in inputs.items()}
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = {