Spaces:

Geraldine
/

Image-to-text-SmolVLM-for-Omeka

Sleeping

Geraldine commited on Jan 25

Commit

e61c1cd

verified ·

1 Parent(s): 6770ac1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,10 +11,12 @@ import base64
 import os, stat, io
 # Load the model in half-precision on the available device(s)
-model = Qwen2VLForConditionalGeneration.from_pretrained(
-    "./Qwen2-VL-2B-Instruct-GPTQ-Int8", torch_dtype="auto", device_map="auto"
 )
-processor = AutoProcessor.from_pretrained("./Qwen2-VL-2B-Instruct-GPTQ-Int8")
 def array_to_image(image_array):
     if image_array is None:
@@ -44,25 +46,19 @@ def describe_image(image_array):
         }
     ]
-    text_prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
-    # Excepted output: '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>Describe this image.<|im_end|>\n<|im_start|>assistant\n'
-    inputs = processor(
-        text=[text_prompt], images=[image], padding=True, return_tensors="pt"
-    )
-    #inputs = inputs.to("cpu")
     # Inference: Generation of the output
-    output_ids = model.generate(**inputs, max_new_tokens=128)
-    generated_ids = [
-        output_ids[len(input_ids) :]
-        for input_ids, output_ids in zip(inputs.input_ids, output_ids)
     ]
     output_text = processor.batch_decode(
-        generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
     )
-    # remove image
-    os.remove(image_path)
     # Extract the detailed description from the response
     return output_text, generate_embeddings(output_text)

 import os, stat, io
 # Load the model in half-precision on the available device(s)
+model = AutoModelForVision2Seq.from_pretrained(
+    "./SmolVLM-500M-Instruct",
+    torch_dtype=torch.bfloat16,
+    _attn_implementation="eager"
 )
+processor = AutoProcessor.from_pretrained("./SmolVLM-500M-Instruct")
 def array_to_image(image_array):
     if image_array is None:
         }
     ]
+    prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
+    inputs = processor(text=prompt, images=[image], return_tensors="pt")
     # Inference: Generation of the output
+    generated_ids = model.generate(**inputs, max_new_tokens=500)
+    output_ids = [
+        generated_ids[len(input_ids) :]
+        for input_ids, generated_ids in zip(inputs.input_ids, generated_ids)
     ]
     output_text = processor.batch_decode(
+        output_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
     )
     # Extract the detailed description from the response
     return output_text, generate_embeddings(output_text)