Spaces:

Geraldine
/

Image-to-text-SmolVLM-for-Omeka

Sleeping

Geraldine commited on Jan 19

Commit

129d16e

verified ·

1 Parent(s): f9d87a7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,19 +16,32 @@ model = Qwen2VLForConditionalGeneration.from_pretrained(
 )
 processor = AutoProcessor.from_pretrained("./Qwen2-VL-7B-Instruct")
 def generate_embeddings(text):
     model = SentenceTransformer('./all-MiniLM-L6-v2')
     embeddings = model.encode(sentences)
     return embeddings
 def describe_image(image_array):
-    if image_array is None:
-        raise ValueError("No image provided. Please upload an image before submitting.")
-    # Convert numpy array to PIL Image
-    image = Image.fromarray(np.uint8(image_array))
-    buffered = io.BytesIO()
-    image.save(buffered, format="PNG")  # Change format as needed
-    img_str = base64.b64encode(buffered.getvalue()).decode("utf-8")
     messages = [
         {
@@ -46,7 +59,7 @@ def describe_image(image_array):
     # Excepted output: '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>Describe this image.<|im_end|>\n<|im_start|>assistant\n'
     inputs = processor(
-        text=[text_prompt], images=[f"data:image/png;base64,{img_str}"], padding=True, return_tensors="pt"
     )
     inputs = inputs.to("cpu")

 )
 processor = AutoProcessor.from_pretrained("./Qwen2-VL-7B-Instruct")
+def array_to_image_path(image_array):
+    if image_array is None:
+        raise ValueError("No image provided. Please upload an image before submitting.")
+    # Convert numpy array to PIL Image
+    img = Image.fromarray(np.uint8(image_array))
+    # Generate a unique filename using timestamp
+    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+    filename = f"image_{timestamp}.png"
+    # Save the image
+    img.save(filename)
+    # Get the full path of the saved image
+    full_path = os.path.abspath(filename)
+    return full_path
 def generate_embeddings(text):
     model = SentenceTransformer('./all-MiniLM-L6-v2')
     embeddings = model.encode(sentences)
     return embeddings
 def describe_image(image_array):
+    image_path = array_to_image_path(image)
+    image = Image.open(image_path)
     messages = [
         {
     # Excepted output: '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>Describe this image.<|im_end|>\n<|im_start|>assistant\n'
     inputs = processor(
+        text=[text_prompt], images=[image], padding=True, return_tensors="pt"
     )
     inputs = inputs.to("cpu")