intfloat
/

mmE5-mllama-11b-instruct

Zero-Shot Image Classification

sentence-transformers

text-generation-inference

Model card Files Files and versions

intfloat commited on Feb 14

Commit

c713514

·

1 Parent(s): de9df37

Add preprocessor_config.json

Files changed (2) hide show

README.md +3 -3
preprocessor_config.json +26 -0

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ license: mit
 ---
 ## mmE5-mllama-11b-instruct
-[mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data](https://arxiv.org/abs/2502.08468.pdf). Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou, arXiv 2024
 This model is trained based on [Llama-3.2-11B-Vision](https://huggingface.co/meta-llama/Llama-3.2-11B-Vision).
@@ -50,7 +50,6 @@ from PIL import Image
 import numpy as np
 model_args = ModelArguments(
     model_name='intfloat/mmE5-mllama-11b-instruct',
-    processor_name='meta-llama/Llama-3.2-11B-Vision',
     pooling='last',
     normalize=True,
     model_backbone='mllama')
@@ -104,4 +103,5 @@ print(string, '=', model.compute_similarity(qry_output, tgt_output))
   journal={arXiv preprint arXiv:2502.08468},
   year={2025}
 }
-```

 ---
 ## mmE5-mllama-11b-instruct
+[mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data](https://arxiv.org/abs/2502.08468.pdf). Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou, arXiv 2025
 This model is trained based on [Llama-3.2-11B-Vision](https://huggingface.co/meta-llama/Llama-3.2-11B-Vision).
 import numpy as np
 model_args = ModelArguments(
     model_name='intfloat/mmE5-mllama-11b-instruct',
     pooling='last',
     normalize=True,
     model_backbone='mllama')
   journal={arXiv preprint arXiv:2502.08468},
   year={2025}
 }
+```

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "MllamaImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "max_image_tiles": 4,
+  "processor_class": "MllamaProcessor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 448,
+    "width": 448
+  }
+}