htlou commited on Jan 1

Commit

9034cc8

verified ·

1 Parent(s): 58f0177

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +77 -0
added_tokens.json +4 -0
all_results.json +20 -0
checkpoint-100/added_tokens.json +4 -0
checkpoint-100/config.json +68 -0
checkpoint-100/generation_config.json +6 -0
checkpoint-100/model-00001-of-00004.safetensors +3 -0
checkpoint-100/model-00002-of-00004.safetensors +3 -0
checkpoint-100/model-00003-of-00004.safetensors +3 -0
checkpoint-100/model-00004-of-00004.safetensors +3 -0
checkpoint-100/model.safetensors.index.json +694 -0
checkpoint-100/preprocessor_config.json +52 -0
checkpoint-100/special_tokens_map.json +30 -0
checkpoint-100/tokenizer.json +0 -0
checkpoint-100/tokenizer.model +3 -0
checkpoint-100/tokenizer_config.json +70 -0
checkpoint-100/trainer_state.json +365 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-200/added_tokens.json +4 -0
checkpoint-200/config.json +68 -0
checkpoint-200/generation_config.json +6 -0
checkpoint-200/model-00001-of-00004.safetensors +3 -0
checkpoint-200/model-00002-of-00004.safetensors +3 -0
checkpoint-200/model-00003-of-00004.safetensors +3 -0
checkpoint-200/model-00004-of-00004.safetensors +3 -0
checkpoint-200/model.safetensors.index.json +694 -0
checkpoint-200/preprocessor_config.json +52 -0
checkpoint-200/special_tokens_map.json +30 -0
checkpoint-200/tokenizer.json +0 -0
checkpoint-200/tokenizer.model +3 -0
checkpoint-200/tokenizer_config.json +70 -0
checkpoint-200/trainer_state.json +697 -0
checkpoint-200/training_args.bin +3 -0
checkpoint-240/added_tokens.json +4 -0
checkpoint-240/config.json +68 -0
checkpoint-240/generation_config.json +6 -0
checkpoint-240/model-00001-of-00004.safetensors +3 -0
checkpoint-240/model-00002-of-00004.safetensors +3 -0
checkpoint-240/model-00003-of-00004.safetensors +3 -0
checkpoint-240/model-00004-of-00004.safetensors +3 -0
checkpoint-240/model.safetensors.index.json +694 -0
checkpoint-240/preprocessor_config.json +52 -0
checkpoint-240/special_tokens_map.json +30 -0
checkpoint-240/tokenizer.json +0 -0
checkpoint-240/tokenizer.model +3 -0
checkpoint-240/tokenizer_config.json +70 -0
checkpoint-240/trainer_state.json +817 -0
checkpoint-240/training_args.bin +3 -0
config.json +68 -0
eval_results.json +15 -0

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+---
+library_name: transformers
+license: other
+base_model: llava-hf/llava-v1.6-mistral-7b-hf
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: AA_preference_random_0_60
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# AA_preference_random_0_60
+This model is a fine-tuned version of [llava-hf/llava-v1.6-mistral-7b-hf](https://huggingface.co/llava-hf/llava-v1.6-mistral-7b-hf) on the AA_preference_random_0_60 dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5970
+- Rewards/chosen: 1.1265
+- Rewards/rejected: -0.9790
+- Rewards/accuracies: 0.7882
+- Rewards/margins: 2.1055
+- Logps/rejected: -220.6737
+- Logps/chosen: -235.6061
+- Logits/rejected: -2.2225
+- Logits/chosen: -2.2440
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 256
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5547        | 0.6231 | 50   | 0.5781          | 0.9538         | -0.0749          | 0.7222             | 1.0286          | -211.6319      | -237.3329    | -2.4876         | -2.4892       |
+| 0.2103        | 1.2461 | 100  | 0.6054          | 1.3022         | -0.3360          | 0.7778             | 1.6381          | -214.2431      | -233.8492    | -2.2990         | -2.3139       |
+| 0.2095        | 1.8692 | 150  | 0.5998          | 1.4071         | -0.5239          | 0.7743             | 1.9310          | -216.1227      | -232.8000    | -2.3737         | -2.3872       |
+| 0.1498        | 2.4922 | 200  | 0.5972          | 1.0916         | -1.0086          | 0.7847             | 2.1001          | -220.9690      | -235.9549    | -2.2258         | -2.2469       |
+### Framework versions
+- Transformers 4.45.2
+- Pytorch 2.4.0+cu121
+- Datasets 2.21.0
+- Tokenizers 0.20.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<image>": 32000,
+  "<pad>": 32001
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+    "epoch": 2.9906542056074765,
+    "eval_logits/chosen": -2.243978500366211,
+    "eval_logits/rejected": -2.222538471221924,
+    "eval_logps/chosen": -235.60606384277344,
+    "eval_logps/rejected": -220.67372131347656,
+    "eval_loss": 0.5969974994659424,
+    "eval_rewards/accuracies": 0.7881944179534912,
+    "eval_rewards/chosen": 1.1264705657958984,
+    "eval_rewards/margins": 2.10550856590271,
+    "eval_rewards/rejected": -0.9790381193161011,
+    "eval_runtime": 150.6075,
+    "eval_samples_per_second": 15.139,
+    "eval_steps_per_second": 0.239,
+    "total_flos": 2829829665718272.0,
+    "train_loss": 0.33513165613015494,
+    "train_runtime": 8778.1887,
+    "train_samples_per_second": 7.011,
+    "train_steps_per_second": 0.027
+}

checkpoint-100/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<image>": 32000,
+  "<pad>": 32001
+}

checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "_name_or_path": "/data/align-anything/hantao/models/llava-v1.6-mistral-7b-hf",
+  "architectures": [
+    "LlavaNextForConditionalGeneration"
+  ],
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_seq_length": 576,
+  "image_token_index": 32000,
+  "model_type": "llava_next",
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+    "architectures": [
+      "MistralForCausalLM"
+    ],
+    "intermediate_size": 14336,
+    "max_position_embeddings": 32768,
+    "model_type": "mistral",
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 32064
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "use_image_newline_parameter": true,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vocab_size": 32064
+}

checkpoint-100/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.45.2"
+}

checkpoint-100/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26aa803f12395cfc2424bc1284aba13ed1abd6b0ea3ca34c03f2f895b8647374
+size 4921618624

checkpoint-100/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c0c61b8fe0db3b7b52e483987231af7a3d0a4b598a9af29ec4ffff6a8823641
+size 4915917672

checkpoint-100/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7a6187aaec7fc855d261487a0c1622aee7183ddeb3419dc7fa00ec250943ef9
+size 4915917680

checkpoint-100/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f8f74728ad57fe3838446ef50a11640374c249ad0268525813a7a1bead23bfc
+size 380134008

checkpoint-100/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,694 @@

+{
+  "metadata": {
+    "total_size": 15133495296
+  },
+  "weight_map": {
+    "image_newline": "model-00001-of-00004.safetensors",
+    "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.norm.weight": "model-00004-of-00004.safetensors",
+    "multi_modal_projector.linear_1.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_1.weight": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.class_embedding": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.weight": "model-00001-of-00004.safetensors"
+  }
+}

checkpoint-100/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "aspect_ratio_setting": "anyres",
+  "crop_size": {
+    "height": 336,
+    "width": 336
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "LlavaNextImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "processor_class": "LlavaNextProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 336
+  }
+}

checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-100/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ '<s>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '`[INST] `' + content + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {
+    "image_token": "<image>"
+  },
+  "image_token": "<image>",
+  "legacy": true,
+  "max_length": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "processor_class": "LlavaNextProcessor",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,365 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.2461059190031152,
+  "eval_steps": 50,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06230529595015576,
+      "grad_norm": 51.38829302969845,
+      "learning_rate": 5e-07,
+      "logits/chosen": -2.7407402992248535,
+      "logits/rejected": -2.726320266723633,
+      "logps/chosen": -261.4151916503906,
+      "logps/rejected": -221.7285614013672,
+      "loss": 0.692,
+      "rewards/accuracies": 0.28125,
+      "rewards/chosen": 0.0067472741939127445,
+      "rewards/margins": -0.002469523111358285,
+      "rewards/rejected": 0.009216798469424248,
+      "step": 5
+    },
+    {
+      "epoch": 0.12461059190031153,
+      "grad_norm": 54.32144262101448,
+      "learning_rate": 1e-06,
+      "logits/chosen": -2.679516315460205,
+      "logits/rejected": -2.6851108074188232,
+      "logps/chosen": -244.4600067138672,
+      "logps/rejected": -194.29598999023438,
+      "loss": 0.6422,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 0.4551638066768646,
+      "rewards/margins": 0.20188376307487488,
+      "rewards/rejected": 0.2532801032066345,
+      "step": 10
+    },
+    {
+      "epoch": 0.18691588785046728,
+      "grad_norm": 44.80793063993453,
+      "learning_rate": 9.988343845952696e-07,
+      "logits/chosen": -2.4403023719787598,
+      "logits/rejected": -2.412696361541748,
+      "logps/chosen": -237.53103637695312,
+      "logps/rejected": -197.9112091064453,
+      "loss": 0.6663,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 1.520341396331787,
+      "rewards/margins": 0.5765382051467896,
+      "rewards/rejected": 0.9438031315803528,
+      "step": 15
+    },
+    {
+      "epoch": 0.24922118380062305,
+      "grad_norm": 49.11699733468642,
+      "learning_rate": 9.953429730181652e-07,
+      "logits/chosen": -2.2657809257507324,
+      "logits/rejected": -2.2547507286071777,
+      "logps/chosen": -225.1350860595703,
+      "logps/rejected": -232.2615203857422,
+      "loss": 0.669,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 1.3284717798233032,
+      "rewards/margins": 0.6173279285430908,
+      "rewards/rejected": 0.7111440896987915,
+      "step": 20
+    },
+    {
+      "epoch": 0.3115264797507788,
+      "grad_norm": 43.743825005172326,
+      "learning_rate": 9.895420438411615e-07,
+      "logits/chosen": -2.223740577697754,
+      "logits/rejected": -2.239903688430786,
+      "logps/chosen": -245.8108673095703,
+      "logps/rejected": -246.0238037109375,
+      "loss": 0.6389,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 1.2945916652679443,
+      "rewards/margins": 0.8869680166244507,
+      "rewards/rejected": 0.407623827457428,
+      "step": 25
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 38.88842184904586,
+      "learning_rate": 9.814586436738997e-07,
+      "logits/chosen": -2.302748680114746,
+      "logits/rejected": -2.31158185005188,
+      "logps/chosen": -246.70578002929688,
+      "logps/rejected": -217.460205078125,
+      "loss": 0.6192,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": 1.3854382038116455,
+      "rewards/margins": 1.0373018980026245,
+      "rewards/rejected": 0.34813636541366577,
+      "step": 30
+    },
+    {
+      "epoch": 0.43613707165109034,
+      "grad_norm": 51.72443769242076,
+      "learning_rate": 9.711304610594102e-07,
+      "logits/chosen": -2.3440041542053223,
+      "logits/rejected": -2.31417179107666,
+      "logps/chosen": -224.3390350341797,
+      "logps/rejected": -194.77621459960938,
+      "loss": 0.5888,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.972150981426239,
+      "rewards/margins": 0.8106788396835327,
+      "rewards/rejected": 0.1614721715450287,
+      "step": 35
+    },
+    {
+      "epoch": 0.4984423676012461,
+      "grad_norm": 41.52935591539919,
+      "learning_rate": 9.586056507527264e-07,
+      "logits/chosen": -2.383333683013916,
+      "logits/rejected": -2.34763765335083,
+      "logps/chosen": -246.3532257080078,
+      "logps/rejected": -218.7850341796875,
+      "loss": 0.6391,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 1.0201754570007324,
+      "rewards/margins": 1.0443416833877563,
+      "rewards/rejected": -0.02416619285941124,
+      "step": 40
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "grad_norm": 37.760052208675,
+      "learning_rate": 9.439426092011875e-07,
+      "logits/chosen": -2.4347915649414062,
+      "logits/rejected": -2.3998470306396484,
+      "logps/chosen": -232.26266479492188,
+      "logps/rejected": -218.72866821289062,
+      "loss": 0.5939,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 1.1044284105300903,
+      "rewards/margins": 0.9438824653625488,
+      "rewards/rejected": 0.16054585576057434,
+      "step": 45
+    },
+    {
+      "epoch": 0.6230529595015576,
+      "grad_norm": 37.571273896281745,
+      "learning_rate": 9.272097022732443e-07,
+      "logits/chosen": -2.45988130569458,
+      "logits/rejected": -2.4507269859313965,
+      "logps/chosen": -249.6595916748047,
+      "logps/rejected": -218.61581420898438,
+      "loss": 0.5547,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 1.192905306816101,
+      "rewards/margins": 1.339156985282898,
+      "rewards/rejected": -0.14625166356563568,
+      "step": 50
+    },
+    {
+      "epoch": 0.6230529595015576,
+      "eval_logits/chosen": -2.489163637161255,
+      "eval_logits/rejected": -2.487579107284546,
+      "eval_logps/chosen": -237.33294677734375,
+      "eval_logps/rejected": -211.63194274902344,
+      "eval_loss": 0.5780755281448364,
+      "eval_rewards/accuracies": 0.7222222089767456,
+      "eval_rewards/chosen": 0.9537798762321472,
+      "eval_rewards/margins": 1.0286411046981812,
+      "eval_rewards/rejected": -0.07486122101545334,
+      "eval_runtime": 152.1375,
+      "eval_samples_per_second": 14.986,
+      "eval_steps_per_second": 0.237,
+      "step": 50
+    },
+    {
+      "epoch": 0.6853582554517134,
+      "grad_norm": 54.80320093683614,
+      "learning_rate": 9.084849465052209e-07,
+      "logits/chosen": -2.485079765319824,
+      "logits/rejected": -2.4753665924072266,
+      "logps/chosen": -235.5215301513672,
+      "logps/rejected": -220.1900177001953,
+      "loss": 0.5909,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": 0.7905256152153015,
+      "rewards/margins": 1.0766956806182861,
+      "rewards/rejected": -0.286170095205307,
+      "step": 55
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 39.23815457631208,
+      "learning_rate": 8.878556453522099e-07,
+      "logits/chosen": -2.4538919925689697,
+      "logits/rejected": -2.454207181930542,
+      "logps/chosen": -251.35598754882812,
+      "logps/rejected": -231.8341522216797,
+      "loss": 0.5733,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.9427865743637085,
+      "rewards/margins": 1.1441007852554321,
+      "rewards/rejected": -0.2013140171766281,
+      "step": 60
+    },
+    {
+      "epoch": 0.8099688473520249,
+      "grad_norm": 47.13645309746499,
+      "learning_rate": 8.654179821390621e-07,
+      "logits/chosen": -2.4390835762023926,
+      "logits/rejected": -2.449341297149658,
+      "logps/chosen": -262.5836486816406,
+      "logps/rejected": -209.0801239013672,
+      "loss": 0.5441,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 1.3532841205596924,
+      "rewards/margins": 1.4332042932510376,
+      "rewards/rejected": -0.07991998642683029,
+      "step": 65
+    },
+    {
+      "epoch": 0.8722741433021807,
+      "grad_norm": 40.00645275405077,
+      "learning_rate": 8.41276571609327e-07,
+      "logits/chosen": -2.4375357627868652,
+      "logits/rejected": -2.4228920936584473,
+      "logps/chosen": -246.0580291748047,
+      "logps/rejected": -219.20260620117188,
+      "loss": 0.5816,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 1.0882443189620972,
+      "rewards/margins": 1.3165982961654663,
+      "rewards/rejected": -0.22835393249988556,
+      "step": 70
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "grad_norm": 34.63673701954024,
+      "learning_rate": 8.155439721630264e-07,
+      "logits/chosen": -2.4634451866149902,
+      "logits/rejected": -2.4578163623809814,
+      "logps/chosen": -227.31924438476562,
+      "logps/rejected": -217.36508178710938,
+      "loss": 0.5334,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.8839371800422668,
+      "rewards/margins": 1.3334705829620361,
+      "rewards/rejected": -0.4495334029197693,
+      "step": 75
+    },
+    {
+      "epoch": 0.9968847352024922,
+      "grad_norm": 36.51497796461376,
+      "learning_rate": 7.883401610574336e-07,
+      "logits/chosen": -2.4859111309051514,
+      "logits/rejected": -2.465956211090088,
+      "logps/chosen": -242.3914794921875,
+      "logps/rejected": -210.991943359375,
+      "loss": 0.5281,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.5210741758346558,
+      "rewards/margins": 1.2326009273529053,
+      "rewards/rejected": -0.7115266919136047,
+      "step": 80
+    },
+    {
+      "epoch": 1.0591900311526479,
+      "grad_norm": 20.825789256058748,
+      "learning_rate": 7.597919750177168e-07,
+      "logits/chosen": -2.437802791595459,
+      "logits/rejected": -2.436861515045166,
+      "logps/chosen": -260.0554504394531,
+      "logps/rejected": -234.86740112304688,
+      "loss": 0.2507,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 0.9926292300224304,
+      "rewards/margins": 2.598191261291504,
+      "rewards/rejected": -1.6055622100830078,
+      "step": 85
+    },
+    {
+      "epoch": 1.1214953271028036,
+      "grad_norm": 17.02799613983615,
+      "learning_rate": 7.30032518865576e-07,
+      "logits/chosen": -2.417109489440918,
+      "logits/rejected": -2.404921770095825,
+      "logps/chosen": -233.2266387939453,
+      "logps/rejected": -226.57186889648438,
+      "loss": 0.2109,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 1.7625309228897095,
+      "rewards/margins": 3.178365707397461,
+      "rewards/rejected": -1.4158347845077515,
+      "step": 90
+    },
+    {
+      "epoch": 1.1838006230529594,
+      "grad_norm": 20.45306812774076,
+      "learning_rate": 6.992005449231207e-07,
+      "logits/chosen": -2.3889553546905518,
+      "logits/rejected": -2.38620924949646,
+      "logps/chosen": -251.99356079101562,
+      "logps/rejected": -243.1147918701172,
+      "loss": 0.2198,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 1.9874979257583618,
+      "rewards/margins": 3.548366069793701,
+      "rewards/rejected": -1.5608683824539185,
+      "step": 95
+    },
+    {
+      "epoch": 1.2461059190031152,
+      "grad_norm": 16.12410058725181,
+      "learning_rate": 6.67439806085493e-07,
+      "logits/chosen": -2.338783025741577,
+      "logits/rejected": -2.325284004211426,
+      "logps/chosen": -240.7113800048828,
+      "logps/rejected": -222.7356414794922,
+      "loss": 0.2103,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 2.1200156211853027,
+      "rewards/margins": 3.5902743339538574,
+      "rewards/rejected": -1.4702587127685547,
+      "step": 100
+    },
+    {
+      "epoch": 1.2461059190031152,
+      "eval_logits/chosen": -2.3138608932495117,
+      "eval_logits/rejected": -2.2990024089813232,
+      "eval_logps/chosen": -233.84922790527344,
+      "eval_logps/rejected": -214.24310302734375,
+      "eval_loss": 0.6053553819656372,
+      "eval_rewards/accuracies": 0.7777777910232544,
+      "eval_rewards/chosen": 1.3021522760391235,
+      "eval_rewards/margins": 1.638129472732544,
+      "eval_rewards/rejected": -0.33597710728645325,
+      "eval_runtime": 151.0351,
+      "eval_samples_per_second": 15.096,
+      "eval_steps_per_second": 0.238,
+      "step": 100
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1178822762299392.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76f2b3e84943b5dd83b432e5fc1a9d72a6bf5e6372062e773638a6ab756b8a14
+size 7096

checkpoint-200/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<image>": 32000,
+  "<pad>": 32001
+}

checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "_name_or_path": "/data/align-anything/hantao/models/llava-v1.6-mistral-7b-hf",
+  "architectures": [
+    "LlavaNextForConditionalGeneration"
+  ],
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_seq_length": 576,
+  "image_token_index": 32000,
+  "model_type": "llava_next",
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+    "architectures": [
+      "MistralForCausalLM"
+    ],
+    "intermediate_size": 14336,
+    "max_position_embeddings": 32768,
+    "model_type": "mistral",
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 32064
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "use_image_newline_parameter": true,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vocab_size": 32064
+}

checkpoint-200/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.45.2"
+}

checkpoint-200/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e00b135bf90f93a5245a213cbc335dc89f21dcf8905e79bfb0e4d59da510746
+size 4921618624

checkpoint-200/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cde8a79bdc40e290dc5f6615a26cbf7a19182c1b41156c6f5f7ba91cbbe329b
+size 4915917672

checkpoint-200/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac3750a4bcbd1c20ee4d1508e2a2eab04f61ad2dbae1b69c92f6c94e08b2c8da
+size 4915917680

checkpoint-200/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a49105ce2e837041ea3e359694fbe1596c4eb5030653c9a7d1b43cf775b15b3f
+size 380134008

checkpoint-200/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,694 @@

+{
+  "metadata": {
+    "total_size": 15133495296
+  },
+  "weight_map": {
+    "image_newline": "model-00001-of-00004.safetensors",
+    "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.norm.weight": "model-00004-of-00004.safetensors",
+    "multi_modal_projector.linear_1.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_1.weight": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.class_embedding": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.weight": "model-00001-of-00004.safetensors"
+  }
+}

checkpoint-200/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "aspect_ratio_setting": "anyres",
+  "crop_size": {
+    "height": 336,
+    "width": 336
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "LlavaNextImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "processor_class": "LlavaNextProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 336
+  }
+}

checkpoint-200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-200/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ '<s>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '`[INST] `' + content + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {
+    "image_token": "<image>"
+  },
+  "image_token": "<image>",
+  "legacy": true,
+  "max_length": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "processor_class": "LlavaNextProcessor",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,697 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.4922118380062304,
+  "eval_steps": 50,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06230529595015576,
+      "grad_norm": 51.38829302969845,
+      "learning_rate": 5e-07,
+      "logits/chosen": -2.7407402992248535,
+      "logits/rejected": -2.726320266723633,
+      "logps/chosen": -261.4151916503906,
+      "logps/rejected": -221.7285614013672,
+      "loss": 0.692,
+      "rewards/accuracies": 0.28125,
+      "rewards/chosen": 0.0067472741939127445,
+      "rewards/margins": -0.002469523111358285,
+      "rewards/rejected": 0.009216798469424248,
+      "step": 5
+    },
+    {
+      "epoch": 0.12461059190031153,
+      "grad_norm": 54.32144262101448,
+      "learning_rate": 1e-06,
+      "logits/chosen": -2.679516315460205,
+      "logits/rejected": -2.6851108074188232,
+      "logps/chosen": -244.4600067138672,
+      "logps/rejected": -194.29598999023438,
+      "loss": 0.6422,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 0.4551638066768646,
+      "rewards/margins": 0.20188376307487488,
+      "rewards/rejected": 0.2532801032066345,
+      "step": 10
+    },
+    {
+      "epoch": 0.18691588785046728,
+      "grad_norm": 44.80793063993453,
+      "learning_rate": 9.988343845952696e-07,
+      "logits/chosen": -2.4403023719787598,
+      "logits/rejected": -2.412696361541748,
+      "logps/chosen": -237.53103637695312,
+      "logps/rejected": -197.9112091064453,
+      "loss": 0.6663,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 1.520341396331787,
+      "rewards/margins": 0.5765382051467896,
+      "rewards/rejected": 0.9438031315803528,
+      "step": 15
+    },
+    {
+      "epoch": 0.24922118380062305,
+      "grad_norm": 49.11699733468642,
+      "learning_rate": 9.953429730181652e-07,
+      "logits/chosen": -2.2657809257507324,
+      "logits/rejected": -2.2547507286071777,
+      "logps/chosen": -225.1350860595703,
+      "logps/rejected": -232.2615203857422,
+      "loss": 0.669,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 1.3284717798233032,
+      "rewards/margins": 0.6173279285430908,
+      "rewards/rejected": 0.7111440896987915,
+      "step": 20
+    },
+    {
+      "epoch": 0.3115264797507788,
+      "grad_norm": 43.743825005172326,
+      "learning_rate": 9.895420438411615e-07,
+      "logits/chosen": -2.223740577697754,
+      "logits/rejected": -2.239903688430786,
+      "logps/chosen": -245.8108673095703,
+      "logps/rejected": -246.0238037109375,
+      "loss": 0.6389,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 1.2945916652679443,
+      "rewards/margins": 0.8869680166244507,
+      "rewards/rejected": 0.407623827457428,
+      "step": 25
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 38.88842184904586,
+      "learning_rate": 9.814586436738997e-07,
+      "logits/chosen": -2.302748680114746,
+      "logits/rejected": -2.31158185005188,
+      "logps/chosen": -246.70578002929688,
+      "logps/rejected": -217.460205078125,
+      "loss": 0.6192,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": 1.3854382038116455,
+      "rewards/margins": 1.0373018980026245,
+      "rewards/rejected": 0.34813636541366577,
+      "step": 30
+    },
+    {
+      "epoch": 0.43613707165109034,
+      "grad_norm": 51.72443769242076,
+      "learning_rate": 9.711304610594102e-07,
+      "logits/chosen": -2.3440041542053223,
+      "logits/rejected": -2.31417179107666,
+      "logps/chosen": -224.3390350341797,
+      "logps/rejected": -194.77621459960938,
+      "loss": 0.5888,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.972150981426239,
+      "rewards/margins": 0.8106788396835327,
+      "rewards/rejected": 0.1614721715450287,
+      "step": 35
+    },
+    {
+      "epoch": 0.4984423676012461,
+      "grad_norm": 41.52935591539919,
+      "learning_rate": 9.586056507527264e-07,
+      "logits/chosen": -2.383333683013916,
+      "logits/rejected": -2.34763765335083,
+      "logps/chosen": -246.3532257080078,
+      "logps/rejected": -218.7850341796875,
+      "loss": 0.6391,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 1.0201754570007324,
+      "rewards/margins": 1.0443416833877563,
+      "rewards/rejected": -0.02416619285941124,
+      "step": 40
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "grad_norm": 37.760052208675,
+      "learning_rate": 9.439426092011875e-07,
+      "logits/chosen": -2.4347915649414062,
+      "logits/rejected": -2.3998470306396484,
+      "logps/chosen": -232.26266479492188,
+      "logps/rejected": -218.72866821289062,
+      "loss": 0.5939,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 1.1044284105300903,
+      "rewards/margins": 0.9438824653625488,
+      "rewards/rejected": 0.16054585576057434,
+      "step": 45
+    },
+    {
+      "epoch": 0.6230529595015576,
+      "grad_norm": 37.571273896281745,
+      "learning_rate": 9.272097022732443e-07,
+      "logits/chosen": -2.45988130569458,
+      "logits/rejected": -2.4507269859313965,
+      "logps/chosen": -249.6595916748047,
+      "logps/rejected": -218.61581420898438,
+      "loss": 0.5547,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 1.192905306816101,
+      "rewards/margins": 1.339156985282898,
+      "rewards/rejected": -0.14625166356563568,
+      "step": 50
+    },
+    {
+      "epoch": 0.6230529595015576,
+      "eval_logits/chosen": -2.489163637161255,
+      "eval_logits/rejected": -2.487579107284546,
+      "eval_logps/chosen": -237.33294677734375,
+      "eval_logps/rejected": -211.63194274902344,
+      "eval_loss": 0.5780755281448364,
+      "eval_rewards/accuracies": 0.7222222089767456,
+      "eval_rewards/chosen": 0.9537798762321472,
+      "eval_rewards/margins": 1.0286411046981812,
+      "eval_rewards/rejected": -0.07486122101545334,
+      "eval_runtime": 152.1375,
+      "eval_samples_per_second": 14.986,
+      "eval_steps_per_second": 0.237,
+      "step": 50
+    },
+    {
+      "epoch": 0.6853582554517134,
+      "grad_norm": 54.80320093683614,
+      "learning_rate": 9.084849465052209e-07,
+      "logits/chosen": -2.485079765319824,
+      "logits/rejected": -2.4753665924072266,
+      "logps/chosen": -235.5215301513672,
+      "logps/rejected": -220.1900177001953,
+      "loss": 0.5909,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": 0.7905256152153015,
+      "rewards/margins": 1.0766956806182861,
+      "rewards/rejected": -0.286170095205307,
+      "step": 55
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 39.23815457631208,
+      "learning_rate": 8.878556453522099e-07,
+      "logits/chosen": -2.4538919925689697,
+      "logits/rejected": -2.454207181930542,
+      "logps/chosen": -251.35598754882812,
+      "logps/rejected": -231.8341522216797,
+      "loss": 0.5733,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.9427865743637085,
+      "rewards/margins": 1.1441007852554321,
+      "rewards/rejected": -0.2013140171766281,
+      "step": 60
+    },
+    {
+      "epoch": 0.8099688473520249,
+      "grad_norm": 47.13645309746499,
+      "learning_rate": 8.654179821390621e-07,
+      "logits/chosen": -2.4390835762023926,
+      "logits/rejected": -2.449341297149658,
+      "logps/chosen": -262.5836486816406,
+      "logps/rejected": -209.0801239013672,
+      "loss": 0.5441,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 1.3532841205596924,
+      "rewards/margins": 1.4332042932510376,
+      "rewards/rejected": -0.07991998642683029,
+      "step": 65
+    },
+    {
+      "epoch": 0.8722741433021807,
+      "grad_norm": 40.00645275405077,
+      "learning_rate": 8.41276571609327e-07,
+      "logits/chosen": -2.4375357627868652,
+      "logits/rejected": -2.4228920936584473,
+      "logps/chosen": -246.0580291748047,
+      "logps/rejected": -219.20260620117188,
+      "loss": 0.5816,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 1.0882443189620972,
+      "rewards/margins": 1.3165982961654663,
+      "rewards/rejected": -0.22835393249988556,
+      "step": 70
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "grad_norm": 34.63673701954024,
+      "learning_rate": 8.155439721630264e-07,
+      "logits/chosen": -2.4634451866149902,
+      "logits/rejected": -2.4578163623809814,
+      "logps/chosen": -227.31924438476562,
+      "logps/rejected": -217.36508178710938,
+      "loss": 0.5334,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.8839371800422668,
+      "rewards/margins": 1.3334705829620361,
+      "rewards/rejected": -0.4495334029197693,
+      "step": 75
+    },
+    {
+      "epoch": 0.9968847352024922,
+      "grad_norm": 36.51497796461376,
+      "learning_rate": 7.883401610574336e-07,
+      "logits/chosen": -2.4859111309051514,
+      "logits/rejected": -2.465956211090088,
+      "logps/chosen": -242.3914794921875,
+      "logps/rejected": -210.991943359375,
+      "loss": 0.5281,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.5210741758346558,
+      "rewards/margins": 1.2326009273529053,
+      "rewards/rejected": -0.7115266919136047,
+      "step": 80
+    },
+    {
+      "epoch": 1.0591900311526479,
+      "grad_norm": 20.825789256058748,
+      "learning_rate": 7.597919750177168e-07,
+      "logits/chosen": -2.437802791595459,
+      "logits/rejected": -2.436861515045166,
+      "logps/chosen": -260.0554504394531,
+      "logps/rejected": -234.86740112304688,
+      "loss": 0.2507,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 0.9926292300224304,
+      "rewards/margins": 2.598191261291504,
+      "rewards/rejected": -1.6055622100830078,
+      "step": 85
+    },
+    {
+      "epoch": 1.1214953271028036,
+      "grad_norm": 17.02799613983615,
+      "learning_rate": 7.30032518865576e-07,
+      "logits/chosen": -2.417109489440918,
+      "logits/rejected": -2.404921770095825,
+      "logps/chosen": -233.2266387939453,
+      "logps/rejected": -226.57186889648438,
+      "loss": 0.2109,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 1.7625309228897095,
+      "rewards/margins": 3.178365707397461,
+      "rewards/rejected": -1.4158347845077515,
+      "step": 90
+    },
+    {
+      "epoch": 1.1838006230529594,
+      "grad_norm": 20.45306812774076,
+      "learning_rate": 6.992005449231207e-07,
+      "logits/chosen": -2.3889553546905518,
+      "logits/rejected": -2.38620924949646,
+      "logps/chosen": -251.99356079101562,
+      "logps/rejected": -243.1147918701172,
+      "loss": 0.2198,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 1.9874979257583618,
+      "rewards/margins": 3.548366069793701,
+      "rewards/rejected": -1.5608683824539185,
+      "step": 95
+    },
+    {
+      "epoch": 1.2461059190031152,
+      "grad_norm": 16.12410058725181,
+      "learning_rate": 6.67439806085493e-07,
+      "logits/chosen": -2.338783025741577,
+      "logits/rejected": -2.325284004211426,
+      "logps/chosen": -240.7113800048828,
+      "logps/rejected": -222.7356414794922,
+      "loss": 0.2103,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 2.1200156211853027,
+      "rewards/margins": 3.5902743339538574,
+      "rewards/rejected": -1.4702587127685547,
+      "step": 100
+    },
+    {
+      "epoch": 1.2461059190031152,
+      "eval_logits/chosen": -2.3138608932495117,
+      "eval_logits/rejected": -2.2990024089813232,
+      "eval_logps/chosen": -233.84922790527344,
+      "eval_logps/rejected": -214.24310302734375,
+      "eval_loss": 0.6053553819656372,
+      "eval_rewards/accuracies": 0.7777777910232544,
+      "eval_rewards/chosen": 1.3021522760391235,
+      "eval_rewards/margins": 1.638129472732544,
+      "eval_rewards/rejected": -0.33597710728645325,
+      "eval_runtime": 151.0351,
+      "eval_samples_per_second": 15.096,
+      "eval_steps_per_second": 0.238,
+      "step": 100
+    },
+    {
+      "epoch": 1.308411214953271,
+      "grad_norm": 24.653682630335922,
+      "learning_rate": 6.348983855785121e-07,
+      "logits/chosen": -2.2989373207092285,
+      "logits/rejected": -2.290553569793701,
+      "logps/chosen": -242.45651245117188,
+      "logps/rejected": -214.2149658203125,
+      "loss": 0.2427,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 1.9658845663070679,
+      "rewards/margins": 3.365657091140747,
+      "rewards/rejected": -1.3997727632522583,
+      "step": 105
+    },
+    {
+      "epoch": 1.3707165109034267,
+      "grad_norm": 23.99763993646845,
+      "learning_rate": 6.01728006526317e-07,
+      "logits/chosen": -2.2708828449249268,
+      "logits/rejected": -2.22404408454895,
+      "logps/chosen": -240.62039184570312,
+      "logps/rejected": -212.97265625,
+      "loss": 0.2437,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 2.018810749053955,
+      "rewards/margins": 3.461576461791992,
+      "rewards/rejected": -1.442765474319458,
+      "step": 110
+    },
+    {
+      "epoch": 1.4330218068535825,
+      "grad_norm": 28.797618169798415,
+      "learning_rate": 5.680833245481234e-07,
+      "logits/chosen": -2.270700693130493,
+      "logits/rejected": -2.254040002822876,
+      "logps/chosen": -244.4936981201172,
+      "logps/rejected": -235.03982543945312,
+      "loss": 0.3121,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": 2.1543164253234863,
+      "rewards/margins": 3.647374391555786,
+      "rewards/rejected": -1.4930576086044312,
+      "step": 115
+    },
+    {
+      "epoch": 1.4953271028037383,
+      "grad_norm": 23.473075262058984,
+      "learning_rate": 5.341212066823355e-07,
+      "logits/chosen": -2.3658766746520996,
+      "logits/rejected": -2.3159148693084717,
+      "logps/chosen": -232.2969970703125,
+      "logps/rejected": -243.86593627929688,
+      "loss": 0.2509,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 2.186516284942627,
+      "rewards/margins": 3.8642489910125732,
+      "rewards/rejected": -1.6777331829071045,
+      "step": 120
+    },
+    {
+      "epoch": 1.557632398753894,
+      "grad_norm": 20.1682623902596,
+      "learning_rate": 5e-07,
+      "logits/chosen": -2.3667149543762207,
+      "logits/rejected": -2.360989809036255,
+      "logps/chosen": -233.6787109375,
+      "logps/rejected": -218.07400512695312,
+      "loss": 0.2581,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 2.068718671798706,
+      "rewards/margins": 3.0430657863616943,
+      "rewards/rejected": -0.9743471145629883,
+      "step": 125
+    },
+    {
+      "epoch": 1.6199376947040498,
+      "grad_norm": 25.280683256501696,
+      "learning_rate": 4.6587879331766457e-07,
+      "logits/chosen": -2.388986825942993,
+      "logits/rejected": -2.3711230754852295,
+      "logps/chosen": -235.60311889648438,
+      "logps/rejected": -224.765625,
+      "loss": 0.2676,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 2.094482183456421,
+      "rewards/margins": 3.472238063812256,
+      "rewards/rejected": -1.377756118774414,
+      "step": 130
+    },
+    {
+      "epoch": 1.6822429906542056,
+      "grad_norm": 27.72459722923311,
+      "learning_rate": 4.3191667545187675e-07,
+      "logits/chosen": -2.3894925117492676,
+      "logits/rejected": -2.373619556427002,
+      "logps/chosen": -227.37002563476562,
+      "logps/rejected": -210.1580047607422,
+      "loss": 0.3106,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 1.8648887872695923,
+      "rewards/margins": 3.196420192718506,
+      "rewards/rejected": -1.3315311670303345,
+      "step": 135
+    },
+    {
+      "epoch": 1.7445482866043613,
+      "grad_norm": 31.87683565676033,
+      "learning_rate": 3.9827199347368317e-07,
+      "logits/chosen": -2.4143717288970947,
+      "logits/rejected": -2.3826475143432617,
+      "logps/chosen": -239.6693572998047,
+      "logps/rejected": -235.18310546875,
+      "loss": 0.3051,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 2.101874589920044,
+      "rewards/margins": 3.821915864944458,
+      "rewards/rejected": -1.7200415134429932,
+      "step": 140
+    },
+    {
+      "epoch": 1.8068535825545171,
+      "grad_norm": 22.52672353938926,
+      "learning_rate": 3.651016144214878e-07,
+      "logits/chosen": -2.409569263458252,
+      "logits/rejected": -2.3817169666290283,
+      "logps/chosen": -234.31216430664062,
+      "logps/rejected": -235.0973358154297,
+      "loss": 0.2524,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 2.0497496128082275,
+      "rewards/margins": 3.438047409057617,
+      "rewards/rejected": -1.3882980346679688,
+      "step": 145
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "grad_norm": 18.620721977843708,
+      "learning_rate": 3.325601939145069e-07,
+      "logits/chosen": -2.389521360397339,
+      "logits/rejected": -2.376431465148926,
+      "logps/chosen": -227.772216796875,
+      "logps/rejected": -229.7588348388672,
+      "loss": 0.2095,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 1.8472219705581665,
+      "rewards/margins": 3.8442161083221436,
+      "rewards/rejected": -1.9969940185546875,
+      "step": 150
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "eval_logits/chosen": -2.387160539627075,
+      "eval_logits/rejected": -2.3737096786499023,
+      "eval_logps/chosen": -232.7999725341797,
+      "eval_logps/rejected": -216.12271118164062,
+      "eval_loss": 0.5997537970542908,
+      "eval_rewards/accuracies": 0.7743055820465088,
+      "eval_rewards/chosen": 1.4070783853530884,
+      "eval_rewards/margins": 1.9310154914855957,
+      "eval_rewards/rejected": -0.5239372253417969,
+      "eval_runtime": 151.4198,
+      "eval_samples_per_second": 15.057,
+      "eval_steps_per_second": 0.238,
+      "step": 150
+    },
+    {
+      "epoch": 1.9314641744548287,
+      "grad_norm": 21.107555847149946,
+      "learning_rate": 3.007994550768793e-07,
+      "logits/chosen": -2.34552264213562,
+      "logits/rejected": -2.3452506065368652,
+      "logps/chosen": -232.08834838867188,
+      "logps/rejected": -241.10519409179688,
+      "loss": 0.2781,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 1.9657140970230103,
+      "rewards/margins": 3.589655637741089,
+      "rewards/rejected": -1.6239420175552368,
+      "step": 155
+    },
+    {
+      "epoch": 1.9937694704049844,
+      "grad_norm": 27.047203132356024,
+      "learning_rate": 2.699674811344239e-07,
+      "logits/chosen": -2.3365378379821777,
+      "logits/rejected": -2.3133881092071533,
+      "logps/chosen": -262.26690673828125,
+      "logps/rejected": -240.2264862060547,
+      "loss": 0.285,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": 2.5078001022338867,
+      "rewards/margins": 3.6130905151367188,
+      "rewards/rejected": -1.105290174484253,
+      "step": 160
+    },
+    {
+      "epoch": 2.05607476635514,
+      "grad_norm": 15.009687081782982,
+      "learning_rate": 2.4020802498228334e-07,
+      "logits/chosen": -2.3232502937316895,
+      "logits/rejected": -2.25954008102417,
+      "logps/chosen": -228.8788604736328,
+      "logps/rejected": -219.2600860595703,
+      "loss": 0.1447,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 2.339390277862549,
+      "rewards/margins": 3.8433260917663574,
+      "rewards/rejected": -1.5039361715316772,
+      "step": 165
+    },
+    {
+      "epoch": 2.1183800623052957,
+      "grad_norm": 13.575529236402222,
+      "learning_rate": 2.1165983894256646e-07,
+      "logits/chosen": -2.3263421058654785,
+      "logits/rejected": -2.2757723331451416,
+      "logps/chosen": -231.72366333007812,
+      "logps/rejected": -209.7088623046875,
+      "loss": 0.1306,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 2.5836586952209473,
+      "rewards/margins": 4.131028175354004,
+      "rewards/rejected": -1.5473694801330566,
+      "step": 170
+    },
+    {
+      "epoch": 2.1806853582554515,
+      "grad_norm": 21.912200560703297,
+      "learning_rate": 1.8445602783697373e-07,
+      "logits/chosen": -2.274022340774536,
+      "logits/rejected": -2.27970290184021,
+      "logps/chosen": -220.47201538085938,
+      "logps/rejected": -237.96298217773438,
+      "loss": 0.1521,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 2.145082950592041,
+      "rewards/margins": 4.457543849945068,
+      "rewards/rejected": -2.3124611377716064,
+      "step": 175
+    },
+    {
+      "epoch": 2.2429906542056073,
+      "grad_norm": 13.769383169619562,
+      "learning_rate": 1.5872342839067304e-07,
+      "logits/chosen": -2.27915620803833,
+      "logits/rejected": -2.2511637210845947,
+      "logps/chosen": -234.8832550048828,
+      "logps/rejected": -230.9884796142578,
+      "loss": 0.1365,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 2.4758851528167725,
+      "rewards/margins": 4.525899887084961,
+      "rewards/rejected": -2.050014019012451,
+      "step": 180
+    },
+    {
+      "epoch": 2.305295950155763,
+      "grad_norm": 15.714968300704413,
+      "learning_rate": 1.3458201786093794e-07,
+      "logits/chosen": -2.2769675254821777,
+      "logits/rejected": -2.2372546195983887,
+      "logps/chosen": -254.29257202148438,
+      "logps/rejected": -231.6654815673828,
+      "loss": 0.1485,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": 2.103557586669922,
+      "rewards/margins": 4.048580169677734,
+      "rewards/rejected": -1.9450223445892334,
+      "step": 185
+    },
+    {
+      "epoch": 2.367601246105919,
+      "grad_norm": 17.400239039982335,
+      "learning_rate": 1.1214435464779003e-07,
+      "logits/chosen": -2.257563591003418,
+      "logits/rejected": -2.221086025238037,
+      "logps/chosen": -246.0885009765625,
+      "logps/rejected": -243.9921417236328,
+      "loss": 0.1361,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 2.082960605621338,
+      "rewards/margins": 4.483183860778809,
+      "rewards/rejected": -2.4002232551574707,
+      "step": 190
+    },
+    {
+      "epoch": 2.4299065420560746,
+      "grad_norm": 18.536501030355655,
+      "learning_rate": 9.1515053494779e-08,
+      "logits/chosen": -2.2309863567352295,
+      "logits/rejected": -2.231677532196045,
+      "logps/chosen": -252.19198608398438,
+      "logps/rejected": -236.55419921875,
+      "loss": 0.153,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 2.158655881881714,
+      "rewards/margins": 4.387732982635498,
+      "rewards/rejected": -2.229076862335205,
+      "step": 195
+    },
+    {
+      "epoch": 2.4922118380062304,
+      "grad_norm": 16.28538830494891,
+      "learning_rate": 7.279029772675571e-08,
+      "logits/chosen": -2.2156031131744385,
+      "logits/rejected": -2.206735849380493,
+      "logps/chosen": -233.7646942138672,
+      "logps/rejected": -236.1497039794922,
+      "loss": 0.1498,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 2.1195907592773438,
+      "rewards/margins": 3.97522234916687,
+      "rewards/rejected": -1.8556314706802368,
+      "step": 200
+    },
+    {
+      "epoch": 2.4922118380062304,
+      "eval_logits/chosen": -2.2468643188476562,
+      "eval_logits/rejected": -2.225817918777466,
+      "eval_logps/chosen": -235.95494079589844,
+      "eval_logps/rejected": -220.96902465820312,
+      "eval_loss": 0.5972098112106323,
+      "eval_rewards/accuracies": 0.7847222089767456,
+      "eval_rewards/chosen": 1.0915825366973877,
+      "eval_rewards/margins": 2.100149393081665,
+      "eval_rewards/rejected": -1.008566975593567,
+      "eval_runtime": 151.4569,
+      "eval_samples_per_second": 15.054,
+      "eval_steps_per_second": 0.238,
+      "step": 200
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2358113407598592.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76f2b3e84943b5dd83b432e5fc1a9d72a6bf5e6372062e773638a6ab756b8a14
+size 7096

checkpoint-240/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<image>": 32000,
+  "<pad>": 32001
+}

checkpoint-240/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "_name_or_path": "/data/align-anything/hantao/models/llava-v1.6-mistral-7b-hf",
+  "architectures": [
+    "LlavaNextForConditionalGeneration"
+  ],
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_seq_length": 576,
+  "image_token_index": 32000,
+  "model_type": "llava_next",
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+    "architectures": [
+      "MistralForCausalLM"
+    ],
+    "intermediate_size": 14336,
+    "max_position_embeddings": 32768,
+    "model_type": "mistral",
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 32064
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "use_image_newline_parameter": true,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vocab_size": 32064
+}

checkpoint-240/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.45.2"
+}

checkpoint-240/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb27a56123e6a8701603de7c8b733155256926e4c9bb2d82d5509b9e55e6c35a
+size 4921618624

checkpoint-240/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:853eb16cc792700243d5d4911259d1bf96f4cafe38fa20c9657c237158ecd998
+size 4915917672

checkpoint-240/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:972ab5d3329c85a3b736ad201a1fb11c7efe5818d6ba2bd58fc498c86cbf554b
+size 4915917680

checkpoint-240/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f935b28b96691b77a36e41b8058825eef4b4441d74e8db42981342539bf7a0f
+size 380134008

checkpoint-240/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,694 @@

+{
+  "metadata": {
+    "total_size": 15133495296
+  },
+  "weight_map": {
+    "image_newline": "model-00001-of-00004.safetensors",
+    "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.norm.weight": "model-00004-of-00004.safetensors",
+    "multi_modal_projector.linear_1.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_1.weight": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.class_embedding": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.weight": "model-00001-of-00004.safetensors"
+  }
+}

checkpoint-240/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "aspect_ratio_setting": "anyres",
+  "crop_size": {
+    "height": 336,
+    "width": 336
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "LlavaNextImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "processor_class": "LlavaNextProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 336
+  }
+}

checkpoint-240/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-240/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-240/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-240/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ '<s>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '`[INST] `' + content + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {
+    "image_token": "<image>"
+  },
+  "image_token": "<image>",
+  "legacy": true,
+  "max_length": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "processor_class": "LlavaNextProcessor",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,817 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9906542056074765,
+  "eval_steps": 50,
+  "global_step": 240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06230529595015576,
+      "grad_norm": 51.38829302969845,
+      "learning_rate": 5e-07,
+      "logits/chosen": -2.7407402992248535,
+      "logits/rejected": -2.726320266723633,
+      "logps/chosen": -261.4151916503906,
+      "logps/rejected": -221.7285614013672,
+      "loss": 0.692,
+      "rewards/accuracies": 0.28125,
+      "rewards/chosen": 0.0067472741939127445,
+      "rewards/margins": -0.002469523111358285,
+      "rewards/rejected": 0.009216798469424248,
+      "step": 5
+    },
+    {
+      "epoch": 0.12461059190031153,
+      "grad_norm": 54.32144262101448,
+      "learning_rate": 1e-06,
+      "logits/chosen": -2.679516315460205,
+      "logits/rejected": -2.6851108074188232,
+      "logps/chosen": -244.4600067138672,
+      "logps/rejected": -194.29598999023438,
+      "loss": 0.6422,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 0.4551638066768646,
+      "rewards/margins": 0.20188376307487488,
+      "rewards/rejected": 0.2532801032066345,
+      "step": 10
+    },
+    {
+      "epoch": 0.18691588785046728,
+      "grad_norm": 44.80793063993453,
+      "learning_rate": 9.988343845952696e-07,
+      "logits/chosen": -2.4403023719787598,
+      "logits/rejected": -2.412696361541748,
+      "logps/chosen": -237.53103637695312,
+      "logps/rejected": -197.9112091064453,
+      "loss": 0.6663,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 1.520341396331787,
+      "rewards/margins": 0.5765382051467896,
+      "rewards/rejected": 0.9438031315803528,
+      "step": 15
+    },
+    {
+      "epoch": 0.24922118380062305,
+      "grad_norm": 49.11699733468642,
+      "learning_rate": 9.953429730181652e-07,
+      "logits/chosen": -2.2657809257507324,
+      "logits/rejected": -2.2547507286071777,
+      "logps/chosen": -225.1350860595703,
+      "logps/rejected": -232.2615203857422,
+      "loss": 0.669,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 1.3284717798233032,
+      "rewards/margins": 0.6173279285430908,
+      "rewards/rejected": 0.7111440896987915,
+      "step": 20
+    },
+    {
+      "epoch": 0.3115264797507788,
+      "grad_norm": 43.743825005172326,
+      "learning_rate": 9.895420438411615e-07,
+      "logits/chosen": -2.223740577697754,
+      "logits/rejected": -2.239903688430786,
+      "logps/chosen": -245.8108673095703,
+      "logps/rejected": -246.0238037109375,
+      "loss": 0.6389,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 1.2945916652679443,
+      "rewards/margins": 0.8869680166244507,
+      "rewards/rejected": 0.407623827457428,
+      "step": 25
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 38.88842184904586,
+      "learning_rate": 9.814586436738997e-07,
+      "logits/chosen": -2.302748680114746,
+      "logits/rejected": -2.31158185005188,
+      "logps/chosen": -246.70578002929688,
+      "logps/rejected": -217.460205078125,
+      "loss": 0.6192,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": 1.3854382038116455,
+      "rewards/margins": 1.0373018980026245,
+      "rewards/rejected": 0.34813636541366577,
+      "step": 30
+    },
+    {
+      "epoch": 0.43613707165109034,
+      "grad_norm": 51.72443769242076,
+      "learning_rate": 9.711304610594102e-07,
+      "logits/chosen": -2.3440041542053223,
+      "logits/rejected": -2.31417179107666,
+      "logps/chosen": -224.3390350341797,
+      "logps/rejected": -194.77621459960938,
+      "loss": 0.5888,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.972150981426239,
+      "rewards/margins": 0.8106788396835327,
+      "rewards/rejected": 0.1614721715450287,
+      "step": 35
+    },
+    {
+      "epoch": 0.4984423676012461,
+      "grad_norm": 41.52935591539919,
+      "learning_rate": 9.586056507527264e-07,
+      "logits/chosen": -2.383333683013916,
+      "logits/rejected": -2.34763765335083,
+      "logps/chosen": -246.3532257080078,
+      "logps/rejected": -218.7850341796875,
+      "loss": 0.6391,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 1.0201754570007324,
+      "rewards/margins": 1.0443416833877563,
+      "rewards/rejected": -0.02416619285941124,
+      "step": 40
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "grad_norm": 37.760052208675,
+      "learning_rate": 9.439426092011875e-07,
+      "logits/chosen": -2.4347915649414062,
+      "logits/rejected": -2.3998470306396484,
+      "logps/chosen": -232.26266479492188,
+      "logps/rejected": -218.72866821289062,
+      "loss": 0.5939,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 1.1044284105300903,
+      "rewards/margins": 0.9438824653625488,
+      "rewards/rejected": 0.16054585576057434,
+      "step": 45
+    },
+    {
+      "epoch": 0.6230529595015576,
+      "grad_norm": 37.571273896281745,
+      "learning_rate": 9.272097022732443e-07,
+      "logits/chosen": -2.45988130569458,
+      "logits/rejected": -2.4507269859313965,
+      "logps/chosen": -249.6595916748047,
+      "logps/rejected": -218.61581420898438,
+      "loss": 0.5547,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 1.192905306816101,
+      "rewards/margins": 1.339156985282898,
+      "rewards/rejected": -0.14625166356563568,
+      "step": 50
+    },
+    {
+      "epoch": 0.6230529595015576,
+      "eval_logits/chosen": -2.489163637161255,
+      "eval_logits/rejected": -2.487579107284546,
+      "eval_logps/chosen": -237.33294677734375,
+      "eval_logps/rejected": -211.63194274902344,
+      "eval_loss": 0.5780755281448364,
+      "eval_rewards/accuracies": 0.7222222089767456,
+      "eval_rewards/chosen": 0.9537798762321472,
+      "eval_rewards/margins": 1.0286411046981812,
+      "eval_rewards/rejected": -0.07486122101545334,
+      "eval_runtime": 152.1375,
+      "eval_samples_per_second": 14.986,
+      "eval_steps_per_second": 0.237,
+      "step": 50
+    },
+    {
+      "epoch": 0.6853582554517134,
+      "grad_norm": 54.80320093683614,
+      "learning_rate": 9.084849465052209e-07,
+      "logits/chosen": -2.485079765319824,
+      "logits/rejected": -2.4753665924072266,
+      "logps/chosen": -235.5215301513672,
+      "logps/rejected": -220.1900177001953,
+      "loss": 0.5909,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": 0.7905256152153015,
+      "rewards/margins": 1.0766956806182861,
+      "rewards/rejected": -0.286170095205307,
+      "step": 55
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 39.23815457631208,
+      "learning_rate": 8.878556453522099e-07,
+      "logits/chosen": -2.4538919925689697,
+      "logits/rejected": -2.454207181930542,
+      "logps/chosen": -251.35598754882812,
+      "logps/rejected": -231.8341522216797,
+      "loss": 0.5733,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.9427865743637085,
+      "rewards/margins": 1.1441007852554321,
+      "rewards/rejected": -0.2013140171766281,
+      "step": 60
+    },
+    {
+      "epoch": 0.8099688473520249,
+      "grad_norm": 47.13645309746499,
+      "learning_rate": 8.654179821390621e-07,
+      "logits/chosen": -2.4390835762023926,
+      "logits/rejected": -2.449341297149658,
+      "logps/chosen": -262.5836486816406,
+      "logps/rejected": -209.0801239013672,
+      "loss": 0.5441,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 1.3532841205596924,
+      "rewards/margins": 1.4332042932510376,
+      "rewards/rejected": -0.07991998642683029,
+      "step": 65
+    },
+    {
+      "epoch": 0.8722741433021807,
+      "grad_norm": 40.00645275405077,
+      "learning_rate": 8.41276571609327e-07,
+      "logits/chosen": -2.4375357627868652,
+      "logits/rejected": -2.4228920936584473,
+      "logps/chosen": -246.0580291748047,
+      "logps/rejected": -219.20260620117188,
+      "loss": 0.5816,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 1.0882443189620972,
+      "rewards/margins": 1.3165982961654663,
+      "rewards/rejected": -0.22835393249988556,
+      "step": 70
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "grad_norm": 34.63673701954024,
+      "learning_rate": 8.155439721630264e-07,
+      "logits/chosen": -2.4634451866149902,
+      "logits/rejected": -2.4578163623809814,
+      "logps/chosen": -227.31924438476562,
+      "logps/rejected": -217.36508178710938,
+      "loss": 0.5334,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.8839371800422668,
+      "rewards/margins": 1.3334705829620361,
+      "rewards/rejected": -0.4495334029197693,
+      "step": 75
+    },
+    {
+      "epoch": 0.9968847352024922,
+      "grad_norm": 36.51497796461376,
+      "learning_rate": 7.883401610574336e-07,
+      "logits/chosen": -2.4859111309051514,
+      "logits/rejected": -2.465956211090088,
+      "logps/chosen": -242.3914794921875,
+      "logps/rejected": -210.991943359375,
+      "loss": 0.5281,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.5210741758346558,
+      "rewards/margins": 1.2326009273529053,
+      "rewards/rejected": -0.7115266919136047,
+      "step": 80
+    },
+    {
+      "epoch": 1.0591900311526479,
+      "grad_norm": 20.825789256058748,
+      "learning_rate": 7.597919750177168e-07,
+      "logits/chosen": -2.437802791595459,
+      "logits/rejected": -2.436861515045166,
+      "logps/chosen": -260.0554504394531,
+      "logps/rejected": -234.86740112304688,
+      "loss": 0.2507,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 0.9926292300224304,
+      "rewards/margins": 2.598191261291504,
+      "rewards/rejected": -1.6055622100830078,
+      "step": 85
+    },
+    {
+      "epoch": 1.1214953271028036,
+      "grad_norm": 17.02799613983615,
+      "learning_rate": 7.30032518865576e-07,
+      "logits/chosen": -2.417109489440918,
+      "logits/rejected": -2.404921770095825,
+      "logps/chosen": -233.2266387939453,
+      "logps/rejected": -226.57186889648438,
+      "loss": 0.2109,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 1.7625309228897095,
+      "rewards/margins": 3.178365707397461,
+      "rewards/rejected": -1.4158347845077515,
+      "step": 90
+    },
+    {
+      "epoch": 1.1838006230529594,
+      "grad_norm": 20.45306812774076,
+      "learning_rate": 6.992005449231207e-07,
+      "logits/chosen": -2.3889553546905518,
+      "logits/rejected": -2.38620924949646,
+      "logps/chosen": -251.99356079101562,
+      "logps/rejected": -243.1147918701172,
+      "loss": 0.2198,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 1.9874979257583618,
+      "rewards/margins": 3.548366069793701,
+      "rewards/rejected": -1.5608683824539185,
+      "step": 95
+    },
+    {
+      "epoch": 1.2461059190031152,
+      "grad_norm": 16.12410058725181,
+      "learning_rate": 6.67439806085493e-07,
+      "logits/chosen": -2.338783025741577,
+      "logits/rejected": -2.325284004211426,
+      "logps/chosen": -240.7113800048828,
+      "logps/rejected": -222.7356414794922,
+      "loss": 0.2103,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 2.1200156211853027,
+      "rewards/margins": 3.5902743339538574,
+      "rewards/rejected": -1.4702587127685547,
+      "step": 100
+    },
+    {
+      "epoch": 1.2461059190031152,
+      "eval_logits/chosen": -2.3138608932495117,
+      "eval_logits/rejected": -2.2990024089813232,
+      "eval_logps/chosen": -233.84922790527344,
+      "eval_logps/rejected": -214.24310302734375,
+      "eval_loss": 0.6053553819656372,
+      "eval_rewards/accuracies": 0.7777777910232544,
+      "eval_rewards/chosen": 1.3021522760391235,
+      "eval_rewards/margins": 1.638129472732544,
+      "eval_rewards/rejected": -0.33597710728645325,
+      "eval_runtime": 151.0351,
+      "eval_samples_per_second": 15.096,
+      "eval_steps_per_second": 0.238,
+      "step": 100
+    },
+    {
+      "epoch": 1.308411214953271,
+      "grad_norm": 24.653682630335922,
+      "learning_rate": 6.348983855785121e-07,
+      "logits/chosen": -2.2989373207092285,
+      "logits/rejected": -2.290553569793701,
+      "logps/chosen": -242.45651245117188,
+      "logps/rejected": -214.2149658203125,
+      "loss": 0.2427,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 1.9658845663070679,
+      "rewards/margins": 3.365657091140747,
+      "rewards/rejected": -1.3997727632522583,
+      "step": 105
+    },
+    {
+      "epoch": 1.3707165109034267,
+      "grad_norm": 23.99763993646845,
+      "learning_rate": 6.01728006526317e-07,
+      "logits/chosen": -2.2708828449249268,
+      "logits/rejected": -2.22404408454895,
+      "logps/chosen": -240.62039184570312,
+      "logps/rejected": -212.97265625,
+      "loss": 0.2437,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 2.018810749053955,
+      "rewards/margins": 3.461576461791992,
+      "rewards/rejected": -1.442765474319458,
+      "step": 110
+    },
+    {
+      "epoch": 1.4330218068535825,
+      "grad_norm": 28.797618169798415,
+      "learning_rate": 5.680833245481234e-07,
+      "logits/chosen": -2.270700693130493,
+      "logits/rejected": -2.254040002822876,
+      "logps/chosen": -244.4936981201172,
+      "logps/rejected": -235.03982543945312,
+      "loss": 0.3121,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": 2.1543164253234863,
+      "rewards/margins": 3.647374391555786,
+      "rewards/rejected": -1.4930576086044312,
+      "step": 115
+    },
+    {
+      "epoch": 1.4953271028037383,
+      "grad_norm": 23.473075262058984,
+      "learning_rate": 5.341212066823355e-07,
+      "logits/chosen": -2.3658766746520996,
+      "logits/rejected": -2.3159148693084717,
+      "logps/chosen": -232.2969970703125,
+      "logps/rejected": -243.86593627929688,
+      "loss": 0.2509,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 2.186516284942627,
+      "rewards/margins": 3.8642489910125732,
+      "rewards/rejected": -1.6777331829071045,
+      "step": 120
+    },
+    {
+      "epoch": 1.557632398753894,
+      "grad_norm": 20.1682623902596,
+      "learning_rate": 5e-07,
+      "logits/chosen": -2.3667149543762207,
+      "logits/rejected": -2.360989809036255,
+      "logps/chosen": -233.6787109375,
+      "logps/rejected": -218.07400512695312,
+      "loss": 0.2581,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 2.068718671798706,
+      "rewards/margins": 3.0430657863616943,
+      "rewards/rejected": -0.9743471145629883,
+      "step": 125
+    },
+    {
+      "epoch": 1.6199376947040498,
+      "grad_norm": 25.280683256501696,
+      "learning_rate": 4.6587879331766457e-07,
+      "logits/chosen": -2.388986825942993,
+      "logits/rejected": -2.3711230754852295,
+      "logps/chosen": -235.60311889648438,
+      "logps/rejected": -224.765625,
+      "loss": 0.2676,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 2.094482183456421,
+      "rewards/margins": 3.472238063812256,
+      "rewards/rejected": -1.377756118774414,
+      "step": 130
+    },
+    {
+      "epoch": 1.6822429906542056,
+      "grad_norm": 27.72459722923311,
+      "learning_rate": 4.3191667545187675e-07,
+      "logits/chosen": -2.3894925117492676,
+      "logits/rejected": -2.373619556427002,
+      "logps/chosen": -227.37002563476562,
+      "logps/rejected": -210.1580047607422,
+      "loss": 0.3106,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 1.8648887872695923,
+      "rewards/margins": 3.196420192718506,
+      "rewards/rejected": -1.3315311670303345,
+      "step": 135
+    },
+    {
+      "epoch": 1.7445482866043613,
+      "grad_norm": 31.87683565676033,
+      "learning_rate": 3.9827199347368317e-07,
+      "logits/chosen": -2.4143717288970947,
+      "logits/rejected": -2.3826475143432617,
+      "logps/chosen": -239.6693572998047,
+      "logps/rejected": -235.18310546875,
+      "loss": 0.3051,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 2.101874589920044,
+      "rewards/margins": 3.821915864944458,
+      "rewards/rejected": -1.7200415134429932,
+      "step": 140
+    },
+    {
+      "epoch": 1.8068535825545171,
+      "grad_norm": 22.52672353938926,
+      "learning_rate": 3.651016144214878e-07,
+      "logits/chosen": -2.409569263458252,
+      "logits/rejected": -2.3817169666290283,
+      "logps/chosen": -234.31216430664062,
+      "logps/rejected": -235.0973358154297,
+      "loss": 0.2524,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 2.0497496128082275,
+      "rewards/margins": 3.438047409057617,
+      "rewards/rejected": -1.3882980346679688,
+      "step": 145
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "grad_norm": 18.620721977843708,
+      "learning_rate": 3.325601939145069e-07,
+      "logits/chosen": -2.389521360397339,
+      "logits/rejected": -2.376431465148926,
+      "logps/chosen": -227.772216796875,
+      "logps/rejected": -229.7588348388672,
+      "loss": 0.2095,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 1.8472219705581665,
+      "rewards/margins": 3.8442161083221436,
+      "rewards/rejected": -1.9969940185546875,
+      "step": 150
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "eval_logits/chosen": -2.387160539627075,
+      "eval_logits/rejected": -2.3737096786499023,
+      "eval_logps/chosen": -232.7999725341797,
+      "eval_logps/rejected": -216.12271118164062,
+      "eval_loss": 0.5997537970542908,
+      "eval_rewards/accuracies": 0.7743055820465088,
+      "eval_rewards/chosen": 1.4070783853530884,
+      "eval_rewards/margins": 1.9310154914855957,
+      "eval_rewards/rejected": -0.5239372253417969,
+      "eval_runtime": 151.4198,
+      "eval_samples_per_second": 15.057,
+      "eval_steps_per_second": 0.238,
+      "step": 150
+    },
+    {
+      "epoch": 1.9314641744548287,
+      "grad_norm": 21.107555847149946,
+      "learning_rate": 3.007994550768793e-07,
+      "logits/chosen": -2.34552264213562,
+      "logits/rejected": -2.3452506065368652,
+      "logps/chosen": -232.08834838867188,
+      "logps/rejected": -241.10519409179688,
+      "loss": 0.2781,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 1.9657140970230103,
+      "rewards/margins": 3.589655637741089,
+      "rewards/rejected": -1.6239420175552368,
+      "step": 155
+    },
+    {
+      "epoch": 1.9937694704049844,
+      "grad_norm": 27.047203132356024,
+      "learning_rate": 2.699674811344239e-07,
+      "logits/chosen": -2.3365378379821777,
+      "logits/rejected": -2.3133881092071533,
+      "logps/chosen": -262.26690673828125,
+      "logps/rejected": -240.2264862060547,
+      "loss": 0.285,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": 2.5078001022338867,
+      "rewards/margins": 3.6130905151367188,
+      "rewards/rejected": -1.105290174484253,
+      "step": 160
+    },
+    {
+      "epoch": 2.05607476635514,
+      "grad_norm": 15.009687081782982,
+      "learning_rate": 2.4020802498228334e-07,
+      "logits/chosen": -2.3232502937316895,
+      "logits/rejected": -2.25954008102417,
+      "logps/chosen": -228.8788604736328,
+      "logps/rejected": -219.2600860595703,
+      "loss": 0.1447,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 2.339390277862549,
+      "rewards/margins": 3.8433260917663574,
+      "rewards/rejected": -1.5039361715316772,
+      "step": 165
+    },
+    {
+      "epoch": 2.1183800623052957,
+      "grad_norm": 13.575529236402222,
+      "learning_rate": 2.1165983894256646e-07,
+      "logits/chosen": -2.3263421058654785,
+      "logits/rejected": -2.2757723331451416,
+      "logps/chosen": -231.72366333007812,
+      "logps/rejected": -209.7088623046875,
+      "loss": 0.1306,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 2.5836586952209473,
+      "rewards/margins": 4.131028175354004,
+      "rewards/rejected": -1.5473694801330566,
+      "step": 170
+    },
+    {
+      "epoch": 2.1806853582554515,
+      "grad_norm": 21.912200560703297,
+      "learning_rate": 1.8445602783697373e-07,
+      "logits/chosen": -2.274022340774536,
+      "logits/rejected": -2.27970290184021,
+      "logps/chosen": -220.47201538085938,
+      "logps/rejected": -237.96298217773438,
+      "loss": 0.1521,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 2.145082950592041,
+      "rewards/margins": 4.457543849945068,
+      "rewards/rejected": -2.3124611377716064,
+      "step": 175
+    },
+    {
+      "epoch": 2.2429906542056073,
+      "grad_norm": 13.769383169619562,
+      "learning_rate": 1.5872342839067304e-07,
+      "logits/chosen": -2.27915620803833,
+      "logits/rejected": -2.2511637210845947,
+      "logps/chosen": -234.8832550048828,
+      "logps/rejected": -230.9884796142578,
+      "loss": 0.1365,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 2.4758851528167725,
+      "rewards/margins": 4.525899887084961,
+      "rewards/rejected": -2.050014019012451,
+      "step": 180
+    },
+    {
+      "epoch": 2.305295950155763,
+      "grad_norm": 15.714968300704413,
+      "learning_rate": 1.3458201786093794e-07,
+      "logits/chosen": -2.2769675254821777,
+      "logits/rejected": -2.2372546195983887,
+      "logps/chosen": -254.29257202148438,
+      "logps/rejected": -231.6654815673828,
+      "loss": 0.1485,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": 2.103557586669922,
+      "rewards/margins": 4.048580169677734,
+      "rewards/rejected": -1.9450223445892334,
+      "step": 185
+    },
+    {
+      "epoch": 2.367601246105919,
+      "grad_norm": 17.400239039982335,
+      "learning_rate": 1.1214435464779003e-07,
+      "logits/chosen": -2.257563591003418,
+      "logits/rejected": -2.221086025238037,
+      "logps/chosen": -246.0885009765625,
+      "logps/rejected": -243.9921417236328,
+      "loss": 0.1361,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 2.082960605621338,
+      "rewards/margins": 4.483183860778809,
+      "rewards/rejected": -2.4002232551574707,
+      "step": 190
+    },
+    {
+      "epoch": 2.4299065420560746,
+      "grad_norm": 18.536501030355655,
+      "learning_rate": 9.1515053494779e-08,
+      "logits/chosen": -2.2309863567352295,
+      "logits/rejected": -2.231677532196045,
+      "logps/chosen": -252.19198608398438,
+      "logps/rejected": -236.55419921875,
+      "loss": 0.153,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 2.158655881881714,
+      "rewards/margins": 4.387732982635498,
+      "rewards/rejected": -2.229076862335205,
+      "step": 195
+    },
+    {
+      "epoch": 2.4922118380062304,
+      "grad_norm": 16.28538830494891,
+      "learning_rate": 7.279029772675571e-08,
+      "logits/chosen": -2.2156031131744385,
+      "logits/rejected": -2.206735849380493,
+      "logps/chosen": -233.7646942138672,
+      "logps/rejected": -236.1497039794922,
+      "loss": 0.1498,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 2.1195907592773438,
+      "rewards/margins": 3.97522234916687,
+      "rewards/rejected": -1.8556314706802368,
+      "step": 200
+    },
+    {
+      "epoch": 2.4922118380062304,
+      "eval_logits/chosen": -2.2468643188476562,
+      "eval_logits/rejected": -2.225817918777466,
+      "eval_logps/chosen": -235.95494079589844,
+      "eval_logps/rejected": -220.96902465820312,
+      "eval_loss": 0.5972098112106323,
+      "eval_rewards/accuracies": 0.7847222089767456,
+      "eval_rewards/chosen": 1.0915825366973877,
+      "eval_rewards/margins": 2.100149393081665,
+      "eval_rewards/rejected": -1.008566975593567,
+      "eval_runtime": 151.4569,
+      "eval_samples_per_second": 15.054,
+      "eval_steps_per_second": 0.238,
+      "step": 200
+    },
+    {
+      "epoch": 2.554517133956386,
+      "grad_norm": 21.925763245524834,
+      "learning_rate": 5.605739079881239e-08,
+      "logits/chosen": -2.2283740043640137,
+      "logits/rejected": -2.1990256309509277,
+      "logps/chosen": -223.1180877685547,
+      "logps/rejected": -212.6169891357422,
+      "loss": 0.16,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 1.6127411127090454,
+      "rewards/margins": 3.6744377613067627,
+      "rewards/rejected": -2.0616965293884277,
+      "step": 205
+    },
+    {
+      "epoch": 2.616822429906542,
+      "grad_norm": 13.249950588083076,
+      "learning_rate": 4.139434924727358e-08,
+      "logits/chosen": -2.2427330017089844,
+      "logits/rejected": -2.2058417797088623,
+      "logps/chosen": -240.4376983642578,
+      "logps/rejected": -229.5666046142578,
+      "loss": 0.1269,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 2.0897271633148193,
+      "rewards/margins": 4.362399101257324,
+      "rewards/rejected": -2.272672176361084,
+      "step": 210
+    },
+    {
+      "epoch": 2.6791277258566977,
+      "grad_norm": 17.32476459302876,
+      "learning_rate": 2.88695389405898e-08,
+      "logits/chosen": -2.241701602935791,
+      "logits/rejected": -2.215984344482422,
+      "logps/chosen": -217.4446258544922,
+      "logps/rejected": -217.5822296142578,
+      "loss": 0.1386,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 1.7757539749145508,
+      "rewards/margins": 4.135173797607422,
+      "rewards/rejected": -2.3594202995300293,
+      "step": 215
+    },
+    {
+      "epoch": 2.7414330218068534,
+      "grad_norm": 14.04290551232067,
+      "learning_rate": 1.8541356326100433e-08,
+      "logits/chosen": -2.241448402404785,
+      "logits/rejected": -2.20662522315979,
+      "logps/chosen": -247.5508575439453,
+      "logps/rejected": -217.6520233154297,
+      "loss": 0.1336,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 2.255281925201416,
+      "rewards/margins": 4.285429000854492,
+      "rewards/rejected": -2.030146837234497,
+      "step": 220
+    },
+    {
+      "epoch": 2.803738317757009,
+      "grad_norm": 12.131700338579662,
+      "learning_rate": 1.0457956158838544e-08,
+      "logits/chosen": -2.2289175987243652,
+      "logits/rejected": -2.201352596282959,
+      "logps/chosen": -231.2293701171875,
+      "logps/rejected": -224.2309112548828,
+      "loss": 0.1421,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 2.050419330596924,
+      "rewards/margins": 4.02677583694458,
+      "rewards/rejected": -1.9763565063476562,
+      "step": 225
+    },
+    {
+      "epoch": 2.866043613707165,
+      "grad_norm": 19.353963778331245,
+      "learning_rate": 4.657026981834622e-09,
+      "logits/chosen": -2.2360243797302246,
+      "logits/rejected": -2.2264018058776855,
+      "logps/chosen": -240.57394409179688,
+      "logps/rejected": -242.8083953857422,
+      "loss": 0.1692,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 2.1738040447235107,
+      "rewards/margins": 4.646971225738525,
+      "rewards/rejected": -2.4731671810150146,
+      "step": 230
+    },
+    {
+      "epoch": 2.9283489096573208,
+      "grad_norm": 16.204646402305528,
+      "learning_rate": 1.165615404730369e-09,
+      "logits/chosen": -2.2358551025390625,
+      "logits/rejected": -2.183411121368408,
+      "logps/chosen": -230.99368286132812,
+      "logps/rejected": -217.8062286376953,
+      "loss": 0.1504,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 2.135359287261963,
+      "rewards/margins": 4.111185550689697,
+      "rewards/rejected": -1.9758259057998657,
+      "step": 235
+    },
+    {
+      "epoch": 2.9906542056074765,
+      "grad_norm": 16.826133770583578,
+      "learning_rate": 0.0,
+      "logits/chosen": -2.233426570892334,
+      "logits/rejected": -2.203826904296875,
+      "logps/chosen": -232.7841796875,
+      "logps/rejected": -218.5866241455078,
+      "loss": 0.1512,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 1.8168675899505615,
+      "rewards/margins": 4.000540733337402,
+      "rewards/rejected": -2.18367338180542,
+      "step": 240
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2829829665718272.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76f2b3e84943b5dd83b432e5fc1a9d72a6bf5e6372062e773638a6ab756b8a14
+size 7096

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "_name_or_path": "/data/align-anything/hantao/models/llava-v1.6-mistral-7b-hf",
+  "architectures": [
+    "LlavaNextForConditionalGeneration"
+  ],
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_seq_length": 576,
+  "image_token_index": 32000,
+  "model_type": "llava_next",
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+    "architectures": [
+      "MistralForCausalLM"
+    ],
+    "intermediate_size": 14336,
+    "max_position_embeddings": 32768,
+    "model_type": "mistral",
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 32064
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "use_image_newline_parameter": true,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vocab_size": 32064
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 2.9906542056074765,
+    "eval_logits/chosen": -2.243978500366211,
+    "eval_logits/rejected": -2.222538471221924,
+    "eval_logps/chosen": -235.60606384277344,
+    "eval_logps/rejected": -220.67372131347656,
+    "eval_loss": 0.5969974994659424,
+    "eval_rewards/accuracies": 0.7881944179534912,
+    "eval_rewards/chosen": 1.1264705657958984,
+    "eval_rewards/margins": 2.10550856590271,
+    "eval_rewards/rejected": -0.9790381193161011,
+    "eval_runtime": 150.6075,
+    "eval_samples_per_second": 15.139,
+    "eval_steps_per_second": 0.239
+}