hhua2
/

V2Xum-LLM

Model card Files Files and versions Community

yunlong10 commited on 13 days ago

Commit

cba5264

1 Parent(s): d9a468d

Add model checkpoint folders

Browse files

Files changed (10) hide show

clip/ViT-L-14.pt +3 -0
llava-vicuna-v1-5-7b-stage1/config.json +31 -0
llava-vicuna-v1-5-7b-stage1/mm_projector.bin +3 -0
llava-vicuna-v1-5-7b-stage1/trainer_state.json +0 -0
v2xumllm-vicuna-v1-5-7b-stage2-e2/README.md +9 -0
v2xumllm-vicuna-v1-5-7b-stage2-e2/adapter_config.json +26 -0
v2xumllm-vicuna-v1-5-7b-stage2-e2/adapter_model.bin +3 -0
v2xumllm-vicuna-v1-5-7b-stage2-e2/config.json +28 -0
v2xumllm-vicuna-v1-5-7b-stage2-e2/non_lora_trainables.bin +3 -0
v2xumllm-vicuna-v1-5-7b-stage2-e2/trainer_state.json +961 -0

clip/ViT-L-14.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8cca3fd41ae0c99ba7e8951adf17d267cdb84cd88be6f7c2e0eca1737a03836
+size 932768134

llava-vicuna-v1-5-7b-stage1/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "./data/vicuna-7b-v1.5",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "freeze_mm_mlp_adapter": false,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "model_type": "V2XumLLM",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.31.0",
+  "tune_mm_mlp_adapter": true,
+  "use_cache": true,
+  "use_mm_proj": true,
+  "vocab_size": 32000
+}

llava-vicuna-v1-5-7b-stage1/mm_projector.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:043423537642223cc822233553f5227b03df5b111fd5f8bf19b68c3f8a54873b
+size 6300731

llava-vicuna-v1-5-7b-stage1/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

v2xumllm-vicuna-v1-5-7b-stage2-e2/README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+library_name: peft
+---
+## Training procedure
+### Framework versions
+- PEFT 0.4.0

v2xumllm-vicuna-v1-5-7b-stage2-e2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "lmsys/vicuna-7b-v1.5",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 128,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "gate_proj",
+    "o_proj",
+    "down_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

v2xumllm-vicuna-v1-5-7b-stage2-e2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34657f67c9e078949cd381d90b19750c974ac41afe95130dc1152565f5ea4557
+size 319971402

v2xumllm-vicuna-v1-5-7b-stage2-e2/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "lmsys/vicuna-7b-v1.5",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "freeze_mm_mlp_adapter": true,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "V2XumLLM",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.31.0",
+  "tune_mm_mlp_adapter": false,
+  "use_cache": true,
+  "vocab_size": 32000
+}

v2xumllm-vicuna-v1-5-7b-stage2-e2/non_lora_trainables.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60fb82c3660319e6d0b239950b20c28181e97f1ade117dc0660b40e2ad94a89b
+size 912

v2xumllm-vicuna-v1-5-7b-stage2-e2/trainer_state.json ADDED Viewed

	@@ -0,0 +1,961 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9952038369304557,
+  "global_step": 156,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 3.5587,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 3.4889,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 6e-05,
+      "loss": 3.4863,
+      "step": 3
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8e-05,
+      "loss": 2.8639,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 2.2722,
+      "step": 5
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.998917893031616e-05,
+      "loss": 1.6969,
+      "step": 6
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.995672040508655e-05,
+      "loss": 1.2651,
+      "step": 7
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.990263847374976e-05,
+      "loss": 1.1056,
+      "step": 8
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.982695654527965e-05,
+      "loss": 0.9884,
+      "step": 9
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.972970737805311e-05,
+      "loss": 0.9128,
+      "step": 10
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.961093306567075e-05,
+      "loss": 0.8706,
+      "step": 11
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 9.947068501873701e-05,
+      "loss": 0.8783,
+      "step": 12
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 9.930902394260747e-05,
+      "loss": 0.7829,
+      "step": 13
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.912601981111286e-05,
+      "loss": 0.7684,
+      "step": 14
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.892175183627161e-05,
+      "loss": 0.758,
+      "step": 15
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.86963084340033e-05,
+      "loss": 0.7694,
+      "step": 16
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.844978718585855e-05,
+      "loss": 0.7196,
+      "step": 17
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 9.818229479678158e-05,
+      "loss": 0.7079,
+      "step": 18
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.789394704892364e-05,
+      "loss": 0.6731,
+      "step": 19
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.758486875152766e-05,
+      "loss": 0.6634,
+      "step": 20
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 9.725519368690538e-05,
+      "loss": 0.6646,
+      "step": 21
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.690506455253073e-05,
+      "loss": 0.6451,
+      "step": 22
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 9.653463289927411e-05,
+      "loss": 0.6435,
+      "step": 23
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 9.614405906580485e-05,
+      "loss": 0.6535,
+      "step": 24
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.573351210918974e-05,
+      "loss": 0.651,
+      "step": 25
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.53031697317178e-05,
+      "loss": 0.633,
+      "step": 26
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.485321820398321e-05,
+      "loss": 0.6183,
+      "step": 27
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.438385228425938e-05,
+      "loss": 0.638,
+      "step": 28
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 9.389527513419934e-05,
+      "loss": 0.641,
+      "step": 29
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.338769823089853e-05,
+      "loss": 0.627,
+      "step": 30
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 9.286134127535859e-05,
+      "loss": 0.5917,
+      "step": 31
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.231643209739128e-05,
+      "loss": 0.6462,
+      "step": 32
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.175320655700406e-05,
+      "loss": 0.6199,
+      "step": 33
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.117190844230971e-05,
+      "loss": 0.614,
+      "step": 34
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 9.057278936400453e-05,
+      "loss": 0.5996,
+      "step": 35
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.99561086464603e-05,
+      "loss": 0.5827,
+      "step": 36
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.93221332154777e-05,
+      "loss": 0.6186,
+      "step": 37
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 8.86711374827494e-05,
+      "loss": 0.5951,
+      "step": 38
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 8.800340322708291e-05,
+      "loss": 0.6095,
+      "step": 39
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 8.731921947243469e-05,
+      "loss": 0.6066,
+      "step": 40
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 8.661888236280813e-05,
+      "loss": 0.627,
+      "step": 41
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.590269503406985e-05,
+      "loss": 0.5973,
+      "step": 42
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.517096748273951e-05,
+      "loss": 0.5421,
+      "step": 43
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.442401643181e-05,
+      "loss": 0.5914,
+      "step": 44
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.366216519365621e-05,
+      "loss": 0.5926,
+      "step": 45
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 8.288574353009164e-05,
+      "loss": 0.6159,
+      "step": 46
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.209508750963328e-05,
+      "loss": 0.5809,
+      "step": 47
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 8.129053936203687e-05,
+      "loss": 0.5659,
+      "step": 48
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 8.047244733016522e-05,
+      "loss": 0.6108,
+      "step": 49
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 7.964116551925365e-05,
+      "loss": 0.5699,
+      "step": 50
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 7.879705374363831e-05,
+      "loss": 0.5865,
+      "step": 51
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 7.794047737101297e-05,
+      "loss": 0.5801,
+      "step": 52
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 7.707180716428237e-05,
+      "loss": 0.5611,
+      "step": 53
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 7.619141912108008e-05,
+      "loss": 0.5814,
+      "step": 54
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 7.529969431102064e-05,
+      "loss": 0.5713,
+      "step": 55
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 7.439701871075641e-05,
+      "loss": 0.5774,
+      "step": 56
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 7.34837830369103e-05,
+      "loss": 0.5646,
+      "step": 57
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 7.256038257695687e-05,
+      "loss": 0.5508,
+      "step": 58
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 7.162721701812505e-05,
+      "loss": 0.585,
+      "step": 59
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.068469027439642e-05,
+      "loss": 0.5572,
+      "step": 60
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.973321031167383e-05,
+      "loss": 0.5994,
+      "step": 61
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.87731889711965e-05,
+      "loss": 0.5753,
+      "step": 62
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 6.780504179127734e-05,
+      "loss": 0.5625,
+      "step": 63
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 6.682918782744032e-05,
+      "loss": 0.5641,
+      "step": 64
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 6.584604947103514e-05,
+      "loss": 0.5671,
+      "step": 65
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 6.485605226640837e-05,
+      "loss": 0.5536,
+      "step": 66
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.385962472670953e-05,
+      "loss": 0.5833,
+      "step": 67
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.28571981484123e-05,
+      "loss": 0.5651,
+      "step": 68
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.184920642463094e-05,
+      "loss": 0.5636,
+      "step": 69
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 6.083608585731283e-05,
+      "loss": 0.5473,
+      "step": 70
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 5.981827496838822e-05,
+      "loss": 0.5709,
+      "step": 71
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 5.8796214309959276e-05,
+      "loss": 0.5693,
+      "step": 72
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.7770346273610254e-05,
+      "loss": 0.5523,
+      "step": 73
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 5.674111489892144e-05,
+      "loss": 0.5578,
+      "step": 74
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 5.570896568126993e-05,
+      "loss": 0.5794,
+      "step": 75
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 5.4674345379e-05,
+      "loss": 0.5534,
+      "step": 76
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 5.36377018200472e-05,
+      "loss": 0.5675,
+      "step": 77
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 5.2599483708099016e-05,
+      "loss": 0.5592,
+      "step": 78
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 5.1560140428376956e-05,
+      "loss": 0.5718,
+      "step": 79
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 5.052012185312322e-05,
+      "loss": 0.5722,
+      "step": 80
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.9479878146876794e-05,
+      "loss": 0.5326,
+      "step": 81
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.8439859571623035e-05,
+      "loss": 0.569,
+      "step": 82
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.740051629190099e-05,
+      "loss": 0.5615,
+      "step": 83
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.636229817995281e-05,
+      "loss": 0.5438,
+      "step": 84
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.532565462099999e-05,
+      "loss": 0.5264,
+      "step": 85
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.429103431873009e-05,
+      "loss": 0.5417,
+      "step": 86
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.325888510107856e-05,
+      "loss": 0.5569,
+      "step": 87
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 4.2229653726389765e-05,
+      "loss": 0.5866,
+      "step": 88
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 4.120378569004074e-05,
+      "loss": 0.5587,
+      "step": 89
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 4.0181725031611795e-05,
+      "loss": 0.5381,
+      "step": 90
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3.9163914142687184e-05,
+      "loss": 0.539,
+      "step": 91
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.8150793575369066e-05,
+      "loss": 0.5523,
+      "step": 92
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 3.714280185158771e-05,
+      "loss": 0.5478,
+      "step": 93
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.614037527329048e-05,
+      "loss": 0.5777,
+      "step": 94
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 3.514394773359163e-05,
+      "loss": 0.5388,
+      "step": 95
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.415395052896487e-05,
+      "loss": 0.5245,
+      "step": 96
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 3.31708121725597e-05,
+      "loss": 0.5435,
+      "step": 97
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.219495820872265e-05,
+      "loss": 0.5552,
+      "step": 98
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 3.122681102880352e-05,
+      "loss": 0.5295,
+      "step": 99
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 3.0266789688326186e-05,
+      "loss": 0.5414,
+      "step": 100
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 2.9315309725603596e-05,
+      "loss": 0.5412,
+      "step": 101
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 2.8372782981874963e-05,
+      "loss": 0.5543,
+      "step": 102
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 2.7439617423043145e-05,
+      "loss": 0.5564,
+      "step": 103
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.6516216963089698e-05,
+      "loss": 0.5432,
+      "step": 104
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 2.5602981289243578e-05,
+      "loss": 0.516,
+      "step": 105
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.470030568897938e-05,
+      "loss": 0.5461,
+      "step": 106
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 2.3808580878919946e-05,
+      "loss": 0.5818,
+      "step": 107
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 2.2928192835717644e-05,
+      "loss": 0.5374,
+      "step": 108
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 2.205952262898704e-05,
+      "loss": 0.5549,
+      "step": 109
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 2.120294625636171e-05,
+      "loss": 0.5395,
+      "step": 110
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 2.0358834480746365e-05,
+      "loss": 0.5529,
+      "step": 111
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.9527552669834798e-05,
+      "loss": 0.5338,
+      "step": 112
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.8709460637963123e-05,
+      "loss": 0.5588,
+      "step": 113
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.790491249036672e-05,
+      "loss": 0.5565,
+      "step": 114
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.711425646990838e-05,
+      "loss": 0.5306,
+      "step": 115
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1.6337834806343783e-05,
+      "loss": 0.5434,
+      "step": 116
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.557598356819e-05,
+      "loss": 0.5559,
+      "step": 117
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.4829032517260489e-05,
+      "loss": 0.5478,
+      "step": 118
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1.4097304965930158e-05,
+      "loss": 0.5386,
+      "step": 119
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.3381117637191886e-05,
+      "loss": 0.5672,
+      "step": 120
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.268078052756531e-05,
+      "loss": 0.5401,
+      "step": 121
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1.199659677291709e-05,
+      "loss": 0.5222,
+      "step": 122
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.132886251725061e-05,
+      "loss": 0.5357,
+      "step": 123
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.0677866784522317e-05,
+      "loss": 0.5516,
+      "step": 124
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.004389135353972e-05,
+      "loss": 0.5588,
+      "step": 125
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.427210635995482e-06,
+      "loss": 0.5515,
+      "step": 126
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 8.828091557690289e-06,
+      "loss": 0.5303,
+      "step": 127
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 8.246793442995954e-06,
+      "loss": 0.5718,
+      "step": 128
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 7.683567902608729e-06,
+      "loss": 0.5201,
+      "step": 129
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 7.138658724641417e-06,
+      "loss": 0.5573,
+      "step": 130
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 6.6123017691014645e-06,
+      "loss": 0.5346,
+      "step": 131
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 6.104724865800665e-06,
+      "loss": 0.4899,
+      "step": 132
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 5.616147715740611e-06,
+      "loss": 0.5185,
+      "step": 133
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 5.1467817960167975e-06,
+      "loss": 0.5676,
+      "step": 134
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 4.696830268282204e-06,
+      "loss": 0.5177,
+      "step": 135
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.266487890810256e-06,
+      "loss": 0.5481,
+      "step": 136
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 3.855940934195146e-06,
+      "loss": 0.5436,
+      "step": 137
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 3.465367100725908e-06,
+      "loss": 0.541,
+      "step": 138
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 3.0949354474692937e-06,
+      "loss": 0.535,
+      "step": 139
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 2.7448063130946224e-06,
+      "loss": 0.5152,
+      "step": 140
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 2.4151312484723465e-06,
+      "loss": 0.5486,
+      "step": 141
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 2.106052951076365e-06,
+      "loss": 0.5484,
+      "step": 142
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.8177052032184283e-06,
+      "loss": 0.5178,
+      "step": 143
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1.5502128141414495e-06,
+      "loss": 0.5408,
+      "step": 144
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 1.303691565996712e-06,
+      "loss": 0.5358,
+      "step": 145
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.0782481637284013e-06,
+      "loss": 0.5228,
+      "step": 146
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 8.739801888871469e-07,
+      "loss": 0.5429,
+      "step": 147
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 6.909760573925561e-07,
+      "loss": 0.5571,
+      "step": 148
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 5.29314981262985e-07,
+      "loss": 0.5543,
+      "step": 149
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 3.8906693432924634e-07,
+      "loss": 0.5471,
+      "step": 150
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 2.702926219468882e-07,
+      "loss": 0.5601,
+      "step": 151
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.7304345472035631e-07,
+      "loss": 0.5493,
+      "step": 152
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 9.73615262502503e-08,
+      "loss": 0.5458,
+      "step": 153
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 4.3279594913447905e-08,
+      "loss": 0.548,
+      "step": 154
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.082106968385288e-08,
+      "loss": 0.5239,
+      "step": 155
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "loss": 0.5618,
+      "step": 156
+    },
+    {
+      "epoch": 2.0,
+      "step": 156,
+      "total_flos": 18465039040512.0,
+      "train_loss": 0.6798098935530736,
+      "train_runtime": 12941.1596,
+      "train_samples_per_second": 1.546,
+      "train_steps_per_second": 0.012
+    }
+  ],
+  "max_steps": 156,
+  "num_train_epochs": 2,
+  "total_flos": 18465039040512.0,
+  "trial_name": null,
+  "trial_params": null
+}