Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

checkpoints/checkpoint-258/README.md +21 -0
checkpoints/checkpoint-258/adapter_config.json +26 -0
checkpoints/checkpoint-258/adapter_model.bin +3 -0
checkpoints/checkpoint-258/adapter_model/README.md +21 -0
checkpoints/checkpoint-258/adapter_model/adapter_config.json +26 -0
checkpoints/checkpoint-258/adapter_model/adapter_model.bin +3 -0
checkpoints/checkpoint-258/optimizer.pt +3 -0
checkpoints/checkpoint-258/rng_state.pth +3 -0
checkpoints/checkpoint-258/scheduler.pt +3 -0
checkpoints/checkpoint-258/trainer_state.json +1663 -0
checkpoints/checkpoint-258/training_args.bin +3 -0

checkpoints/checkpoint-258/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoints/checkpoint-258/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoints/checkpoint-258/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33694da367495220ba704ce85f33c2b863ac8926247f019890b4f9b8cce4df61
+size 319977229

checkpoints/checkpoint-258/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoints/checkpoint-258/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoints/checkpoint-258/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33694da367495220ba704ce85f33c2b863ac8926247f019890b4f9b8cce4df61
+size 319977229

checkpoints/checkpoint-258/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cffded315cbf135fdba60e950d39ca68d921480ef4b0e575b44b038693407aa0
+size 160736095

checkpoints/checkpoint-258/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2368bf51309cc1094f7890994b76045a2d12b581dfdca5f7f5cedbf1fd4a3f47
+size 14575

checkpoints/checkpoint-258/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:436404ee3cdd61b40274ab45342672e13c20a7c00708b66c47dfceb5c10e2a19
+size 627

checkpoints/checkpoint-258/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1663 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 20,
+  "global_step": 258,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.9238,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4e-05,
+      "loss": 0.886,
+      "step": 2
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 6e-05,
+      "loss": 0.883,
+      "step": 3
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8e-05,
+      "loss": 0.8953,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 0.9026,
+      "step": 5
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00012,
+      "loss": 0.836,
+      "step": 6
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00014,
+      "loss": 0.8306,
+      "step": 7
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00016,
+      "loss": 0.8028,
+      "step": 8
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00018,
+      "loss": 0.8415,
+      "step": 9
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002,
+      "loss": 0.7948,
+      "step": 10
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019999083173529673,
+      "loss": 0.7679,
+      "step": 11
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001999633286223284,
+      "loss": 0.7847,
+      "step": 12
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019991749570421146,
+      "loss": 0.7691,
+      "step": 13
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019985334138511237,
+      "loss": 0.7327,
+      "step": 14
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001997708774287068,
+      "loss": 0.7505,
+      "step": 15
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001996701189560223,
+      "loss": 0.7268,
+      "step": 16
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019955108444266585,
+      "loss": 0.7068,
+      "step": 17
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019941379571543596,
+      "loss": 0.7,
+      "step": 18
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019925827794832056,
+      "loss": 0.7068,
+      "step": 19
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019908455965788067,
+      "loss": 0.7597,
+      "step": 20
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.6609811782836914,
+      "eval_runtime": 2.1763,
+      "eval_samples_per_second": 13.785,
+      "eval_steps_per_second": 6.893,
+      "step": 20
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019889267269802176,
+      "loss": 0.7521,
+      "step": 21
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019868265225415265,
+      "loss": 0.7083,
+      "step": 22
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019845453683673368,
+      "loss": 0.6528,
+      "step": 23
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0001982083682742156,
+      "loss": 0.7004,
+      "step": 24
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019794419170536916,
+      "loss": 0.667,
+      "step": 25
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019766205557100868,
+      "loss": 0.7224,
+      "step": 26
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019736201160510931,
+      "loss": 0.6855,
+      "step": 27
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019704411482532116,
+      "loss": 0.6642,
+      "step": 28
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001967084235228807,
+      "loss": 0.6755,
+      "step": 29
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001963549992519223,
+      "loss": 0.6875,
+      "step": 30
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001959839068181914,
+      "loss": 0.6932,
+      "step": 31
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019559521426716118,
+      "loss": 0.6879,
+      "step": 32
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019518899287155556,
+      "loss": 0.6903,
+      "step": 33
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019476531711828027,
+      "loss": 0.6807,
+      "step": 34
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0001943242646947643,
+      "loss": 0.6842,
+      "step": 35
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019386591647471506,
+      "loss": 0.7095,
+      "step": 36
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019339035650328869,
+      "loss": 0.6779,
+      "step": 37
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019289767198167916,
+      "loss": 0.6922,
+      "step": 38
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0001923879532511287,
+      "loss": 0.684,
+      "step": 39
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001918612937763622,
+      "loss": 0.6737,
+      "step": 40
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.6172597408294678,
+      "eval_runtime": 2.21,
+      "eval_samples_per_second": 13.575,
+      "eval_steps_per_second": 6.787,
+      "step": 40
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019131779012844912,
+      "loss": 0.692,
+      "step": 41
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019075754196709572,
+      "loss": 0.639,
+      "step": 42
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019018065202237083,
+      "loss": 0.6448,
+      "step": 43
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0001895872260758688,
+      "loss": 0.6595,
+      "step": 44
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018897737294131284,
+      "loss": 0.7268,
+      "step": 45
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001883512044446023,
+      "loss": 0.676,
+      "step": 46
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0001877088354033077,
+      "loss": 0.687,
+      "step": 47
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001870503836056172,
+      "loss": 0.649,
+      "step": 48
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018637596978873835,
+      "loss": 0.6888,
+      "step": 49
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018568571761675893,
+      "loss": 0.6602,
+      "step": 50
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0001849797536579715,
+      "loss": 0.7303,
+      "step": 51
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001842582073616649,
+      "loss": 0.6195,
+      "step": 52
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.000183521211034388,
+      "loss": 0.6736,
+      "step": 53
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018276889981568906,
+      "loss": 0.6672,
+      "step": 54
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001820014116533359,
+      "loss": 0.6474,
+      "step": 55
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018121888727802113,
+      "loss": 0.6576,
+      "step": 56
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001804214701775569,
+      "loss": 0.7122,
+      "step": 57
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017960930657056438,
+      "loss": 0.6327,
+      "step": 58
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00017878254537966216,
+      "loss": 0.7047,
+      "step": 59
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00017794133820415916,
+      "loss": 0.7,
+      "step": 60
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.5973738431930542,
+      "eval_runtime": 2.1866,
+      "eval_samples_per_second": 13.72,
+      "eval_steps_per_second": 6.86,
+      "step": 60
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001770858392922565,
+      "loss": 0.6418,
+      "step": 61
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017621620551276366,
+      "loss": 0.6977,
+      "step": 62
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017533259632633442,
+      "loss": 0.6916,
+      "step": 63
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00017443517375622704,
+      "loss": 0.6809,
+      "step": 64
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00017352410235859503,
+      "loss": 0.6867,
+      "step": 65
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001725995491923131,
+      "loss": 0.6446,
+      "step": 66
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017166168378834448,
+      "loss": 0.6844,
+      "step": 67
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 0.6529,
+      "step": 68
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00016974670656467824,
+      "loss": 0.7094,
+      "step": 69
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00016876994588534234,
+      "loss": 0.7008,
+      "step": 70
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001677805751846563,
+      "loss": 0.6635,
+      "step": 71
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00016677877587886956,
+      "loss": 0.6514,
+      "step": 72
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016576473166320644,
+      "loss": 0.6503,
+      "step": 73
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00016473862847818277,
+      "loss": 0.7369,
+      "step": 74
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00016370065447551078,
+      "loss": 0.6765,
+      "step": 75
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016265099998359866,
+      "loss": 0.6762,
+      "step": 76
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016158985747265108,
+      "loss": 0.669,
+      "step": 77
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00016051742151937655,
+      "loss": 0.6726,
+      "step": 78
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.000159433888771309,
+      "loss": 0.6289,
+      "step": 79
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015833945791074943,
+      "loss": 0.6681,
+      "step": 80
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.5905855298042297,
+      "eval_runtime": 2.188,
+      "eval_samples_per_second": 13.711,
+      "eval_steps_per_second": 6.856,
+      "step": 80
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0001572343296183344,
+      "loss": 0.6897,
+      "step": 81
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015611870653623825,
+      "loss": 0.6846,
+      "step": 82
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0001549927932310155,
+      "loss": 0.7051,
+      "step": 83
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015385679615609042,
+      "loss": 0.6657,
+      "step": 84
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00015271092361390077,
+      "loss": 0.6343,
+      "step": 85
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00015155538571770218,
+      "loss": 0.6161,
+      "step": 86
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00015039039435304078,
+      "loss": 0.6458,
+      "step": 87
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00014921616313890072,
+      "loss": 0.6567,
+      "step": 88
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00014803290738853395,
+      "loss": 0.6508,
+      "step": 89
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00014684084406997903,
+      "loss": 0.6397,
+      "step": 90
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001456401917662769,
+      "loss": 0.6167,
+      "step": 91
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00014443117063539038,
+      "loss": 0.6272,
+      "step": 92
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00014321400236983457,
+      "loss": 0.6162,
+      "step": 93
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00014198891015602646,
+      "loss": 0.6361,
+      "step": 94
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0001407561186333601,
+      "loss": 0.635,
+      "step": 95
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00013951585385301555,
+      "loss": 0.6452,
+      "step": 96
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.000138268343236509,
+      "loss": 0.645,
+      "step": 97
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00013701381553399145,
+      "loss": 0.6266,
+      "step": 98
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.000135752500782304,
+      "loss": 0.6294,
+      "step": 99
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00013448463026279704,
+      "loss": 0.6133,
+      "step": 100
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.5831260681152344,
+      "eval_runtime": 2.1769,
+      "eval_samples_per_second": 13.781,
+      "eval_steps_per_second": 6.891,
+      "step": 100
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001332104364589212,
+      "loss": 0.6629,
+      "step": 101
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.000131930153013598,
+      "loss": 0.6885,
+      "step": 102
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00013064401468637792,
+      "loss": 0.636,
+      "step": 103
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00012935225731039348,
+      "loss": 0.6584,
+      "step": 104
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00012805511774911584,
+      "loss": 0.6176,
+      "step": 105
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00012675283385292212,
+      "loss": 0.6084,
+      "step": 106
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00012544564441548182,
+      "loss": 0.6359,
+      "step": 107
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00012413378912997058,
+      "loss": 0.6501,
+      "step": 108
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0001228175085451186,
+      "loss": 0.6585,
+      "step": 109
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00012149704402110243,
+      "loss": 0.6418,
+      "step": 110
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00012017263768528775,
+      "loss": 0.6511,
+      "step": 111
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00011884453238783185,
+      "loss": 0.617,
+      "step": 112
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00011751297165715309,
+      "loss": 0.6165,
+      "step": 113
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0001161781996552765,
+      "loss": 0.6143,
+      "step": 114
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00011484046113306262,
+      "loss": 0.6743,
+      "step": 115
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00011350000138532902,
+      "loss": 0.627,
+      "step": 116
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00011215706620587149,
+      "loss": 0.6268,
+      "step": 117
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00011081190184239419,
+      "loss": 0.6279,
+      "step": 118
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001094647549513561,
+      "loss": 0.6622,
+      "step": 119
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00010811587255274313,
+      "loss": 0.5953,
+      "step": 120
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.5730018615722656,
+      "eval_runtime": 2.202,
+      "eval_samples_per_second": 13.624,
+      "eval_steps_per_second": 6.812,
+      "step": 120
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00010676550198477293,
+      "loss": 0.6097,
+      "step": 121
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00010541389085854176,
+      "loss": 0.6257,
+      "step": 122
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00010406128701262128,
+      "loss": 0.6732,
+      "step": 123
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00010270793846761347,
+      "loss": 0.6086,
+      "step": 124
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00010135409338067219,
+      "loss": 0.6072,
+      "step": 125
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001,
+      "loss": 0.5915,
+      "step": 126
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 9.864590661932783e-05,
+      "loss": 0.594,
+      "step": 127
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 9.729206153238657e-05,
+      "loss": 0.615,
+      "step": 128
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 9.59387129873787e-05,
+      "loss": 0.6108,
+      "step": 129
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 9.458610914145826e-05,
+      "loss": 0.6013,
+      "step": 130
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 9.323449801522709e-05,
+      "loss": 0.6717,
+      "step": 131
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 9.18841274472569e-05,
+      "loss": 0.5898,
+      "step": 132
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 9.05352450486439e-05,
+      "loss": 0.5968,
+      "step": 133
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 8.918809815760585e-05,
+      "loss": 0.591,
+      "step": 134
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 8.78429337941285e-05,
+      "loss": 0.6031,
+      "step": 135
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 8.649999861467099e-05,
+      "loss": 0.6373,
+      "step": 136
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.515953886693739e-05,
+      "loss": 0.596,
+      "step": 137
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 8.382180034472353e-05,
+      "loss": 0.6255,
+      "step": 138
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 8.248702834284693e-05,
+      "loss": 0.6816,
+      "step": 139
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 8.115546761216822e-05,
+      "loss": 0.6179,
+      "step": 140
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.5733774900436401,
+      "eval_runtime": 2.1935,
+      "eval_samples_per_second": 13.677,
+      "eval_steps_per_second": 6.838,
+      "step": 140
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 7.982736231471224e-05,
+      "loss": 0.6495,
+      "step": 141
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 7.85029559788976e-05,
+      "loss": 0.5634,
+      "step": 142
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 7.718249145488142e-05,
+      "loss": 0.6272,
+      "step": 143
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 7.586621087002945e-05,
+      "loss": 0.6017,
+      "step": 144
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 7.455435558451823e-05,
+      "loss": 0.6036,
+      "step": 145
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.324716614707793e-05,
+      "loss": 0.6083,
+      "step": 146
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 7.194488225088417e-05,
+      "loss": 0.6059,
+      "step": 147
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.064774268960653e-05,
+      "loss": 0.634,
+      "step": 148
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 6.93559853136221e-05,
+      "loss": 0.6108,
+      "step": 149
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 6.806984698640202e-05,
+      "loss": 0.5924,
+      "step": 150
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 6.678956354107882e-05,
+      "loss": 0.62,
+      "step": 151
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 6.551536973720298e-05,
+      "loss": 0.6059,
+      "step": 152
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 6.4247499217696e-05,
+      "loss": 0.6579,
+      "step": 153
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 6.298618446600856e-05,
+      "loss": 0.6381,
+      "step": 154
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 0.6084,
+      "step": 155
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 6.048414614698448e-05,
+      "loss": 0.6106,
+      "step": 156
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 5.924388136663992e-05,
+      "loss": 0.6583,
+      "step": 157
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 5.801108984397354e-05,
+      "loss": 0.6216,
+      "step": 158
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 5.6785997630165435e-05,
+      "loss": 0.6261,
+      "step": 159
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 5.5568829364609664e-05,
+      "loss": 0.6035,
+      "step": 160
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.5652638673782349,
+      "eval_runtime": 2.1857,
+      "eval_samples_per_second": 13.726,
+      "eval_steps_per_second": 6.863,
+      "step": 160
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 5.435980823372311e-05,
+      "loss": 0.6083,
+      "step": 161
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 5.3159155930021e-05,
+      "loss": 0.627,
+      "step": 162
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 5.196709261146606e-05,
+      "loss": 0.6006,
+      "step": 163
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 5.078383686109926e-05,
+      "loss": 0.5821,
+      "step": 164
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 4.9609605646959226e-05,
+      "loss": 0.6239,
+      "step": 165
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 4.844461428229782e-05,
+      "loss": 0.5951,
+      "step": 166
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 4.728907638609925e-05,
+      "loss": 0.6376,
+      "step": 167
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 4.614320384390959e-05,
+      "loss": 0.6346,
+      "step": 168
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 4.500720676898452e-05,
+      "loss": 0.6373,
+      "step": 169
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 4.388129346376178e-05,
+      "loss": 0.5886,
+      "step": 170
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 4.276567038166563e-05,
+      "loss": 0.6058,
+      "step": 171
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 4.16605420892506e-05,
+      "loss": 0.6359,
+      "step": 172
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 4.0566111228691064e-05,
+      "loss": 0.601,
+      "step": 173
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 3.948257848062351e-05,
+      "loss": 0.5853,
+      "step": 174
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 3.841014252734896e-05,
+      "loss": 0.5868,
+      "step": 175
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 3.734900001640135e-05,
+      "loss": 0.582,
+      "step": 176
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 3.629934552448925e-05,
+      "loss": 0.5974,
+      "step": 177
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 3.5261371521817244e-05,
+      "loss": 0.6215,
+      "step": 178
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 3.423526833679355e-05,
+      "loss": 0.6196,
+      "step": 179
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 3.322122412113047e-05,
+      "loss": 0.5434,
+      "step": 180
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.5678020715713501,
+      "eval_runtime": 2.1856,
+      "eval_samples_per_second": 13.726,
+      "eval_steps_per_second": 6.863,
+      "step": 180
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 3.2219424815343735e-05,
+      "loss": 0.621,
+      "step": 181
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 3.123005411465766e-05,
+      "loss": 0.5455,
+      "step": 182
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 3.0253293435321793e-05,
+      "loss": 0.5503,
+      "step": 183
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 0.578,
+      "step": 184
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 2.8338316211655536e-05,
+      "loss": 0.5664,
+      "step": 185
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.7400450807686938e-05,
+      "loss": 0.5854,
+      "step": 186
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 2.647589764140499e-05,
+      "loss": 0.593,
+      "step": 187
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 2.5564826243772966e-05,
+      "loss": 0.5993,
+      "step": 188
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 2.4667403673665623e-05,
+      "loss": 0.6146,
+      "step": 189
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 2.3783794487236365e-05,
+      "loss": 0.5969,
+      "step": 190
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 2.2914160707743538e-05,
+      "loss": 0.6258,
+      "step": 191
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 2.205866179584084e-05,
+      "loss": 0.592,
+      "step": 192
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 2.121745462033784e-05,
+      "loss": 0.5576,
+      "step": 193
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 2.0390693429435627e-05,
+      "loss": 0.6122,
+      "step": 194
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.957852982244309e-05,
+      "loss": 0.5836,
+      "step": 195
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 1.87811127219789e-05,
+      "loss": 0.6006,
+      "step": 196
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 1.7998588346664115e-05,
+      "loss": 0.5786,
+      "step": 197
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 1.7231100184310956e-05,
+      "loss": 0.599,
+      "step": 198
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.6478788965611993e-05,
+      "loss": 0.5833,
+      "step": 199
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 1.5741792638335095e-05,
+      "loss": 0.6036,
+      "step": 200
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.5672248005867004,
+      "eval_runtime": 2.1898,
+      "eval_samples_per_second": 13.7,
+      "eval_steps_per_second": 6.85,
+      "step": 200
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.502024634202851e-05,
+      "loss": 0.5703,
+      "step": 201
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 1.4314282383241096e-05,
+      "loss": 0.5941,
+      "step": 202
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.3624030211261685e-05,
+      "loss": 0.5736,
+      "step": 203
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.2949616394382802e-05,
+      "loss": 0.6027,
+      "step": 204
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.2291164596692305e-05,
+      "loss": 0.608,
+      "step": 205
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.1648795555397719e-05,
+      "loss": 0.5645,
+      "step": 206
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.1022627058687163e-05,
+      "loss": 0.5655,
+      "step": 207
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.0412773924131203e-05,
+      "loss": 0.5954,
+      "step": 208
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 9.819347977629202e-06,
+      "loss": 0.5703,
+      "step": 209
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 9.242458032904311e-06,
+      "loss": 0.5942,
+      "step": 210
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 8.682209871550884e-06,
+      "loss": 0.5895,
+      "step": 211
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 8.138706223637827e-06,
+      "loss": 0.583,
+      "step": 212
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 0.6183,
+      "step": 213
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 7.102328018320858e-06,
+      "loss": 0.577,
+      "step": 214
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 6.609643496711349e-06,
+      "loss": 0.5897,
+      "step": 215
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 6.13408352528495e-06,
+      "loss": 0.5862,
+      "step": 216
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 5.6757353052356964e-06,
+      "loss": 0.6058,
+      "step": 217
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 5.2346828817197655e-06,
+      "loss": 0.5563,
+      "step": 218
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.811007128444445e-06,
+      "loss": 0.5681,
+      "step": 219
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.404785732838846e-06,
+      "loss": 0.5766,
+      "step": 220
+    },
+    {
+      "epoch": 2.56,
+      "eval_loss": 0.5669747591018677,
+      "eval_runtime": 2.1807,
+      "eval_samples_per_second": 13.757,
+      "eval_steps_per_second": 6.878,
+      "step": 220
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.016093181808623e-06,
+      "loss": 0.5869,
+      "step": 221
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 3.6450007480777093e-06,
+      "loss": 0.584,
+      "step": 222
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 3.2915764771193292e-06,
+      "loss": 0.6152,
+      "step": 223
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 2.9558851746788517e-06,
+      "loss": 0.5596,
+      "step": 224
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 2.6379883948907e-06,
+      "loss": 0.55,
+      "step": 225
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 2.3379444289913342e-06,
+      "loss": 0.5853,
+      "step": 226
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 2.0558082946308232e-06,
+      "loss": 0.6064,
+      "step": 227
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 1.7916317257844039e-06,
+      "loss": 0.6225,
+      "step": 228
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 1.545463163266303e-06,
+      "loss": 0.6052,
+      "step": 229
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.317347745847386e-06,
+      "loss": 0.5799,
+      "step": 230
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 1.107327301978245e-06,
+      "loss": 0.572,
+      "step": 231
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 9.154403421193225e-07,
+      "loss": 0.574,
+      "step": 232
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 7.417220516794499e-07,
+      "loss": 0.5924,
+      "step": 233
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 5.862042845640403e-07,
+      "loss": 0.5591,
+      "step": 234
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 4.489155573341841e-07,
+      "loss": 0.5707,
+      "step": 235
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3.298810439777311e-07,
+      "loss": 0.5837,
+      "step": 236
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.2912257129320547e-07,
+      "loss": 0.6152,
+      "step": 237
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 1.4665861488761813e-07,
+      "loss": 0.5879,
+      "step": 238
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 8.250429578855467e-08,
+      "loss": 0.6049,
+      "step": 239
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 3.667137767160433e-08,
+      "loss": 0.5795,
+      "step": 240
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 0.5656673908233643,
+      "eval_runtime": 2.2018,
+      "eval_samples_per_second": 13.625,
+      "eval_steps_per_second": 6.813,
+      "step": 240
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 9.168264703285356e-09,
+      "loss": 0.5562,
+      "step": 241
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0,
+      "loss": 0.5535,
+      "step": 242
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 9.168264703285356e-09,
+      "loss": 0.5643,
+      "step": 243
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 3.667137767160433e-08,
+      "loss": 0.5899,
+      "step": 244
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 8.250429578855467e-08,
+      "loss": 0.6018,
+      "step": 245
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.46658614887607e-07,
+      "loss": 0.6263,
+      "step": 246
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 2.2912257129320547e-07,
+      "loss": 0.6012,
+      "step": 247
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 3.298810439777311e-07,
+      "loss": 0.5891,
+      "step": 248
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 4.489155573341841e-07,
+      "loss": 0.5751,
+      "step": 249
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 5.862042845640403e-07,
+      "loss": 0.5787,
+      "step": 250
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 7.417220516794499e-07,
+      "loss": 0.5652,
+      "step": 251
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 9.154403421193225e-07,
+      "loss": 0.6027,
+      "step": 252
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.1073273019782337e-06,
+      "loss": 0.5621,
+      "step": 253
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 1.3173477458473749e-06,
+      "loss": 0.6019,
+      "step": 254
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 1.545463163266303e-06,
+      "loss": 0.5759,
+      "step": 255
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 1.7916317257843929e-06,
+      "loss": 0.58,
+      "step": 256
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 2.0558082946308232e-06,
+      "loss": 0.5375,
+      "step": 257
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 2.3379444289913232e-06,
+      "loss": 0.5893,
+      "step": 258
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 258,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 3.195702207216353e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-258/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50c9227896cee3730521610abbbf3be77cf9b1863b67948e92913b6b096f2c5c
+size 4219