selectorseb commited on Dec 11, 2024

Commit

2354d04

verified ·

1 Parent(s): 3f77388

Upload folder using huggingface_hub

Browse files

Files changed (21) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
checkpoint-10/adapter_config.json +3 -3
checkpoint-10/adapter_model.safetensors +1 -1
checkpoint-10/global_step10/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-10/global_step10/mp_rank_00_model_states.pt +1 -1
checkpoint-10/trainer_state.json +28 -28
checkpoint-10/training_args.bin +1 -1
checkpoint-15/adapter_config.json +3 -3
checkpoint-15/adapter_model.safetensors +1 -1
checkpoint-15/global_step15/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-15/global_step15/mp_rank_00_model_states.pt +1 -1
checkpoint-15/trainer_state.json +43 -43
checkpoint-15/training_args.bin +1 -1
checkpoint-20/adapter_config.json +3 -3
checkpoint-20/adapter_model.safetensors +1 -1
checkpoint-20/global_step20/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-20/global_step20/mp_rank_00_model_states.pt +1 -1
checkpoint-20/trainer_state.json +58 -58
checkpoint-20/training_args.bin +1 -1
trainer_state.json +62 -62

adapter_config.json CHANGED Viewed

@@ -23,11 +23,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "gate_proj",
     "o_proj",
-    "down_proj",
     "k_proj",
     "v_proj",
     "q_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
     "v_proj",
     "q_proj"
   ],

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d04441d0efe62beb5505e17968d1f070584e9b09d918e82b35df3e76aa9e9bef
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:f803ca1ea6e7a15322303eb997266e3c083ce8bea91ba5d1fc507f3521a61248
 size 83946192

checkpoint-10/adapter_config.json CHANGED Viewed

@@ -23,11 +23,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "gate_proj",
     "o_proj",
-    "down_proj",
     "k_proj",
     "v_proj",
     "q_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
     "v_proj",
     "q_proj"
   ],

checkpoint-10/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4303b93069b3d1dcda75f3d73a6bbe59b0c1ed1f66c46f47e2af45c622182675
 size 6388184376

 version https://git-lfs.github.com/spec/v1
+oid sha256:4543cfdedc0fcc5febfb1f61b6cd94a9a1232990c59af06db637d601072a09ff
 size 6388184376

checkpoint-10/global_step10/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8d20edc76bb73b85283833642c85ce0b890198fa3a9ba4e2bdcc3d6a4789df1
 size 13111840636

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4512f1d11620f0d39a231b5f06d9c7b99c84b1b64ded7b452c7b149534a495a
 size 13111840636

checkpoint-10/global_step10/mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c241a7950ad3e86057e0debe8807dacf6eb43108a369072aff9c6379da5c302
 size 2185646124

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4bb49133a4b11d3d18aca6bc3a05aa800bc2a934b7227bd2cb77f3c0cc92c3e
 size 2185646124

checkpoint-10/trainer_state.json CHANGED Viewed

@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 22.02356719970703,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
-      "grad_norm": 21.681835174560547,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
-      "grad_norm": 12.661576271057129,
       "learning_rate": 1.9458172417006347e-05,
-      "loss": 1.1806,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "grad_norm": 9.024881362915039,
       "learning_rate": 1.879473751206489e-05,
-      "loss": 1.0682,
       "step": 4
     },
     {
       "epoch": 5.0,
-      "grad_norm": 8.294164657592773,
       "learning_rate": 1.789140509396394e-05,
-      "loss": 0.9835,
       "step": 5
     },
     {
@@ -59,47 +59,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.8951861262321472,
-      "eval_perplexity": 1.010767880290677,
-      "eval_runtime": 0.8904,
-      "eval_samples_per_second": 1.123,
-      "eval_steps_per_second": 1.123,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
-      "grad_norm": 8.226706504821777,
       "learning_rate": 1.6772815716257414e-05,
-      "loss": 0.8936,
       "step": 6
     },
     {
       "epoch": 7.0,
-      "grad_norm": 8.382328987121582,
       "learning_rate": 1.5469481581224274e-05,
-      "loss": 0.8304,
       "step": 7
     },
     {
       "epoch": 8.0,
-      "grad_norm": 7.861330986022949,
       "learning_rate": 1.4016954246529697e-05,
-      "loss": 0.7703,
       "step": 8
     },
     {
       "epoch": 9.0,
-      "grad_norm": 7.340066909790039,
       "learning_rate": 1.2454854871407993e-05,
-      "loss": 0.7171,
       "step": 9
     },
     {
       "epoch": 10.0,
-      "grad_norm": 6.915948390960693,
       "learning_rate": 1.0825793454723325e-05,
-      "loss": 0.6641,
       "step": 10
     },
     {
@@ -118,11 +118,11 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.6229805946350098,
-      "eval_perplexity": 1.0074814049420708,
-      "eval_runtime": 0.8828,
-      "eval_samples_per_second": 1.133,
-      "eval_steps_per_second": 1.133,
       "eval_total_number_first_token": 2,
       "step": 10
     }

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 21.60628890991211,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
+      "grad_norm": 21.794620513916016,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
+      "grad_norm": 13.444245338439941,
       "learning_rate": 1.9458172417006347e-05,
+      "loss": 1.1815,
       "step": 3
     },
     {
       "epoch": 4.0,
+      "grad_norm": 9.568578720092773,
       "learning_rate": 1.879473751206489e-05,
+      "loss": 1.0718,
       "step": 4
     },
     {
       "epoch": 5.0,
+      "grad_norm": 8.503974914550781,
       "learning_rate": 1.789140509396394e-05,
+      "loss": 0.9886,
       "step": 5
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.897951602935791,
+      "eval_perplexity": 1.0108013242189644,
+      "eval_runtime": 0.885,
+      "eval_samples_per_second": 1.13,
+      "eval_steps_per_second": 1.13,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
+      "grad_norm": 8.138020515441895,
       "learning_rate": 1.6772815716257414e-05,
+      "loss": 0.8967,
       "step": 6
     },
     {
       "epoch": 7.0,
+      "grad_norm": 8.324158668518066,
       "learning_rate": 1.5469481581224274e-05,
+      "loss": 0.8374,
       "step": 7
     },
     {
       "epoch": 8.0,
+      "grad_norm": 8.041045188903809,
       "learning_rate": 1.4016954246529697e-05,
+      "loss": 0.7753,
       "step": 8
     },
     {
       "epoch": 9.0,
+      "grad_norm": 7.898632526397705,
       "learning_rate": 1.2454854871407993e-05,
+      "loss": 0.7203,
       "step": 9
     },
     {
       "epoch": 10.0,
+      "grad_norm": 6.87092924118042,
       "learning_rate": 1.0825793454723325e-05,
+      "loss": 0.6677,
       "step": 10
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.627693235874176,
+      "eval_perplexity": 1.0075382125074093,
+      "eval_runtime": 0.878,
+      "eval_samples_per_second": 1.139,
+      "eval_steps_per_second": 1.139,
       "eval_total_number_first_token": 2,
       "step": 10
     }

checkpoint-10/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67586136f4609abc9357461142a2bba22693796be0e1eef7d79dfa07d236f385
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f11e825a5b1e7bd17e78d2e5d730d3c993fdb3d39a70eb784fa37a52c0535935
 size 6648

checkpoint-15/adapter_config.json CHANGED Viewed

@@ -23,11 +23,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "gate_proj",
     "o_proj",
-    "down_proj",
     "k_proj",
     "v_proj",
     "q_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
     "v_proj",
     "q_proj"
   ],

checkpoint-15/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f680bd627283c65ac4facc923e2f2ba913b34cb597f5e753ad30487d47c3abbe
 size 6388184376

 version https://git-lfs.github.com/spec/v1
+oid sha256:26d67a87994a8d25f0c7632ccc9143f98c14dce3496c77ce95a3129ebd5167f0
 size 6388184376

checkpoint-15/global_step15/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ec791a4120d29d1533afb70f0552bbf6c33ad37acc48954401b097fa6797121
 size 13111840636

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d0e07725d5bfd8c325d61d3b0ba6650b88010dbd1ad034c55f93edbb07cfb9d
 size 13111840636

checkpoint-15/global_step15/mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28cd286dc47facbb1a1289b23b9470509461941fff3768ef5a9089b21764e4d2
 size 2185646124

 version https://git-lfs.github.com/spec/v1
+oid sha256:5aa9c5e4eda56c648fe24e82060d791f7edd40024d239744fa3dc89fb7292b16
 size 2185646124

checkpoint-15/trainer_state.json CHANGED Viewed

@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 22.02356719970703,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
-      "grad_norm": 21.681835174560547,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
-      "grad_norm": 12.661576271057129,
       "learning_rate": 1.9458172417006347e-05,
-      "loss": 1.1806,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "grad_norm": 9.024881362915039,
       "learning_rate": 1.879473751206489e-05,
-      "loss": 1.0682,
       "step": 4
     },
     {
       "epoch": 5.0,
-      "grad_norm": 8.294164657592773,
       "learning_rate": 1.789140509396394e-05,
-      "loss": 0.9835,
       "step": 5
     },
     {
@@ -59,47 +59,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.8951861262321472,
-      "eval_perplexity": 1.010767880290677,
-      "eval_runtime": 0.8904,
-      "eval_samples_per_second": 1.123,
-      "eval_steps_per_second": 1.123,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
-      "grad_norm": 8.226706504821777,
       "learning_rate": 1.6772815716257414e-05,
-      "loss": 0.8936,
       "step": 6
     },
     {
       "epoch": 7.0,
-      "grad_norm": 8.382328987121582,
       "learning_rate": 1.5469481581224274e-05,
-      "loss": 0.8304,
       "step": 7
     },
     {
       "epoch": 8.0,
-      "grad_norm": 7.861330986022949,
       "learning_rate": 1.4016954246529697e-05,
-      "loss": 0.7703,
       "step": 8
     },
     {
       "epoch": 9.0,
-      "grad_norm": 7.340066909790039,
       "learning_rate": 1.2454854871407993e-05,
-      "loss": 0.7171,
       "step": 9
     },
     {
       "epoch": 10.0,
-      "grad_norm": 6.915948390960693,
       "learning_rate": 1.0825793454723325e-05,
-      "loss": 0.6641,
       "step": 10
     },
     {
@@ -118,47 +118,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.6229805946350098,
-      "eval_perplexity": 1.0074814049420708,
-      "eval_runtime": 0.8828,
-      "eval_samples_per_second": 1.133,
-      "eval_steps_per_second": 1.133,
       "eval_total_number_first_token": 2,
       "step": 10
     },
     {
       "epoch": 11.0,
-      "grad_norm": 6.680131912231445,
       "learning_rate": 9.174206545276678e-06,
-      "loss": 0.6224,
       "step": 11
     },
     {
       "epoch": 12.0,
-      "grad_norm": 5.9928297996521,
       "learning_rate": 7.545145128592009e-06,
-      "loss": 0.5933,
       "step": 12
     },
     {
       "epoch": 13.0,
-      "grad_norm": 5.214223861694336,
       "learning_rate": 5.983045753470308e-06,
-      "loss": 0.5704,
       "step": 13
     },
     {
       "epoch": 14.0,
-      "grad_norm": 4.801523685455322,
       "learning_rate": 4.530518418775734e-06,
-      "loss": 0.5552,
       "step": 14
     },
     {
       "epoch": 15.0,
-      "grad_norm": 4.650667667388916,
       "learning_rate": 3.2271842837425917e-06,
-      "loss": 0.545,
       "step": 15
     },
     {
@@ -177,11 +177,11 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.5376743674278259,
-      "eval_perplexity": 1.006453660117816,
-      "eval_runtime": 0.8811,
-      "eval_samples_per_second": 1.135,
-      "eval_steps_per_second": 1.135,
       "eval_total_number_first_token": 2,
       "step": 15
     }

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 21.60628890991211,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
+      "grad_norm": 21.794620513916016,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
+      "grad_norm": 13.444245338439941,
       "learning_rate": 1.9458172417006347e-05,
+      "loss": 1.1815,
       "step": 3
     },
     {
       "epoch": 4.0,
+      "grad_norm": 9.568578720092773,
       "learning_rate": 1.879473751206489e-05,
+      "loss": 1.0718,
       "step": 4
     },
     {
       "epoch": 5.0,
+      "grad_norm": 8.503974914550781,
       "learning_rate": 1.789140509396394e-05,
+      "loss": 0.9886,
       "step": 5
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.897951602935791,
+      "eval_perplexity": 1.0108013242189644,
+      "eval_runtime": 0.885,
+      "eval_samples_per_second": 1.13,
+      "eval_steps_per_second": 1.13,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
+      "grad_norm": 8.138020515441895,
       "learning_rate": 1.6772815716257414e-05,
+      "loss": 0.8967,
       "step": 6
     },
     {
       "epoch": 7.0,
+      "grad_norm": 8.324158668518066,
       "learning_rate": 1.5469481581224274e-05,
+      "loss": 0.8374,
       "step": 7
     },
     {
       "epoch": 8.0,
+      "grad_norm": 8.041045188903809,
       "learning_rate": 1.4016954246529697e-05,
+      "loss": 0.7753,
       "step": 8
     },
     {
       "epoch": 9.0,
+      "grad_norm": 7.898632526397705,
       "learning_rate": 1.2454854871407993e-05,
+      "loss": 0.7203,
       "step": 9
     },
     {
       "epoch": 10.0,
+      "grad_norm": 6.87092924118042,
       "learning_rate": 1.0825793454723325e-05,
+      "loss": 0.6677,
       "step": 10
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.627693235874176,
+      "eval_perplexity": 1.0075382125074093,
+      "eval_runtime": 0.878,
+      "eval_samples_per_second": 1.139,
+      "eval_steps_per_second": 1.139,
       "eval_total_number_first_token": 2,
       "step": 10
     },
     {
       "epoch": 11.0,
+      "grad_norm": 6.593441009521484,
       "learning_rate": 9.174206545276678e-06,
+      "loss": 0.6275,
       "step": 11
     },
     {
       "epoch": 12.0,
+      "grad_norm": 6.028723239898682,
       "learning_rate": 7.545145128592009e-06,
+      "loss": 0.5971,
       "step": 12
     },
     {
       "epoch": 13.0,
+      "grad_norm": 5.46033239364624,
       "learning_rate": 5.983045753470308e-06,
+      "loss": 0.5745,
       "step": 13
     },
     {
       "epoch": 14.0,
+      "grad_norm": 4.930461883544922,
       "learning_rate": 4.530518418775734e-06,
+      "loss": 0.5558,
       "step": 14
     },
     {
       "epoch": 15.0,
+      "grad_norm": 4.64890193939209,
       "learning_rate": 3.2271842837425917e-06,
+      "loss": 0.5455,
       "step": 15
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.5380075573921204,
+      "eval_perplexity": 1.0064576742544533,
+      "eval_runtime": 0.8779,
+      "eval_samples_per_second": 1.139,
+      "eval_steps_per_second": 1.139,
       "eval_total_number_first_token": 2,
       "step": 15
     }

checkpoint-15/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67586136f4609abc9357461142a2bba22693796be0e1eef7d79dfa07d236f385
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f11e825a5b1e7bd17e78d2e5d730d3c993fdb3d39a70eb784fa37a52c0535935
 size 6648

checkpoint-20/adapter_config.json CHANGED Viewed

@@ -23,11 +23,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "gate_proj",
     "o_proj",
-    "down_proj",
     "k_proj",
     "v_proj",
     "q_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
     "v_proj",
     "q_proj"
   ],

checkpoint-20/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ee2c9bf1fd62002efcd446cc6861c0eac27db5f8271388127187ab30b6b9e7a
 size 6388184376

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da1f9ccdca20706dfbff0f0b107be0aff7333231031881696d0ccbc9343a107
 size 6388184376

checkpoint-20/global_step20/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e69da5ee43cefb69af895104ab25bf7300c33a5865e64407b330350490dbbbe4
 size 13111840636

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccb5a5b854f34b1f12423ae9102619fb0608bdd4853641f40fd40c06a1ad51dd
 size 13111840636

checkpoint-20/global_step20/mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31b69268e5911c4d0180e1b34274f3728e65f6379fe8de91e5821d4d120ffb44
 size 2185646124

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccb70443d8223302e5d4013f1a070cb79efc19fab47ded52e758969f2ef9d331
 size 2185646124

checkpoint-20/trainer_state.json CHANGED Viewed

@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 22.02356719970703,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
-      "grad_norm": 21.681835174560547,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
-      "grad_norm": 12.661576271057129,
       "learning_rate": 1.9458172417006347e-05,
-      "loss": 1.1806,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "grad_norm": 9.024881362915039,
       "learning_rate": 1.879473751206489e-05,
-      "loss": 1.0682,
       "step": 4
     },
     {
       "epoch": 5.0,
-      "grad_norm": 8.294164657592773,
       "learning_rate": 1.789140509396394e-05,
-      "loss": 0.9835,
       "step": 5
     },
     {
@@ -59,47 +59,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.8951861262321472,
-      "eval_perplexity": 1.010767880290677,
-      "eval_runtime": 0.8904,
-      "eval_samples_per_second": 1.123,
-      "eval_steps_per_second": 1.123,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
-      "grad_norm": 8.226706504821777,
       "learning_rate": 1.6772815716257414e-05,
-      "loss": 0.8936,
       "step": 6
     },
     {
       "epoch": 7.0,
-      "grad_norm": 8.382328987121582,
       "learning_rate": 1.5469481581224274e-05,
-      "loss": 0.8304,
       "step": 7
     },
     {
       "epoch": 8.0,
-      "grad_norm": 7.861330986022949,
       "learning_rate": 1.4016954246529697e-05,
-      "loss": 0.7703,
       "step": 8
     },
     {
       "epoch": 9.0,
-      "grad_norm": 7.340066909790039,
       "learning_rate": 1.2454854871407993e-05,
-      "loss": 0.7171,
       "step": 9
     },
     {
       "epoch": 10.0,
-      "grad_norm": 6.915948390960693,
       "learning_rate": 1.0825793454723325e-05,
-      "loss": 0.6641,
       "step": 10
     },
     {
@@ -118,47 +118,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.6229805946350098,
-      "eval_perplexity": 1.0074814049420708,
-      "eval_runtime": 0.8828,
-      "eval_samples_per_second": 1.133,
-      "eval_steps_per_second": 1.133,
       "eval_total_number_first_token": 2,
       "step": 10
     },
     {
       "epoch": 11.0,
-      "grad_norm": 6.680131912231445,
       "learning_rate": 9.174206545276678e-06,
-      "loss": 0.6224,
       "step": 11
     },
     {
       "epoch": 12.0,
-      "grad_norm": 5.9928297996521,
       "learning_rate": 7.545145128592009e-06,
-      "loss": 0.5933,
       "step": 12
     },
     {
       "epoch": 13.0,
-      "grad_norm": 5.214223861694336,
       "learning_rate": 5.983045753470308e-06,
-      "loss": 0.5704,
       "step": 13
     },
     {
       "epoch": 14.0,
-      "grad_norm": 4.801523685455322,
       "learning_rate": 4.530518418775734e-06,
-      "loss": 0.5552,
       "step": 14
     },
     {
       "epoch": 15.0,
-      "grad_norm": 4.650667667388916,
       "learning_rate": 3.2271842837425917e-06,
-      "loss": 0.545,
       "step": 15
     },
     {
@@ -177,47 +177,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.5376743674278259,
-      "eval_perplexity": 1.006453660117816,
-      "eval_runtime": 0.8811,
-      "eval_samples_per_second": 1.135,
-      "eval_steps_per_second": 1.135,
       "eval_total_number_first_token": 2,
       "step": 15
     },
     {
       "epoch": 16.0,
-      "grad_norm": 4.648330211639404,
       "learning_rate": 2.1085949060360654e-06,
-      "loss": 0.5376,
       "step": 16
     },
     {
       "epoch": 17.0,
-      "grad_norm": 4.580282211303711,
       "learning_rate": 1.2052624879351105e-06,
-      "loss": 0.5339,
       "step": 17
     },
     {
       "epoch": 18.0,
-      "grad_norm": 4.567606449127197,
       "learning_rate": 5.418275829936537e-07,
-      "loss": 0.5301,
       "step": 18
     },
     {
       "epoch": 19.0,
-      "grad_norm": 4.5482001304626465,
       "learning_rate": 1.3638696597277678e-07,
-      "loss": 0.528,
       "step": 19
     },
     {
       "epoch": 20.0,
-      "grad_norm": 4.52694034576416,
       "learning_rate": 0.0,
-      "loss": 0.5258,
       "step": 20
     },
     {
@@ -236,11 +236,11 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.5257245302200317,
-      "eval_perplexity": 1.0063097771319383,
-      "eval_runtime": 0.8846,
-      "eval_samples_per_second": 1.131,
-      "eval_steps_per_second": 1.131,
       "eval_total_number_first_token": 2,
       "step": 20
     }

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 21.60628890991211,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
+      "grad_norm": 21.794620513916016,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
+      "grad_norm": 13.444245338439941,
       "learning_rate": 1.9458172417006347e-05,
+      "loss": 1.1815,
       "step": 3
     },
     {
       "epoch": 4.0,
+      "grad_norm": 9.568578720092773,
       "learning_rate": 1.879473751206489e-05,
+      "loss": 1.0718,
       "step": 4
     },
     {
       "epoch": 5.0,
+      "grad_norm": 8.503974914550781,
       "learning_rate": 1.789140509396394e-05,
+      "loss": 0.9886,
       "step": 5
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.897951602935791,
+      "eval_perplexity": 1.0108013242189644,
+      "eval_runtime": 0.885,
+      "eval_samples_per_second": 1.13,
+      "eval_steps_per_second": 1.13,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
+      "grad_norm": 8.138020515441895,
       "learning_rate": 1.6772815716257414e-05,
+      "loss": 0.8967,
       "step": 6
     },
     {
       "epoch": 7.0,
+      "grad_norm": 8.324158668518066,
       "learning_rate": 1.5469481581224274e-05,
+      "loss": 0.8374,
       "step": 7
     },
     {
       "epoch": 8.0,
+      "grad_norm": 8.041045188903809,
       "learning_rate": 1.4016954246529697e-05,
+      "loss": 0.7753,
       "step": 8
     },
     {
       "epoch": 9.0,
+      "grad_norm": 7.898632526397705,
       "learning_rate": 1.2454854871407993e-05,
+      "loss": 0.7203,
       "step": 9
     },
     {
       "epoch": 10.0,
+      "grad_norm": 6.87092924118042,
       "learning_rate": 1.0825793454723325e-05,
+      "loss": 0.6677,
       "step": 10
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.627693235874176,
+      "eval_perplexity": 1.0075382125074093,
+      "eval_runtime": 0.878,
+      "eval_samples_per_second": 1.139,
+      "eval_steps_per_second": 1.139,
       "eval_total_number_first_token": 2,
       "step": 10
     },
     {
       "epoch": 11.0,
+      "grad_norm": 6.593441009521484,
       "learning_rate": 9.174206545276678e-06,
+      "loss": 0.6275,
       "step": 11
     },
     {
       "epoch": 12.0,
+      "grad_norm": 6.028723239898682,
       "learning_rate": 7.545145128592009e-06,
+      "loss": 0.5971,
       "step": 12
     },
     {
       "epoch": 13.0,
+      "grad_norm": 5.46033239364624,
       "learning_rate": 5.983045753470308e-06,
+      "loss": 0.5745,
       "step": 13
     },
     {
       "epoch": 14.0,
+      "grad_norm": 4.930461883544922,
       "learning_rate": 4.530518418775734e-06,
+      "loss": 0.5558,
       "step": 14
     },
     {
       "epoch": 15.0,
+      "grad_norm": 4.64890193939209,
       "learning_rate": 3.2271842837425917e-06,
+      "loss": 0.5455,
       "step": 15
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.5380075573921204,
+      "eval_perplexity": 1.0064576742544533,
+      "eval_runtime": 0.8779,
+      "eval_samples_per_second": 1.139,
+      "eval_steps_per_second": 1.139,
       "eval_total_number_first_token": 2,
       "step": 15
     },
     {
       "epoch": 16.0,
+      "grad_norm": 4.5582594871521,
       "learning_rate": 2.1085949060360654e-06,
+      "loss": 0.5374,
       "step": 16
     },
     {
       "epoch": 17.0,
+      "grad_norm": 4.519166946411133,
       "learning_rate": 1.2052624879351105e-06,
+      "loss": 0.5316,
       "step": 17
     },
     {
       "epoch": 18.0,
+      "grad_norm": 4.582608699798584,
       "learning_rate": 5.418275829936537e-07,
+      "loss": 0.5291,
       "step": 18
     },
     {
       "epoch": 19.0,
+      "grad_norm": 4.5061774253845215,
       "learning_rate": 1.3638696597277678e-07,
+      "loss": 0.5265,
       "step": 19
     },
     {
       "epoch": 20.0,
+      "grad_norm": 4.478773593902588,
       "learning_rate": 0.0,
+      "loss": 0.5249,
       "step": 20
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.5260699987411499,
+      "eval_perplexity": 1.0063139350239472,
+      "eval_runtime": 0.8774,
+      "eval_samples_per_second": 1.14,
+      "eval_steps_per_second": 1.14,
       "eval_total_number_first_token": 2,
       "step": 20
     }

checkpoint-20/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67586136f4609abc9357461142a2bba22693796be0e1eef7d79dfa07d236f385
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f11e825a5b1e7bd17e78d2e5d730d3c993fdb3d39a70eb784fa37a52c0535935
 size 6648

trainer_state.json CHANGED Viewed

@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 22.02356719970703,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
-      "grad_norm": 21.681835174560547,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
-      "grad_norm": 12.661576271057129,
       "learning_rate": 1.9458172417006347e-05,
-      "loss": 1.1806,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "grad_norm": 9.024881362915039,
       "learning_rate": 1.879473751206489e-05,
-      "loss": 1.0682,
       "step": 4
     },
     {
       "epoch": 5.0,
-      "grad_norm": 8.294164657592773,
       "learning_rate": 1.789140509396394e-05,
-      "loss": 0.9835,
       "step": 5
     },
     {
@@ -59,47 +59,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.8951861262321472,
-      "eval_perplexity": 1.010767880290677,
-      "eval_runtime": 0.8904,
-      "eval_samples_per_second": 1.123,
-      "eval_steps_per_second": 1.123,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
-      "grad_norm": 8.226706504821777,
       "learning_rate": 1.6772815716257414e-05,
-      "loss": 0.8936,
       "step": 6
     },
     {
       "epoch": 7.0,
-      "grad_norm": 8.382328987121582,
       "learning_rate": 1.5469481581224274e-05,
-      "loss": 0.8304,
       "step": 7
     },
     {
       "epoch": 8.0,
-      "grad_norm": 7.861330986022949,
       "learning_rate": 1.4016954246529697e-05,
-      "loss": 0.7703,
       "step": 8
     },
     {
       "epoch": 9.0,
-      "grad_norm": 7.340066909790039,
       "learning_rate": 1.2454854871407993e-05,
-      "loss": 0.7171,
       "step": 9
     },
     {
       "epoch": 10.0,
-      "grad_norm": 6.915948390960693,
       "learning_rate": 1.0825793454723325e-05,
-      "loss": 0.6641,
       "step": 10
     },
     {
@@ -118,47 +118,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.6229805946350098,
-      "eval_perplexity": 1.0074814049420708,
-      "eval_runtime": 0.8828,
-      "eval_samples_per_second": 1.133,
-      "eval_steps_per_second": 1.133,
       "eval_total_number_first_token": 2,
       "step": 10
     },
     {
       "epoch": 11.0,
-      "grad_norm": 6.680131912231445,
       "learning_rate": 9.174206545276678e-06,
-      "loss": 0.6224,
       "step": 11
     },
     {
       "epoch": 12.0,
-      "grad_norm": 5.9928297996521,
       "learning_rate": 7.545145128592009e-06,
-      "loss": 0.5933,
       "step": 12
     },
     {
       "epoch": 13.0,
-      "grad_norm": 5.214223861694336,
       "learning_rate": 5.983045753470308e-06,
-      "loss": 0.5704,
       "step": 13
     },
     {
       "epoch": 14.0,
-      "grad_norm": 4.801523685455322,
       "learning_rate": 4.530518418775734e-06,
-      "loss": 0.5552,
       "step": 14
     },
     {
       "epoch": 15.0,
-      "grad_norm": 4.650667667388916,
       "learning_rate": 3.2271842837425917e-06,
-      "loss": 0.545,
       "step": 15
     },
     {
@@ -177,47 +177,47 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.5376743674278259,
-      "eval_perplexity": 1.006453660117816,
-      "eval_runtime": 0.8811,
-      "eval_samples_per_second": 1.135,
-      "eval_steps_per_second": 1.135,
       "eval_total_number_first_token": 2,
       "step": 15
     },
     {
       "epoch": 16.0,
-      "grad_norm": 4.648330211639404,
       "learning_rate": 2.1085949060360654e-06,
-      "loss": 0.5376,
       "step": 16
     },
     {
       "epoch": 17.0,
-      "grad_norm": 4.580282211303711,
       "learning_rate": 1.2052624879351105e-06,
-      "loss": 0.5339,
       "step": 17
     },
     {
       "epoch": 18.0,
-      "grad_norm": 4.567606449127197,
       "learning_rate": 5.418275829936537e-07,
-      "loss": 0.5301,
       "step": 18
     },
     {
       "epoch": 19.0,
-      "grad_norm": 4.5482001304626465,
       "learning_rate": 1.3638696597277678e-07,
-      "loss": 0.528,
       "step": 19
     },
     {
       "epoch": 20.0,
-      "grad_norm": 4.52694034576416,
       "learning_rate": 0.0,
-      "loss": 0.5258,
       "step": 20
     },
     {
@@ -236,11 +236,11 @@
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
-      "eval_loss": 0.5257245302200317,
-      "eval_perplexity": 1.0063097771319383,
-      "eval_runtime": 0.8846,
-      "eval_samples_per_second": 1.131,
-      "eval_steps_per_second": 1.131,
       "eval_total_number_first_token": 2,
       "step": 20
     },
@@ -248,10 +248,10 @@
       "epoch": 20.0,
       "step": 20,
       "total_flos": 7935331915530240.0,
-      "train_loss": 0.7579435586929322,
-      "train_runtime": 380.9512,
-      "train_samples_per_second": 0.053,
-      "train_steps_per_second": 0.053
     }
   ],
   "logging_steps": 1.0,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 21.60628890991211,
       "learning_rate": 2e-05,
       "loss": 1.2546,
       "step": 1
     },
     {
       "epoch": 2.0,
+      "grad_norm": 21.794620513916016,
       "learning_rate": 1.9863613034027224e-05,
       "loss": 1.2546,
       "step": 2
     },
     {
       "epoch": 3.0,
+      "grad_norm": 13.444245338439941,
       "learning_rate": 1.9458172417006347e-05,
+      "loss": 1.1815,
       "step": 3
     },
     {
       "epoch": 4.0,
+      "grad_norm": 9.568578720092773,
       "learning_rate": 1.879473751206489e-05,
+      "loss": 1.0718,
       "step": 4
     },
     {
       "epoch": 5.0,
+      "grad_norm": 8.503974914550781,
       "learning_rate": 1.789140509396394e-05,
+      "loss": 0.9886,
       "step": 5
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.897951602935791,
+      "eval_perplexity": 1.0108013242189644,
+      "eval_runtime": 0.885,
+      "eval_samples_per_second": 1.13,
+      "eval_steps_per_second": 1.13,
       "eval_total_number_first_token": 2,
       "step": 5
     },
     {
       "epoch": 6.0,
+      "grad_norm": 8.138020515441895,
       "learning_rate": 1.6772815716257414e-05,
+      "loss": 0.8967,
       "step": 6
     },
     {
       "epoch": 7.0,
+      "grad_norm": 8.324158668518066,
       "learning_rate": 1.5469481581224274e-05,
+      "loss": 0.8374,
       "step": 7
     },
     {
       "epoch": 8.0,
+      "grad_norm": 8.041045188903809,
       "learning_rate": 1.4016954246529697e-05,
+      "loss": 0.7753,
       "step": 8
     },
     {
       "epoch": 9.0,
+      "grad_norm": 7.898632526397705,
       "learning_rate": 1.2454854871407993e-05,
+      "loss": 0.7203,
       "step": 9
     },
     {
       "epoch": 10.0,
+      "grad_norm": 6.87092924118042,
       "learning_rate": 1.0825793454723325e-05,
+      "loss": 0.6677,
       "step": 10
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.627693235874176,
+      "eval_perplexity": 1.0075382125074093,
+      "eval_runtime": 0.878,
+      "eval_samples_per_second": 1.139,
+      "eval_steps_per_second": 1.139,
       "eval_total_number_first_token": 2,
       "step": 10
     },
     {
       "epoch": 11.0,
+      "grad_norm": 6.593441009521484,
       "learning_rate": 9.174206545276678e-06,
+      "loss": 0.6275,
       "step": 11
     },
     {
       "epoch": 12.0,
+      "grad_norm": 6.028723239898682,
       "learning_rate": 7.545145128592009e-06,
+      "loss": 0.5971,
       "step": 12
     },
     {
       "epoch": 13.0,
+      "grad_norm": 5.46033239364624,
       "learning_rate": 5.983045753470308e-06,
+      "loss": 0.5745,
       "step": 13
     },
     {
       "epoch": 14.0,
+      "grad_norm": 4.930461883544922,
       "learning_rate": 4.530518418775734e-06,
+      "loss": 0.5558,
       "step": 14
     },
     {
       "epoch": 15.0,
+      "grad_norm": 4.64890193939209,
       "learning_rate": 3.2271842837425917e-06,
+      "loss": 0.5455,
       "step": 15
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.5380075573921204,
+      "eval_perplexity": 1.0064576742544533,
+      "eval_runtime": 0.8779,
+      "eval_samples_per_second": 1.139,
+      "eval_steps_per_second": 1.139,
       "eval_total_number_first_token": 2,
       "step": 15
     },
     {
       "epoch": 16.0,
+      "grad_norm": 4.5582594871521,
       "learning_rate": 2.1085949060360654e-06,
+      "loss": 0.5374,
       "step": 16
     },
     {
       "epoch": 17.0,
+      "grad_norm": 4.519166946411133,
       "learning_rate": 1.2052624879351105e-06,
+      "loss": 0.5316,
       "step": 17
     },
     {
       "epoch": 18.0,
+      "grad_norm": 4.582608699798584,
       "learning_rate": 5.418275829936537e-07,
+      "loss": 0.5291,
       "step": 18
     },
     {
       "epoch": 19.0,
+      "grad_norm": 4.5061774253845215,
       "learning_rate": 1.3638696597277678e-07,
+      "loss": 0.5265,
       "step": 19
     },
     {
       "epoch": 20.0,
+      "grad_norm": 4.478773593902588,
       "learning_rate": 0.0,
+      "loss": 0.5249,
       "step": 20
     },
     {
       "eval_accuracy_total_num_<|stop|>": 2,
       "eval_first_token_param_values": 0.9,
       "eval_first_token_param_values_total": 10,
+      "eval_loss": 0.5260699987411499,
+      "eval_perplexity": 1.0063139350239472,
+      "eval_runtime": 0.8774,
+      "eval_samples_per_second": 1.14,
+      "eval_steps_per_second": 1.14,
       "eval_total_number_first_token": 2,
       "step": 20
     },
       "epoch": 20.0,
       "step": 20,
       "total_flos": 7935331915530240.0,
+      "train_loss": 0.7599329292774201,
+      "train_runtime": 382.8027,
+      "train_samples_per_second": 0.052,
+      "train_steps_per_second": 0.052
     }
   ],
   "logging_steps": 1.0,