Training in progress, step 1700, checkpoint

Browse files

Files changed (6) hide show

checkpoint-1700/adapter_config.json +4 -4
checkpoint-1700/adapter_model.safetensors +1 -1
checkpoint-1700/optimizer.pt +1 -1
checkpoint-1700/rng_state.pth +1 -1
checkpoint-1700/trainer_state.json +1560 -472
checkpoint-1700/training_args.bin +1 -1

checkpoint-1700/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "revision": null,
   "target_modules": [
     "gate_proj",
-    "q_proj",
     "k_proj",
-    "up_proj",
     "o_proj",
-    "down_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "gate_proj",
+    "v_proj",
     "k_proj",
+    "q_proj",
     "o_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-1700/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1e1d94a5cadb6695fc8116b181e8273082bf8e6e40f90598766d77acab50cfa
 size 216151256

 version https://git-lfs.github.com/spec/v1
+oid sha256:32073da0a958402a090498822479ee9219a1aa07dfab18f675e72b544edfa12a
 size 216151256

checkpoint-1700/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e49f0a9b2be783c9008fd0179004679d369ed01a2b90c0aae887ff1784492f70
 size 432640054

 version https://git-lfs.github.com/spec/v1
+oid sha256:81268f53dbe0bdaf16bcfecb5b6093abf275f2cee5d463fdb05592da22d0e95c
 size 432640054

checkpoint-1700/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:515c935ba26155acf1f30b81490e9a46d32c3bd4ece638000d6e98583e15b5a1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d280efd25a7a29aef54547e6c3bbd50f03df15bae3ed1824b86ed1341960aeef
 size 14244

checkpoint-1700/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 2.151898734177215,
-  "eval_steps": 50,
   "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -10,1464 +10,2552 @@
   "log_history": [
     {
       "epoch": 0.012658227848101266,
-      "grad_norm": 16.027029037475586,
       "learning_rate": 4.9789029535864986e-05,
-      "loss": 2.6925,
       "step": 10
     },
     {
       "epoch": 0.02531645569620253,
-      "grad_norm": 1.0948777198791504,
       "learning_rate": 4.957805907172996e-05,
-      "loss": 1.386,
       "step": 20
     },
     {
       "epoch": 0.0379746835443038,
-      "grad_norm": 1.1341983079910278,
       "learning_rate": 4.936708860759494e-05,
-      "loss": 1.108,
       "step": 30
     },
     {
       "epoch": 0.05063291139240506,
-      "grad_norm": 1.152009129524231,
       "learning_rate": 4.9156118143459915e-05,
-      "loss": 0.9436,
       "step": 40
     },
     {
       "epoch": 0.06329113924050633,
-      "grad_norm": 1.0990614891052246,
       "learning_rate": 4.89451476793249e-05,
-      "loss": 0.7499,
       "step": 50
     },
     {
       "epoch": 0.06329113924050633,
-      "eval_loss": 0.7157873511314392,
-      "eval_runtime": 12.1594,
-      "eval_samples_per_second": 39.476,
-      "eval_steps_per_second": 2.467,
       "step": 50
     },
     {
       "epoch": 0.0759493670886076,
-      "grad_norm": 1.0284477472305298,
       "learning_rate": 4.8734177215189874e-05,
-      "loss": 0.6095,
       "step": 60
     },
     {
       "epoch": 0.08860759493670886,
-      "grad_norm": 0.8609589338302612,
       "learning_rate": 4.852320675105486e-05,
-      "loss": 0.5355,
       "step": 70
     },
     {
       "epoch": 0.10126582278481013,
-      "grad_norm": 0.9162376523017883,
       "learning_rate": 4.8312236286919834e-05,
-      "loss": 0.5705,
       "step": 80
     },
     {
       "epoch": 0.11392405063291139,
-      "grad_norm": 0.9415847659111023,
       "learning_rate": 4.810126582278481e-05,
-      "loss": 0.5449,
       "step": 90
     },
     {
       "epoch": 0.12658227848101267,
-      "grad_norm": 0.8756884336471558,
       "learning_rate": 4.789029535864979e-05,
-      "loss": 0.5157,
       "step": 100
     },
     {
       "epoch": 0.12658227848101267,
-      "eval_loss": 0.563517153263092,
-      "eval_runtime": 12.1236,
-      "eval_samples_per_second": 39.592,
-      "eval_steps_per_second": 2.475,
       "step": 100
     },
     {
       "epoch": 0.13924050632911392,
-      "grad_norm": 0.8702118396759033,
       "learning_rate": 4.767932489451477e-05,
-      "loss": 0.53,
       "step": 110
     },
     {
       "epoch": 0.1518987341772152,
-      "grad_norm": 0.8843992352485657,
       "learning_rate": 4.7468354430379746e-05,
-      "loss": 0.4923,
       "step": 120
     },
     {
       "epoch": 0.16455696202531644,
-      "grad_norm": 0.8294386863708496,
       "learning_rate": 4.725738396624473e-05,
-      "loss": 0.4936,
       "step": 130
     },
     {
       "epoch": 0.17721518987341772,
-      "grad_norm": 0.8978216648101807,
       "learning_rate": 4.704641350210971e-05,
-      "loss": 0.4581,
       "step": 140
     },
     {
       "epoch": 0.189873417721519,
-      "grad_norm": 0.8757727742195129,
       "learning_rate": 4.683544303797468e-05,
-      "loss": 0.4571,
       "step": 150
     },
     {
       "epoch": 0.189873417721519,
-      "eval_loss": 0.5096740126609802,
-      "eval_runtime": 12.0892,
-      "eval_samples_per_second": 39.705,
-      "eval_steps_per_second": 2.482,
       "step": 150
     },
     {
       "epoch": 0.20253164556962025,
-      "grad_norm": 0.8959233164787292,
       "learning_rate": 4.6624472573839666e-05,
-      "loss": 0.4429,
       "step": 160
     },
     {
       "epoch": 0.21518987341772153,
-      "grad_norm": 0.9160757660865784,
       "learning_rate": 4.641350210970464e-05,
-      "loss": 0.4167,
       "step": 170
     },
     {
       "epoch": 0.22784810126582278,
-      "grad_norm": 0.8140855431556702,
       "learning_rate": 4.6202531645569625e-05,
-      "loss": 0.4249,
       "step": 180
     },
     {
       "epoch": 0.24050632911392406,
-      "grad_norm": 0.8790073990821838,
       "learning_rate": 4.59915611814346e-05,
-      "loss": 0.4198,
       "step": 190
     },
     {
       "epoch": 0.25316455696202533,
-      "grad_norm": 0.8366842269897461,
       "learning_rate": 4.5780590717299585e-05,
-      "loss": 0.4148,
       "step": 200
     },
     {
       "epoch": 0.25316455696202533,
-      "eval_loss": 0.47525277733802795,
-      "eval_runtime": 12.0592,
-      "eval_samples_per_second": 39.803,
-      "eval_steps_per_second": 2.488,
       "step": 200
     },
     {
       "epoch": 0.26582278481012656,
-      "grad_norm": 0.8733569383621216,
       "learning_rate": 4.556962025316456e-05,
-      "loss": 0.3865,
       "step": 210
     },
     {
       "epoch": 0.27848101265822783,
-      "grad_norm": 0.8695210218429565,
       "learning_rate": 4.535864978902954e-05,
-      "loss": 0.3681,
       "step": 220
     },
     {
       "epoch": 0.2911392405063291,
-      "grad_norm": 0.8353093862533569,
       "learning_rate": 4.5147679324894514e-05,
-      "loss": 0.4121,
       "step": 230
     },
     {
       "epoch": 0.3037974683544304,
-      "grad_norm": 0.9650343656539917,
       "learning_rate": 4.49367088607595e-05,
-      "loss": 0.3987,
       "step": 240
     },
     {
       "epoch": 0.31645569620253167,
-      "grad_norm": 0.9851623773574829,
       "learning_rate": 4.4725738396624474e-05,
-      "loss": 0.4028,
       "step": 250
     },
     {
       "epoch": 0.31645569620253167,
-      "eval_loss": 0.4751642048358917,
-      "eval_runtime": 12.0237,
-      "eval_samples_per_second": 39.921,
-      "eval_steps_per_second": 2.495,
       "step": 250
     },
     {
       "epoch": 0.3291139240506329,
-      "grad_norm": 0.8186360597610474,
       "learning_rate": 4.451476793248946e-05,
-      "loss": 0.405,
       "step": 260
     },
     {
       "epoch": 0.34177215189873417,
-      "grad_norm": 0.76863032579422,
       "learning_rate": 4.430379746835443e-05,
-      "loss": 0.4134,
       "step": 270
     },
     {
       "epoch": 0.35443037974683544,
-      "grad_norm": 0.785301685333252,
       "learning_rate": 4.409282700421941e-05,
-      "loss": 0.3745,
       "step": 280
     },
     {
       "epoch": 0.3670886075949367,
-      "grad_norm": 0.8613535165786743,
       "learning_rate": 4.388185654008439e-05,
-      "loss": 0.3804,
       "step": 290
     },
     {
       "epoch": 0.379746835443038,
-      "grad_norm": 0.8152708411216736,
       "learning_rate": 4.367088607594937e-05,
-      "loss": 0.3757,
       "step": 300
     },
     {
       "epoch": 0.379746835443038,
-      "eval_loss": 0.4623233675956726,
-      "eval_runtime": 12.0099,
-      "eval_samples_per_second": 39.967,
-      "eval_steps_per_second": 2.498,
       "step": 300
     },
     {
       "epoch": 0.3924050632911392,
-      "grad_norm": 0.991691529750824,
       "learning_rate": 4.345991561181435e-05,
-      "loss": 0.385,
       "step": 310
     },
     {
       "epoch": 0.4050632911392405,
-      "grad_norm": 0.8187862038612366,
       "learning_rate": 4.324894514767933e-05,
-      "loss": 0.3917,
       "step": 320
     },
     {
       "epoch": 0.4177215189873418,
-      "grad_norm": 0.8500226736068726,
       "learning_rate": 4.3037974683544305e-05,
-      "loss": 0.3688,
       "step": 330
     },
     {
       "epoch": 0.43037974683544306,
-      "grad_norm": 0.7299651503562927,
       "learning_rate": 4.282700421940928e-05,
-      "loss": 0.3739,
       "step": 340
     },
     {
       "epoch": 0.4430379746835443,
-      "grad_norm": 0.8893154263496399,
       "learning_rate": 4.2616033755274265e-05,
-      "loss": 0.3564,
       "step": 350
     },
     {
       "epoch": 0.4430379746835443,
-      "eval_loss": 0.4550924301147461,
-      "eval_runtime": 12.0243,
-      "eval_samples_per_second": 39.919,
-      "eval_steps_per_second": 2.495,
       "step": 350
     },
     {
       "epoch": 0.45569620253164556,
-      "grad_norm": 0.8444374203681946,
       "learning_rate": 4.240506329113924e-05,
-      "loss": 0.3524,
       "step": 360
     },
     {
       "epoch": 0.46835443037974683,
-      "grad_norm": 0.8772708773612976,
       "learning_rate": 4.2194092827004224e-05,
-      "loss": 0.3764,
       "step": 370
     },
     {
       "epoch": 0.4810126582278481,
-      "grad_norm": 0.9512792229652405,
       "learning_rate": 4.19831223628692e-05,
       "loss": 0.3661,
       "step": 380
     },
     {
       "epoch": 0.4936708860759494,
-      "grad_norm": 0.9425243735313416,
       "learning_rate": 4.177215189873418e-05,
-      "loss": 0.3622,
       "step": 390
     },
     {
       "epoch": 0.5063291139240507,
-      "grad_norm": 0.9078274965286255,
       "learning_rate": 4.1561181434599153e-05,
-      "loss": 0.3816,
       "step": 400
     },
     {
       "epoch": 0.5063291139240507,
-      "eval_loss": 0.4516087770462036,
-      "eval_runtime": 12.0448,
-      "eval_samples_per_second": 39.851,
-      "eval_steps_per_second": 2.491,
       "step": 400
     },
     {
       "epoch": 0.5189873417721519,
-      "grad_norm": 0.8404316306114197,
       "learning_rate": 4.135021097046414e-05,
-      "loss": 0.3619,
       "step": 410
     },
     {
       "epoch": 0.5316455696202531,
-      "grad_norm": 0.8855183720588684,
       "learning_rate": 4.113924050632912e-05,
-      "loss": 0.343,
       "step": 420
     },
     {
       "epoch": 0.5443037974683544,
-      "grad_norm": 0.9338253140449524,
       "learning_rate": 4.0928270042194096e-05,
-      "loss": 0.3578,
       "step": 430
     },
     {
       "epoch": 0.5569620253164557,
-      "grad_norm": 0.8403006196022034,
       "learning_rate": 4.071729957805907e-05,
-      "loss": 0.3643,
       "step": 440
     },
     {
       "epoch": 0.569620253164557,
-      "grad_norm": 0.9659109711647034,
       "learning_rate": 4.050632911392405e-05,
-      "loss": 0.3564,
       "step": 450
     },
     {
       "epoch": 0.569620253164557,
-      "eval_loss": 0.451053649187088,
-      "eval_runtime": 12.0489,
-      "eval_samples_per_second": 39.838,
-      "eval_steps_per_second": 2.49,
       "step": 450
     },
     {
       "epoch": 0.5822784810126582,
-      "grad_norm": 0.9061423540115356,
       "learning_rate": 4.029535864978903e-05,
-      "loss": 0.3933,
       "step": 460
     },
     {
       "epoch": 0.5949367088607594,
-      "grad_norm": 1.0263495445251465,
       "learning_rate": 4.008438818565401e-05,
       "loss": 0.3507,
       "step": 470
     },
     {
       "epoch": 0.6075949367088608,
-      "grad_norm": 0.9696556925773621,
       "learning_rate": 3.987341772151899e-05,
-      "loss": 0.3548,
       "step": 480
     },
     {
       "epoch": 0.620253164556962,
-      "grad_norm": 0.8338599801063538,
       "learning_rate": 3.966244725738397e-05,
-      "loss": 0.3592,
       "step": 490
     },
     {
       "epoch": 0.6329113924050633,
-      "grad_norm": 0.8355560898780823,
       "learning_rate": 3.945147679324895e-05,
-      "loss": 0.3396,
       "step": 500
     },
     {
       "epoch": 0.6329113924050633,
-      "eval_loss": 0.44608718156814575,
-      "eval_runtime": 12.0402,
-      "eval_samples_per_second": 39.866,
-      "eval_steps_per_second": 2.492,
       "step": 500
     },
     {
       "epoch": 0.6455696202531646,
-      "grad_norm": 0.9514285922050476,
       "learning_rate": 3.924050632911392e-05,
-      "loss": 0.3723,
       "step": 510
     },
     {
       "epoch": 0.6582278481012658,
-      "grad_norm": 0.889250636100769,
       "learning_rate": 3.9029535864978904e-05,
-      "loss": 0.3409,
       "step": 520
     },
     {
       "epoch": 0.6708860759493671,
-      "grad_norm": 0.8155794739723206,
       "learning_rate": 3.881856540084388e-05,
-      "loss": 0.3459,
       "step": 530
     },
     {
       "epoch": 0.6835443037974683,
-      "grad_norm": 0.988770067691803,
       "learning_rate": 3.8607594936708864e-05,
-      "loss": 0.3402,
       "step": 540
     },
     {
       "epoch": 0.6962025316455697,
-      "grad_norm": 1.103231430053711,
       "learning_rate": 3.839662447257384e-05,
-      "loss": 0.3128,
       "step": 550
     },
     {
       "epoch": 0.6962025316455697,
-      "eval_loss": 0.44281187653541565,
-      "eval_runtime": 12.0675,
-      "eval_samples_per_second": 39.776,
-      "eval_steps_per_second": 2.486,
       "step": 550
     },
     {
       "epoch": 0.7088607594936709,
-      "grad_norm": 0.7863460779190063,
       "learning_rate": 3.8185654008438823e-05,
-      "loss": 0.3242,
       "step": 560
     },
     {
       "epoch": 0.7215189873417721,
-      "grad_norm": 0.7838957905769348,
       "learning_rate": 3.79746835443038e-05,
-      "loss": 0.3221,
       "step": 570
     },
     {
       "epoch": 0.7341772151898734,
-      "grad_norm": 0.9342265129089355,
       "learning_rate": 3.7763713080168776e-05,
-      "loss": 0.3495,
       "step": 580
     },
     {
       "epoch": 0.7468354430379747,
-      "grad_norm": 0.7851606607437134,
       "learning_rate": 3.755274261603376e-05,
-      "loss": 0.3373,
       "step": 590
     },
     {
       "epoch": 0.759493670886076,
-      "grad_norm": 0.9647020697593689,
       "learning_rate": 3.7341772151898736e-05,
-      "loss": 0.3382,
       "step": 600
     },
     {
       "epoch": 0.759493670886076,
-      "eval_loss": 0.445304811000824,
-      "eval_runtime": 12.0584,
-      "eval_samples_per_second": 39.806,
-      "eval_steps_per_second": 2.488,
       "step": 600
     },
     {
       "epoch": 0.7721518987341772,
-      "grad_norm": 1.0215495824813843,
       "learning_rate": 3.713080168776372e-05,
-      "loss": 0.318,
       "step": 610
     },
     {
       "epoch": 0.7848101265822784,
-      "grad_norm": 1.3600817918777466,
       "learning_rate": 3.6919831223628695e-05,
-      "loss": 0.3427,
       "step": 620
     },
     {
       "epoch": 0.7974683544303798,
-      "grad_norm": 0.9783280491828918,
       "learning_rate": 3.670886075949367e-05,
-      "loss": 0.3235,
       "step": 630
     },
     {
       "epoch": 0.810126582278481,
-      "grad_norm": 1.0098915100097656,
       "learning_rate": 3.649789029535865e-05,
-      "loss": 0.3456,
       "step": 640
     },
     {
       "epoch": 0.8227848101265823,
-      "grad_norm": 1.3016279935836792,
       "learning_rate": 3.628691983122363e-05,
-      "loss": 0.3344,
       "step": 650
     },
     {
       "epoch": 0.8227848101265823,
-      "eval_loss": 0.43976032733917236,
-      "eval_runtime": 12.0615,
-      "eval_samples_per_second": 39.796,
-      "eval_steps_per_second": 2.487,
       "step": 650
     },
     {
       "epoch": 0.8354430379746836,
-      "grad_norm": 1.0438024997711182,
       "learning_rate": 3.607594936708861e-05,
-      "loss": 0.3249,
       "step": 660
     },
     {
       "epoch": 0.8481012658227848,
-      "grad_norm": 0.9977937936782837,
       "learning_rate": 3.586497890295359e-05,
       "loss": 0.3315,
       "step": 670
     },
     {
       "epoch": 0.8607594936708861,
-      "grad_norm": 0.9880861639976501,
       "learning_rate": 3.565400843881857e-05,
-      "loss": 0.312,
       "step": 680
     },
     {
       "epoch": 0.8734177215189873,
-      "grad_norm": 1.0138334035873413,
       "learning_rate": 3.5443037974683544e-05,
-      "loss": 0.3262,
       "step": 690
     },
     {
-      "epoch": 0.8860759493670886,
-      "grad_norm": 1.058542251586914,
-      "learning_rate": 3.523206751054853e-05,
-      "loss": 0.3014,
       "step": 700
     },
     {
       "epoch": 0.8860759493670886,
-      "eval_loss": 0.4420892596244812,
-      "eval_runtime": 12.0438,
-      "eval_samples_per_second": 39.855,
-      "eval_steps_per_second": 2.491,
       "step": 700
     },
     {
       "epoch": 0.8987341772151899,
-      "grad_norm": 1.0708235502243042,
       "learning_rate": 3.50210970464135e-05,
-      "loss": 0.2992,
       "step": 710
     },
     {
       "epoch": 0.9113924050632911,
-      "grad_norm": 0.9392389059066772,
       "learning_rate": 3.4810126582278487e-05,
-      "loss": 0.3299,
       "step": 720
     },
     {
       "epoch": 0.9240506329113924,
-      "grad_norm": 0.7538421154022217,
       "learning_rate": 3.459915611814346e-05,
       "loss": 0.3115,
       "step": 730
     },
     {
       "epoch": 0.9367088607594937,
-      "grad_norm": 0.8931723237037659,
       "learning_rate": 3.438818565400844e-05,
-      "loss": 0.2959,
       "step": 740
     },
     {
       "epoch": 0.9493670886075949,
-      "grad_norm": 1.0418621301651,
       "learning_rate": 3.4177215189873416e-05,
-      "loss": 0.2893,
       "step": 750
     },
     {
       "epoch": 0.9493670886075949,
-      "eval_loss": 0.448076456785202,
-      "eval_runtime": 12.0093,
-      "eval_samples_per_second": 39.969,
-      "eval_steps_per_second": 2.498,
       "step": 750
     },
     {
       "epoch": 0.9620253164556962,
-      "grad_norm": 0.8443204760551453,
       "learning_rate": 3.39662447257384e-05,
-      "loss": 0.3078,
       "step": 760
     },
     {
       "epoch": 0.9746835443037974,
-      "grad_norm": 0.8977694511413574,
       "learning_rate": 3.3755274261603375e-05,
-      "loss": 0.3,
       "step": 770
     },
     {
       "epoch": 0.9873417721518988,
-      "grad_norm": 0.8762078881263733,
       "learning_rate": 3.354430379746836e-05,
-      "loss": 0.3084,
       "step": 780
     },
     {
       "epoch": 1.0,
-      "grad_norm": 1.5368683338165283,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.3118,
       "step": 790
     },
     {
       "epoch": 1.0126582278481013,
-      "grad_norm": 0.8271649479866028,
       "learning_rate": 3.312236286919831e-05,
-      "loss": 0.2495,
       "step": 800
     },
     {
       "epoch": 1.0126582278481013,
-      "eval_loss": 0.4584559202194214,
-      "eval_runtime": 11.9901,
-      "eval_samples_per_second": 40.033,
-      "eval_steps_per_second": 2.502,
       "step": 800
     },
     {
       "epoch": 1.0253164556962024,
-      "grad_norm": 1.0991883277893066,
       "learning_rate": 3.291139240506329e-05,
-      "loss": 0.2375,
       "step": 810
     },
     {
       "epoch": 1.0379746835443038,
-      "grad_norm": 1.204933524131775,
       "learning_rate": 3.270042194092827e-05,
-      "loss": 0.2438,
       "step": 820
     },
     {
       "epoch": 1.0506329113924051,
-      "grad_norm": 0.9623118042945862,
       "learning_rate": 3.248945147679325e-05,
-      "loss": 0.2468,
       "step": 830
     },
     {
       "epoch": 1.0632911392405062,
-      "grad_norm": 0.9446392059326172,
       "learning_rate": 3.227848101265823e-05,
-      "loss": 0.2604,
       "step": 840
     },
     {
       "epoch": 1.0759493670886076,
-      "grad_norm": 1.09183931350708,
       "learning_rate": 3.2067510548523214e-05,
-      "loss": 0.2432,
       "step": 850
     },
     {
       "epoch": 1.0759493670886076,
-      "eval_loss": 0.4808673858642578,
-      "eval_runtime": 11.9871,
-      "eval_samples_per_second": 40.043,
       "eval_steps_per_second": 2.503,
       "step": 850
     },
     {
       "epoch": 1.0886075949367089,
-      "grad_norm": 1.030819296836853,
       "learning_rate": 3.185654008438819e-05,
-      "loss": 0.248,
       "step": 860
     },
     {
       "epoch": 1.1012658227848102,
-      "grad_norm": 1.2739111185073853,
       "learning_rate": 3.1645569620253167e-05,
-      "loss": 0.2389,
       "step": 870
     },
     {
       "epoch": 1.1139240506329113,
-      "grad_norm": 1.2686798572540283,
       "learning_rate": 3.143459915611814e-05,
       "loss": 0.2435,
       "step": 880
     },
     {
       "epoch": 1.1265822784810127,
-      "grad_norm": 0.9686960577964783,
       "learning_rate": 3.1223628691983126e-05,
-      "loss": 0.2458,
       "step": 890
     },
     {
       "epoch": 1.139240506329114,
-      "grad_norm": 0.9801315069198608,
       "learning_rate": 3.10126582278481e-05,
-      "loss": 0.2398,
       "step": 900
     },
     {
       "epoch": 1.139240506329114,
-      "eval_loss": 0.4864863157272339,
-      "eval_runtime": 11.9969,
-      "eval_samples_per_second": 40.01,
-      "eval_steps_per_second": 2.501,
       "step": 900
     },
     {
       "epoch": 1.1518987341772151,
-      "grad_norm": 1.20490300655365,
       "learning_rate": 3.0801687763713086e-05,
-      "loss": 0.2392,
       "step": 910
     },
     {
       "epoch": 1.1645569620253164,
-      "grad_norm": 1.059806227684021,
       "learning_rate": 3.059071729957806e-05,
-      "loss": 0.2361,
       "step": 920
     },
     {
       "epoch": 1.1772151898734178,
-      "grad_norm": 0.8633821606636047,
       "learning_rate": 3.0379746835443042e-05,
-      "loss": 0.2379,
       "step": 930
     },
     {
       "epoch": 1.189873417721519,
-      "grad_norm": 0.9523428082466125,
       "learning_rate": 3.0168776371308015e-05,
-      "loss": 0.2453,
       "step": 940
     },
     {
       "epoch": 1.2025316455696202,
-      "grad_norm": 1.1596494913101196,
       "learning_rate": 2.9957805907172998e-05,
-      "loss": 0.2441,
       "step": 950
     },
     {
       "epoch": 1.2025316455696202,
-      "eval_loss": 0.4912337064743042,
-      "eval_runtime": 12.0346,
-      "eval_samples_per_second": 39.885,
-      "eval_steps_per_second": 2.493,
       "step": 950
     },
     {
       "epoch": 1.2151898734177216,
-      "grad_norm": 1.0093268156051636,
       "learning_rate": 2.9746835443037974e-05,
-      "loss": 0.2317,
       "step": 960
     },
     {
       "epoch": 1.2278481012658227,
-      "grad_norm": 1.2350938320159912,
       "learning_rate": 2.9535864978902954e-05,
-      "loss": 0.2305,
       "step": 970
     },
     {
       "epoch": 1.240506329113924,
-      "grad_norm": 1.002922534942627,
       "learning_rate": 2.9324894514767937e-05,
-      "loss": 0.2372,
       "step": 980
     },
     {
       "epoch": 1.2531645569620253,
-      "grad_norm": 1.0603275299072266,
       "learning_rate": 2.9113924050632914e-05,
-      "loss": 0.2475,
       "step": 990
     },
     {
       "epoch": 1.2658227848101267,
-      "grad_norm": 0.9403554797172546,
       "learning_rate": 2.8902953586497894e-05,
-      "loss": 0.2448,
       "step": 1000
     },
     {
       "epoch": 1.2658227848101267,
-      "eval_loss": 0.4881727993488312,
-      "eval_runtime": 12.0738,
-      "eval_samples_per_second": 39.755,
-      "eval_steps_per_second": 2.485,
       "step": 1000
     },
     {
       "epoch": 1.2784810126582278,
-      "grad_norm": 1.1267849206924438,
       "learning_rate": 2.869198312236287e-05,
-      "loss": 0.252,
       "step": 1010
     },
     {
       "epoch": 1.2911392405063291,
-      "grad_norm": 0.9086706638336182,
       "learning_rate": 2.848101265822785e-05,
-      "loss": 0.2262,
       "step": 1020
     },
     {
       "epoch": 1.3037974683544304,
-      "grad_norm": 1.0883458852767944,
       "learning_rate": 2.8270042194092826e-05,
-      "loss": 0.249,
       "step": 1030
     },
     {
       "epoch": 1.3164556962025316,
-      "grad_norm": 0.9758527874946594,
       "learning_rate": 2.805907172995781e-05,
       "loss": 0.24,
       "step": 1040
     },
     {
       "epoch": 1.3291139240506329,
-      "grad_norm": 1.1725505590438843,
       "learning_rate": 2.7848101265822786e-05,
-      "loss": 0.2474,
       "step": 1050
     },
     {
       "epoch": 1.3291139240506329,
-      "eval_loss": 0.4840269386768341,
-      "eval_runtime": 12.071,
-      "eval_samples_per_second": 39.765,
-      "eval_steps_per_second": 2.485,
       "step": 1050
     },
     {
       "epoch": 1.3417721518987342,
-      "grad_norm": 1.0591912269592285,
       "learning_rate": 2.7637130801687766e-05,
-      "loss": 0.2464,
       "step": 1060
     },
     {
       "epoch": 1.3544303797468356,
-      "grad_norm": 1.0729987621307373,
       "learning_rate": 2.7426160337552742e-05,
-      "loss": 0.252,
       "step": 1070
     },
     {
       "epoch": 1.3670886075949367,
-      "grad_norm": 1.0370715856552124,
       "learning_rate": 2.7215189873417722e-05,
-      "loss": 0.2406,
       "step": 1080
     },
     {
       "epoch": 1.379746835443038,
-      "grad_norm": 1.206893801689148,
       "learning_rate": 2.7004219409282698e-05,
-      "loss": 0.2473,
       "step": 1090
     },
     {
       "epoch": 1.3924050632911391,
-      "grad_norm": 1.0200327634811401,
       "learning_rate": 2.679324894514768e-05,
-      "loss": 0.2295,
       "step": 1100
     },
     {
       "epoch": 1.3924050632911391,
-      "eval_loss": 0.5031505227088928,
-      "eval_runtime": 12.0655,
-      "eval_samples_per_second": 39.783,
-      "eval_steps_per_second": 2.486,
       "step": 1100
     },
     {
       "epoch": 1.4050632911392404,
-      "grad_norm": 1.2679574489593506,
       "learning_rate": 2.6582278481012658e-05,
-      "loss": 0.2302,
       "step": 1110
     },
     {
       "epoch": 1.4177215189873418,
-      "grad_norm": 1.18761146068573,
       "learning_rate": 2.6371308016877638e-05,
-      "loss": 0.2411,
       "step": 1120
     },
     {
       "epoch": 1.4303797468354431,
-      "grad_norm": 1.1477174758911133,
       "learning_rate": 2.616033755274262e-05,
-      "loss": 0.2381,
       "step": 1130
     },
     {
       "epoch": 1.4430379746835442,
-      "grad_norm": 1.0517818927764893,
       "learning_rate": 2.5949367088607597e-05,
-      "loss": 0.2369,
       "step": 1140
     },
     {
       "epoch": 1.4556962025316456,
-      "grad_norm": 0.9531949162483215,
       "learning_rate": 2.5738396624472577e-05,
-      "loss": 0.2361,
       "step": 1150
     },
     {
       "epoch": 1.4556962025316456,
-      "eval_loss": 0.5018289685249329,
-      "eval_runtime": 12.0747,
-      "eval_samples_per_second": 39.753,
-      "eval_steps_per_second": 2.485,
       "step": 1150
     },
     {
       "epoch": 1.4683544303797469,
-      "grad_norm": 0.9300551414489746,
       "learning_rate": 2.5527426160337553e-05,
-      "loss": 0.2243,
       "step": 1160
     },
     {
       "epoch": 1.481012658227848,
-      "grad_norm": 1.2955694198608398,
       "learning_rate": 2.5316455696202533e-05,
       "loss": 0.2321,
       "step": 1170
     },
     {
       "epoch": 1.4936708860759493,
-      "grad_norm": 1.2079862356185913,
       "learning_rate": 2.510548523206751e-05,
-      "loss": 0.2314,
       "step": 1180
     },
     {
       "epoch": 1.5063291139240507,
-      "grad_norm": 1.3028253316879272,
       "learning_rate": 2.4894514767932493e-05,
-      "loss": 0.2258,
       "step": 1190
     },
     {
       "epoch": 1.518987341772152,
-      "grad_norm": 0.9611914157867432,
       "learning_rate": 2.468354430379747e-05,
-      "loss": 0.2255,
       "step": 1200
     },
     {
       "epoch": 1.518987341772152,
-      "eval_loss": 0.5073651671409607,
-      "eval_runtime": 12.0384,
-      "eval_samples_per_second": 39.873,
-      "eval_steps_per_second": 2.492,
       "step": 1200
     },
     {
       "epoch": 1.5316455696202531,
-      "grad_norm": 0.8750888109207153,
       "learning_rate": 2.447257383966245e-05,
-      "loss": 0.2217,
       "step": 1210
     },
     {
       "epoch": 1.5443037974683544,
-      "grad_norm": 1.2590450048446655,
       "learning_rate": 2.426160337552743e-05,
-      "loss": 0.2159,
       "step": 1220
     },
     {
       "epoch": 1.5569620253164556,
-      "grad_norm": 1.101980209350586,
       "learning_rate": 2.4050632911392405e-05,
-      "loss": 0.2275,
       "step": 1230
     },
     {
       "epoch": 1.5696202531645569,
-      "grad_norm": 1.4721567630767822,
       "learning_rate": 2.3839662447257385e-05,
-      "loss": 0.2246,
       "step": 1240
     },
     {
       "epoch": 1.5822784810126582,
-      "grad_norm": 1.0216143131256104,
       "learning_rate": 2.3628691983122365e-05,
-      "loss": 0.2197,
       "step": 1250
     },
     {
       "epoch": 1.5822784810126582,
-      "eval_loss": 0.5188580751419067,
-      "eval_runtime": 11.987,
-      "eval_samples_per_second": 40.044,
-      "eval_steps_per_second": 2.503,
       "step": 1250
     },
     {
       "epoch": 1.5949367088607596,
-      "grad_norm": 1.0697591304779053,
       "learning_rate": 2.341772151898734e-05,
-      "loss": 0.2186,
       "step": 1260
     },
     {
       "epoch": 1.6075949367088609,
-      "grad_norm": 1.4975963830947876,
       "learning_rate": 2.320675105485232e-05,
-      "loss": 0.2294,
       "step": 1270
     },
     {
       "epoch": 1.620253164556962,
-      "grad_norm": 1.459277629852295,
       "learning_rate": 2.29957805907173e-05,
-      "loss": 0.2245,
       "step": 1280
     },
     {
       "epoch": 1.6329113924050633,
-      "grad_norm": 0.9292024970054626,
       "learning_rate": 2.278481012658228e-05,
-      "loss": 0.2218,
       "step": 1290
     },
     {
       "epoch": 1.6455696202531644,
-      "grad_norm": 1.2397997379302979,
       "learning_rate": 2.2573839662447257e-05,
-      "loss": 0.2191,
       "step": 1300
     },
     {
       "epoch": 1.6455696202531644,
-      "eval_loss": 0.5294594168663025,
-      "eval_runtime": 11.984,
-      "eval_samples_per_second": 40.053,
-      "eval_steps_per_second": 2.503,
       "step": 1300
     },
     {
       "epoch": 1.6582278481012658,
-      "grad_norm": 1.2087140083312988,
       "learning_rate": 2.2362869198312237e-05,
-      "loss": 0.2199,
       "step": 1310
     },
     {
       "epoch": 1.6708860759493671,
-      "grad_norm": 1.2266016006469727,
       "learning_rate": 2.2151898734177217e-05,
-      "loss": 0.2225,
       "step": 1320
     },
     {
       "epoch": 1.6835443037974684,
-      "grad_norm": 1.0097143650054932,
       "learning_rate": 2.1940928270042196e-05,
-      "loss": 0.2096,
       "step": 1330
     },
     {
       "epoch": 1.6962025316455698,
-      "grad_norm": 1.2084118127822876,
       "learning_rate": 2.1729957805907176e-05,
-      "loss": 0.2221,
       "step": 1340
     },
     {
       "epoch": 1.7088607594936709,
-      "grad_norm": 0.998393177986145,
       "learning_rate": 2.1518987341772153e-05,
-      "loss": 0.2129,
       "step": 1350
     },
     {
       "epoch": 1.7088607594936709,
-      "eval_loss": 0.5261878967285156,
-      "eval_runtime": 12.0038,
-      "eval_samples_per_second": 39.987,
-      "eval_steps_per_second": 2.499,
       "step": 1350
     },
     {
       "epoch": 1.721518987341772,
-      "grad_norm": 1.2497705221176147,
       "learning_rate": 2.1308016877637132e-05,
-      "loss": 0.2226,
       "step": 1360
     },
     {
       "epoch": 1.7341772151898733,
-      "grad_norm": 1.5441995859146118,
       "learning_rate": 2.1097046413502112e-05,
-      "loss": 0.2116,
       "step": 1370
     },
     {
       "epoch": 1.7468354430379747,
-      "grad_norm": 1.0025138854980469,
       "learning_rate": 2.088607594936709e-05,
-      "loss": 0.2076,
       "step": 1380
     },
     {
       "epoch": 1.759493670886076,
-      "grad_norm": 1.2574256658554077,
       "learning_rate": 2.067510548523207e-05,
-      "loss": 0.2197,
       "step": 1390
     },
     {
       "epoch": 1.7721518987341773,
-      "grad_norm": 1.3464620113372803,
       "learning_rate": 2.0464135021097048e-05,
-      "loss": 0.2131,
       "step": 1400
     },
     {
       "epoch": 1.7721518987341773,
-      "eval_loss": 0.5383611917495728,
-      "eval_runtime": 12.0113,
-      "eval_samples_per_second": 39.962,
-      "eval_steps_per_second": 2.498,
       "step": 1400
     },
     {
       "epoch": 1.7848101265822784,
-      "grad_norm": 1.011980414390564,
       "learning_rate": 2.0253164556962025e-05,
-      "loss": 0.2126,
       "step": 1410
     },
     {
       "epoch": 1.7974683544303798,
-      "grad_norm": 1.256744146347046,
       "learning_rate": 2.0042194092827004e-05,
-      "loss": 0.2149,
       "step": 1420
     },
     {
       "epoch": 1.810126582278481,
-      "grad_norm": 1.2042864561080933,
       "learning_rate": 1.9831223628691984e-05,
-      "loss": 0.2126,
       "step": 1430
     },
     {
       "epoch": 1.8227848101265822,
-      "grad_norm": 1.451006531715393,
       "learning_rate": 1.962025316455696e-05,
-      "loss": 0.226,
       "step": 1440
     },
     {
       "epoch": 1.8354430379746836,
-      "grad_norm": 1.1933971643447876,
       "learning_rate": 1.940928270042194e-05,
-      "loss": 0.2116,
       "step": 1450
     },
     {
       "epoch": 1.8354430379746836,
-      "eval_loss": 0.5407164096832275,
-      "eval_runtime": 12.0512,
-      "eval_samples_per_second": 39.83,
-      "eval_steps_per_second": 2.489,
       "step": 1450
     },
     {
       "epoch": 1.8481012658227849,
-      "grad_norm": 1.6366031169891357,
       "learning_rate": 1.919831223628692e-05,
-      "loss": 0.214,
       "step": 1460
     },
     {
       "epoch": 1.8607594936708862,
-      "grad_norm": 1.0698237419128418,
       "learning_rate": 1.89873417721519e-05,
-      "loss": 0.2202,
       "step": 1470
     },
     {
       "epoch": 1.8734177215189873,
-      "grad_norm": 1.140483021736145,
       "learning_rate": 1.877637130801688e-05,
-      "loss": 0.2061,
       "step": 1480
     },
     {
       "epoch": 1.8860759493670884,
-      "grad_norm": 1.1802376508712769,
       "learning_rate": 1.856540084388186e-05,
-      "loss": 0.1924,
       "step": 1490
     },
     {
       "epoch": 1.8987341772151898,
-      "grad_norm": 1.346197247505188,
       "learning_rate": 1.8354430379746836e-05,
-      "loss": 0.2025,
       "step": 1500
     },
     {
       "epoch": 1.8987341772151898,
-      "eval_loss": 0.5630756616592407,
-      "eval_runtime": 12.0674,
-      "eval_samples_per_second": 39.777,
-      "eval_steps_per_second": 2.486,
       "step": 1500
     },
     {
       "epoch": 1.9113924050632911,
-      "grad_norm": 1.0245105028152466,
       "learning_rate": 1.8143459915611816e-05,
-      "loss": 0.2052,
       "step": 1510
     },
     {
       "epoch": 1.9240506329113924,
-      "grad_norm": 1.429472804069519,
       "learning_rate": 1.7932489451476795e-05,
-      "loss": 0.2068,
       "step": 1520
     },
     {
       "epoch": 1.9367088607594938,
-      "grad_norm": 1.365710973739624,
       "learning_rate": 1.7721518987341772e-05,
-      "loss": 0.2015,
       "step": 1530
     },
     {
       "epoch": 1.9493670886075949,
-      "grad_norm": 1.1183977127075195,
       "learning_rate": 1.751054852320675e-05,
-      "loss": 0.2055,
       "step": 1540
     },
     {
       "epoch": 1.9620253164556962,
-      "grad_norm": 0.9807043075561523,
       "learning_rate": 1.729957805907173e-05,
-      "loss": 0.1971,
       "step": 1550
     },
     {
       "epoch": 1.9620253164556962,
-      "eval_loss": 0.5526915788650513,
-      "eval_runtime": 12.0722,
-      "eval_samples_per_second": 39.761,
-      "eval_steps_per_second": 2.485,
       "step": 1550
     },
     {
       "epoch": 1.9746835443037973,
-      "grad_norm": 1.236009955406189,
       "learning_rate": 1.7088607594936708e-05,
-      "loss": 0.2052,
       "step": 1560
     },
     {
       "epoch": 1.9873417721518987,
-      "grad_norm": 1.1743968725204468,
       "learning_rate": 1.6877637130801688e-05,
-      "loss": 0.1959,
       "step": 1570
     },
     {
       "epoch": 2.0,
-      "grad_norm": 2.5088844299316406,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.205,
       "step": 1580
     },
     {
       "epoch": 2.0126582278481013,
-      "grad_norm": 0.884162962436676,
       "learning_rate": 1.6455696202531644e-05,
-      "loss": 0.1733,
       "step": 1590
     },
     {
       "epoch": 2.0253164556962027,
-      "grad_norm": 1.1254284381866455,
       "learning_rate": 1.6244725738396624e-05,
-      "loss": 0.1683,
       "step": 1600
     },
     {
       "epoch": 2.0253164556962027,
-      "eval_loss": 0.6310465931892395,
-      "eval_runtime": 12.0625,
-      "eval_samples_per_second": 39.793,
-      "eval_steps_per_second": 2.487,
       "step": 1600
     },
     {
       "epoch": 2.037974683544304,
-      "grad_norm": 1.4868180751800537,
       "learning_rate": 1.6033755274261607e-05,
-      "loss": 0.1707,
       "step": 1610
     },
     {
       "epoch": 2.050632911392405,
-      "grad_norm": 1.4054713249206543,
       "learning_rate": 1.5822784810126583e-05,
-      "loss": 0.1727,
       "step": 1620
     },
     {
       "epoch": 2.0632911392405062,
-      "grad_norm": 0.9653518795967102,
       "learning_rate": 1.5611814345991563e-05,
-      "loss": 0.1643,
       "step": 1630
     },
     {
       "epoch": 2.0759493670886076,
-      "grad_norm": 1.0967450141906738,
       "learning_rate": 1.5400843881856543e-05,
-      "loss": 0.1686,
       "step": 1640
     },
     {
       "epoch": 2.088607594936709,
-      "grad_norm": 1.1451764106750488,
       "learning_rate": 1.5189873417721521e-05,
-      "loss": 0.1725,
       "step": 1650
     },
     {
       "epoch": 2.088607594936709,
-      "eval_loss": 0.6448082327842712,
-      "eval_runtime": 12.0369,
-      "eval_samples_per_second": 39.877,
-      "eval_steps_per_second": 2.492,
       "step": 1650
     },
     {
       "epoch": 2.1012658227848102,
-      "grad_norm": 1.1208401918411255,
       "learning_rate": 1.4978902953586499e-05,
-      "loss": 0.1693,
       "step": 1660
     },
     {
       "epoch": 2.1139240506329116,
-      "grad_norm": 0.9656118154525757,
       "learning_rate": 1.4767932489451477e-05,
-      "loss": 0.1714,
       "step": 1670
     },
     {
       "epoch": 2.1265822784810124,
-      "grad_norm": 0.8934836387634277,
       "learning_rate": 1.4556962025316457e-05,
-      "loss": 0.1634,
       "step": 1680
     },
     {
       "epoch": 2.1392405063291138,
-      "grad_norm": 1.314848780632019,
       "learning_rate": 1.4345991561181435e-05,
-      "loss": 0.1643,
       "step": 1690
     },
     {
       "epoch": 2.151898734177215,
-      "grad_norm": 1.2692363262176514,
       "learning_rate": 1.4135021097046413e-05,
-      "loss": 0.168,
       "step": 1700
     },
     {
       "epoch": 2.151898734177215,
-      "eval_loss": 0.6497387290000916,
-      "eval_runtime": 12.0231,
-      "eval_samples_per_second": 39.923,
-      "eval_steps_per_second": 2.495,
       "step": 1700
     }
   ],
@@ -1475,7 +2563,7 @@
   "max_steps": 2370,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 2.151898734177215,
+  "eval_steps": 10,
   "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.012658227848101266,
+      "grad_norm": 12.934767723083496,
       "learning_rate": 4.9789029535864986e-05,
+      "loss": 2.6869,
+      "step": 10
+    },
+    {
+      "epoch": 0.012658227848101266,
+      "eval_loss": 1.651185393333435,
+      "eval_runtime": 11.831,
+      "eval_samples_per_second": 40.571,
+      "eval_steps_per_second": 2.536,
       "step": 10
     },
     {
       "epoch": 0.02531645569620253,
+      "grad_norm": 1.104798674583435,
       "learning_rate": 4.957805907172996e-05,
+      "loss": 1.3694,
+      "step": 20
+    },
+    {
+      "epoch": 0.02531645569620253,
+      "eval_loss": 1.2200205326080322,
+      "eval_runtime": 11.8928,
+      "eval_samples_per_second": 40.361,
+      "eval_steps_per_second": 2.523,
       "step": 20
     },
     {
       "epoch": 0.0379746835443038,
+      "grad_norm": 1.1069142818450928,
       "learning_rate": 4.936708860759494e-05,
+      "loss": 1.1029,
+      "step": 30
+    },
+    {
+      "epoch": 0.0379746835443038,
+      "eval_loss": 1.0691736936569214,
+      "eval_runtime": 11.9127,
+      "eval_samples_per_second": 40.293,
+      "eval_steps_per_second": 2.518,
       "step": 30
     },
     {
       "epoch": 0.05063291139240506,
+      "grad_norm": 1.1594161987304688,
       "learning_rate": 4.9156118143459915e-05,
+      "loss": 0.9395,
+      "step": 40
+    },
+    {
+      "epoch": 0.05063291139240506,
+      "eval_loss": 0.9162012934684753,
+      "eval_runtime": 11.9373,
+      "eval_samples_per_second": 40.21,
+      "eval_steps_per_second": 2.513,
       "step": 40
     },
     {
       "epoch": 0.06329113924050633,
+      "grad_norm": 1.1133538484573364,
       "learning_rate": 4.89451476793249e-05,
+      "loss": 0.7489,
       "step": 50
     },
     {
       "epoch": 0.06329113924050633,
+      "eval_loss": 0.713701605796814,
+      "eval_runtime": 11.9661,
+      "eval_samples_per_second": 40.113,
+      "eval_steps_per_second": 2.507,
       "step": 50
     },
     {
       "epoch": 0.0759493670886076,
+      "grad_norm": 1.0406183004379272,
       "learning_rate": 4.8734177215189874e-05,
+      "loss": 0.6096,
+      "step": 60
+    },
+    {
+      "epoch": 0.0759493670886076,
+      "eval_loss": 0.6309535503387451,
+      "eval_runtime": 11.9895,
+      "eval_samples_per_second": 40.035,
+      "eval_steps_per_second": 2.502,
       "step": 60
     },
     {
       "epoch": 0.08860759493670886,
+      "grad_norm": 0.8599340915679932,
       "learning_rate": 4.852320675105486e-05,
+      "loss": 0.5357,
+      "step": 70
+    },
+    {
+      "epoch": 0.08860759493670886,
+      "eval_loss": 0.6159886717796326,
+      "eval_runtime": 12.0107,
+      "eval_samples_per_second": 39.965,
+      "eval_steps_per_second": 2.498,
       "step": 70
     },
     {
       "epoch": 0.10126582278481013,
+      "grad_norm": 0.9128267168998718,
       "learning_rate": 4.8312236286919834e-05,
+      "loss": 0.5703,
+      "step": 80
+    },
+    {
+      "epoch": 0.10126582278481013,
+      "eval_loss": 0.5933937430381775,
+      "eval_runtime": 11.9716,
+      "eval_samples_per_second": 40.095,
+      "eval_steps_per_second": 2.506,
       "step": 80
     },
     {
       "epoch": 0.11392405063291139,
+      "grad_norm": 0.9396541118621826,
       "learning_rate": 4.810126582278481e-05,
+      "loss": 0.5445,
+      "step": 90
+    },
+    {
+      "epoch": 0.11392405063291139,
+      "eval_loss": 0.5727818608283997,
+      "eval_runtime": 11.9685,
+      "eval_samples_per_second": 40.105,
+      "eval_steps_per_second": 2.507,
       "step": 90
     },
     {
       "epoch": 0.12658227848101267,
+      "grad_norm": 0.8805290460586548,
       "learning_rate": 4.789029535864979e-05,
+      "loss": 0.5151,
       "step": 100
     },
     {
       "epoch": 0.12658227848101267,
+      "eval_loss": 0.5640087127685547,
+      "eval_runtime": 11.9824,
+      "eval_samples_per_second": 40.059,
+      "eval_steps_per_second": 2.504,
       "step": 100
     },
     {
       "epoch": 0.13924050632911392,
+      "grad_norm": 0.8829126954078674,
       "learning_rate": 4.767932489451477e-05,
+      "loss": 0.5301,
+      "step": 110
+    },
+    {
+      "epoch": 0.13924050632911392,
+      "eval_loss": 0.5558986067771912,
+      "eval_runtime": 11.9942,
+      "eval_samples_per_second": 40.019,
+      "eval_steps_per_second": 2.501,
       "step": 110
     },
     {
       "epoch": 0.1518987341772152,
+      "grad_norm": 0.8889341950416565,
       "learning_rate": 4.7468354430379746e-05,
+      "loss": 0.4929,
+      "step": 120
+    },
+    {
+      "epoch": 0.1518987341772152,
+      "eval_loss": 0.5422877073287964,
+      "eval_runtime": 11.9624,
+      "eval_samples_per_second": 40.126,
+      "eval_steps_per_second": 2.508,
       "step": 120
     },
     {
       "epoch": 0.16455696202531644,
+      "grad_norm": 0.8428446054458618,
       "learning_rate": 4.725738396624473e-05,
+      "loss": 0.4932,
+      "step": 130
+    },
+    {
+      "epoch": 0.16455696202531644,
+      "eval_loss": 0.5370256900787354,
+      "eval_runtime": 11.9786,
+      "eval_samples_per_second": 40.071,
+      "eval_steps_per_second": 2.504,
       "step": 130
     },
     {
       "epoch": 0.17721518987341772,
+      "grad_norm": 0.8985374569892883,
       "learning_rate": 4.704641350210971e-05,
+      "loss": 0.4589,
+      "step": 140
+    },
+    {
+      "epoch": 0.17721518987341772,
+      "eval_loss": 0.5208094716072083,
+      "eval_runtime": 11.9711,
+      "eval_samples_per_second": 40.097,
+      "eval_steps_per_second": 2.506,
       "step": 140
     },
     {
       "epoch": 0.189873417721519,
+      "grad_norm": 0.8704663515090942,
       "learning_rate": 4.683544303797468e-05,
+      "loss": 0.4585,
       "step": 150
     },
     {
       "epoch": 0.189873417721519,
+      "eval_loss": 0.5105039477348328,
+      "eval_runtime": 11.9751,
+      "eval_samples_per_second": 40.083,
+      "eval_steps_per_second": 2.505,
       "step": 150
     },
     {
       "epoch": 0.20253164556962025,
+      "grad_norm": 0.8930565714836121,
       "learning_rate": 4.6624472573839666e-05,
+      "loss": 0.4438,
+      "step": 160
+    },
+    {
+      "epoch": 0.20253164556962025,
+      "eval_loss": 0.4988265931606293,
+      "eval_runtime": 11.9819,
+      "eval_samples_per_second": 40.06,
+      "eval_steps_per_second": 2.504,
       "step": 160
     },
     {
       "epoch": 0.21518987341772153,
+      "grad_norm": 0.9236075282096863,
       "learning_rate": 4.641350210970464e-05,
+      "loss": 0.4171,
+      "step": 170
+    },
+    {
+      "epoch": 0.21518987341772153,
+      "eval_loss": 0.4941176176071167,
+      "eval_runtime": 11.9797,
+      "eval_samples_per_second": 40.068,
+      "eval_steps_per_second": 2.504,
       "step": 170
     },
     {
       "epoch": 0.22784810126582278,
+      "grad_norm": 0.8057528138160706,
       "learning_rate": 4.6202531645569625e-05,
+      "loss": 0.4244,
+      "step": 180
+    },
+    {
+      "epoch": 0.22784810126582278,
+      "eval_loss": 0.489634245634079,
+      "eval_runtime": 11.9664,
+      "eval_samples_per_second": 40.112,
+      "eval_steps_per_second": 2.507,
       "step": 180
     },
     {
       "epoch": 0.24050632911392406,
+      "grad_norm": 0.8802728056907654,
       "learning_rate": 4.59915611814346e-05,
+      "loss": 0.4196,
+      "step": 190
+    },
+    {
+      "epoch": 0.24050632911392406,
+      "eval_loss": 0.48033541440963745,
+      "eval_runtime": 11.9754,
+      "eval_samples_per_second": 40.082,
+      "eval_steps_per_second": 2.505,
       "step": 190
     },
     {
       "epoch": 0.25316455696202533,
+      "grad_norm": 0.8316253423690796,
       "learning_rate": 4.5780590717299585e-05,
+      "loss": 0.4144,
       "step": 200
     },
     {
       "epoch": 0.25316455696202533,
+      "eval_loss": 0.4757111966609955,
+      "eval_runtime": 11.9744,
+      "eval_samples_per_second": 40.086,
+      "eval_steps_per_second": 2.505,
       "step": 200
     },
     {
       "epoch": 0.26582278481012656,
+      "grad_norm": 0.8675290942192078,
       "learning_rate": 4.556962025316456e-05,
+      "loss": 0.3866,
+      "step": 210
+    },
+    {
+      "epoch": 0.26582278481012656,
+      "eval_loss": 0.4751383662223816,
+      "eval_runtime": 11.9976,
+      "eval_samples_per_second": 40.008,
+      "eval_steps_per_second": 2.501,
       "step": 210
     },
     {
       "epoch": 0.27848101265822783,
+      "grad_norm": 0.8654202818870544,
       "learning_rate": 4.535864978902954e-05,
+      "loss": 0.3685,
+      "step": 220
+    },
+    {
+      "epoch": 0.27848101265822783,
+      "eval_loss": 0.47636380791664124,
+      "eval_runtime": 11.988,
+      "eval_samples_per_second": 40.04,
+      "eval_steps_per_second": 2.502,
       "step": 220
     },
     {
       "epoch": 0.2911392405063291,
+      "grad_norm": 0.835969090461731,
       "learning_rate": 4.5147679324894514e-05,
+      "loss": 0.4117,
+      "step": 230
+    },
+    {
+      "epoch": 0.2911392405063291,
+      "eval_loss": 0.4723130762577057,
+      "eval_runtime": 11.9995,
+      "eval_samples_per_second": 40.002,
+      "eval_steps_per_second": 2.5,
       "step": 230
     },
     {
       "epoch": 0.3037974683544304,
+      "grad_norm": 0.9585816860198975,
       "learning_rate": 4.49367088607595e-05,
+      "loss": 0.398,
+      "step": 240
+    },
+    {
+      "epoch": 0.3037974683544304,
+      "eval_loss": 0.472170889377594,
+      "eval_runtime": 12.0019,
+      "eval_samples_per_second": 39.994,
+      "eval_steps_per_second": 2.5,
       "step": 240
     },
     {
       "epoch": 0.31645569620253167,
+      "grad_norm": 1.0022097826004028,
       "learning_rate": 4.4725738396624474e-05,
+      "loss": 0.403,
       "step": 250
     },
     {
       "epoch": 0.31645569620253167,
+      "eval_loss": 0.47611597180366516,
+      "eval_runtime": 12.0087,
+      "eval_samples_per_second": 39.971,
+      "eval_steps_per_second": 2.498,
       "step": 250
     },
     {
       "epoch": 0.3291139240506329,
+      "grad_norm": 0.8225414156913757,
       "learning_rate": 4.451476793248946e-05,
+      "loss": 0.4045,
+      "step": 260
+    },
+    {
+      "epoch": 0.3291139240506329,
+      "eval_loss": 0.47163695096969604,
+      "eval_runtime": 11.9976,
+      "eval_samples_per_second": 40.008,
+      "eval_steps_per_second": 2.501,
       "step": 260
     },
     {
       "epoch": 0.34177215189873417,
+      "grad_norm": 0.765426754951477,
       "learning_rate": 4.430379746835443e-05,
+      "loss": 0.4147,
+      "step": 270
+    },
+    {
+      "epoch": 0.34177215189873417,
+      "eval_loss": 0.4663979113101959,
+      "eval_runtime": 12.0321,
+      "eval_samples_per_second": 39.893,
+      "eval_steps_per_second": 2.493,
       "step": 270
     },
     {
       "epoch": 0.35443037974683544,
+      "grad_norm": 0.783598780632019,
       "learning_rate": 4.409282700421941e-05,
+      "loss": 0.3747,
+      "step": 280
+    },
+    {
+      "epoch": 0.35443037974683544,
+      "eval_loss": 0.4673294723033905,
+      "eval_runtime": 12.0086,
+      "eval_samples_per_second": 39.971,
+      "eval_steps_per_second": 2.498,
       "step": 280
     },
     {
       "epoch": 0.3670886075949367,
+      "grad_norm": 0.830932080745697,
       "learning_rate": 4.388185654008439e-05,
+      "loss": 0.3803,
+      "step": 290
+    },
+    {
+      "epoch": 0.3670886075949367,
+      "eval_loss": 0.4643842875957489,
+      "eval_runtime": 12.0174,
+      "eval_samples_per_second": 39.942,
+      "eval_steps_per_second": 2.496,
       "step": 290
     },
     {
       "epoch": 0.379746835443038,
+      "grad_norm": 0.8144668936729431,
       "learning_rate": 4.367088607594937e-05,
+      "loss": 0.3756,
       "step": 300
     },
     {
       "epoch": 0.379746835443038,
+      "eval_loss": 0.462455689907074,
+      "eval_runtime": 12.0337,
+      "eval_samples_per_second": 39.888,
+      "eval_steps_per_second": 2.493,
       "step": 300
     },
     {
       "epoch": 0.3924050632911392,
+      "grad_norm": 0.9901543259620667,
       "learning_rate": 4.345991561181435e-05,
+      "loss": 0.3854,
+      "step": 310
+    },
+    {
+      "epoch": 0.3924050632911392,
+      "eval_loss": 0.46370917558670044,
+      "eval_runtime": 12.0391,
+      "eval_samples_per_second": 39.87,
+      "eval_steps_per_second": 2.492,
       "step": 310
     },
     {
       "epoch": 0.4050632911392405,
+      "grad_norm": 0.8155348300933838,
       "learning_rate": 4.324894514767933e-05,
+      "loss": 0.3923,
+      "step": 320
+    },
+    {
+      "epoch": 0.4050632911392405,
+      "eval_loss": 0.45924586057662964,
+      "eval_runtime": 12.0043,
+      "eval_samples_per_second": 39.986,
+      "eval_steps_per_second": 2.499,
       "step": 320
     },
     {
       "epoch": 0.4177215189873418,
+      "grad_norm": 0.848515510559082,
       "learning_rate": 4.3037974683544305e-05,
+      "loss": 0.3685,
+      "step": 330
+    },
+    {
+      "epoch": 0.4177215189873418,
+      "eval_loss": 0.4578324556350708,
+      "eval_runtime": 12.0153,
+      "eval_samples_per_second": 39.949,
+      "eval_steps_per_second": 2.497,
       "step": 330
     },
     {
       "epoch": 0.43037974683544306,
+      "grad_norm": 0.7363820672035217,
       "learning_rate": 4.282700421940928e-05,
+      "loss": 0.3732,
+      "step": 340
+    },
+    {
+      "epoch": 0.43037974683544306,
+      "eval_loss": 0.45530304312705994,
+      "eval_runtime": 12.0022,
+      "eval_samples_per_second": 39.993,
+      "eval_steps_per_second": 2.5,
       "step": 340
     },
     {
       "epoch": 0.4430379746835443,
+      "grad_norm": 0.8941953778266907,
       "learning_rate": 4.2616033755274265e-05,
+      "loss": 0.3568,
       "step": 350
     },
     {
       "epoch": 0.4430379746835443,
+      "eval_loss": 0.45564475655555725,
+      "eval_runtime": 11.9942,
+      "eval_samples_per_second": 40.019,
+      "eval_steps_per_second": 2.501,
       "step": 350
     },
     {
       "epoch": 0.45569620253164556,
+      "grad_norm": 0.8505308628082275,
       "learning_rate": 4.240506329113924e-05,
+      "loss": 0.3532,
+      "step": 360
+    },
+    {
+      "epoch": 0.45569620253164556,
+      "eval_loss": 0.4565883278846741,
+      "eval_runtime": 11.9837,
+      "eval_samples_per_second": 40.055,
+      "eval_steps_per_second": 2.503,
       "step": 360
     },
     {
       "epoch": 0.46835443037974683,
+      "grad_norm": 0.8749685883522034,
       "learning_rate": 4.2194092827004224e-05,
+      "loss": 0.3782,
+      "step": 370
+    },
+    {
+      "epoch": 0.46835443037974683,
+      "eval_loss": 0.4539250433444977,
+      "eval_runtime": 11.9818,
+      "eval_samples_per_second": 40.061,
+      "eval_steps_per_second": 2.504,
       "step": 370
     },
     {
       "epoch": 0.4810126582278481,
+      "grad_norm": 0.9504376649856567,
       "learning_rate": 4.19831223628692e-05,
       "loss": 0.3661,
       "step": 380
     },
+    {
+      "epoch": 0.4810126582278481,
+      "eval_loss": 0.45406588912010193,
+      "eval_runtime": 11.977,
+      "eval_samples_per_second": 40.077,
+      "eval_steps_per_second": 2.505,
+      "step": 380
+    },
     {
       "epoch": 0.4936708860759494,
+      "grad_norm": 0.9361797571182251,
       "learning_rate": 4.177215189873418e-05,
+      "loss": 0.3616,
+      "step": 390
+    },
+    {
+      "epoch": 0.4936708860759494,
+      "eval_loss": 0.45629584789276123,
+      "eval_runtime": 11.9702,
+      "eval_samples_per_second": 40.099,
+      "eval_steps_per_second": 2.506,
       "step": 390
     },
     {
       "epoch": 0.5063291139240507,
+      "grad_norm": 0.9047650694847107,
       "learning_rate": 4.1561181434599153e-05,
+      "loss": 0.3819,
       "step": 400
     },
     {
       "epoch": 0.5063291139240507,
+      "eval_loss": 0.45267951488494873,
+      "eval_runtime": 11.9764,
+      "eval_samples_per_second": 40.079,
+      "eval_steps_per_second": 2.505,
       "step": 400
     },
     {
       "epoch": 0.5189873417721519,
+      "grad_norm": 0.8421018719673157,
       "learning_rate": 4.135021097046414e-05,
+      "loss": 0.3615,
+      "step": 410
+    },
+    {
+      "epoch": 0.5189873417721519,
+      "eval_loss": 0.4506016671657562,
+      "eval_runtime": 11.9706,
+      "eval_samples_per_second": 40.098,
+      "eval_steps_per_second": 2.506,
       "step": 410
     },
     {
       "epoch": 0.5316455696202531,
+      "grad_norm": 0.8897402882575989,
       "learning_rate": 4.113924050632912e-05,
+      "loss": 0.3422,
+      "step": 420
+    },
+    {
+      "epoch": 0.5316455696202531,
+      "eval_loss": 0.45110735297203064,
+      "eval_runtime": 11.9706,
+      "eval_samples_per_second": 40.098,
+      "eval_steps_per_second": 2.506,
       "step": 420
     },
     {
       "epoch": 0.5443037974683544,
+      "grad_norm": 0.9363548159599304,
       "learning_rate": 4.0928270042194096e-05,
+      "loss": 0.3583,
+      "step": 430
+    },
+    {
+      "epoch": 0.5443037974683544,
+      "eval_loss": 0.45199054479599,
+      "eval_runtime": 11.9734,
+      "eval_samples_per_second": 40.089,
+      "eval_steps_per_second": 2.506,
       "step": 430
     },
     {
       "epoch": 0.5569620253164557,
+      "grad_norm": 0.8411681056022644,
       "learning_rate": 4.071729957805907e-05,
+      "loss": 0.3652,
+      "step": 440
+    },
+    {
+      "epoch": 0.5569620253164557,
+      "eval_loss": 0.4516259431838989,
+      "eval_runtime": 11.9935,
+      "eval_samples_per_second": 40.022,
+      "eval_steps_per_second": 2.501,
       "step": 440
     },
     {
       "epoch": 0.569620253164557,
+      "grad_norm": 0.9512939453125,
       "learning_rate": 4.050632911392405e-05,
+      "loss": 0.3551,
       "step": 450
     },
     {
       "epoch": 0.569620253164557,
+      "eval_loss": 0.45146167278289795,
+      "eval_runtime": 11.9778,
+      "eval_samples_per_second": 40.074,
+      "eval_steps_per_second": 2.505,
       "step": 450
     },
     {
       "epoch": 0.5822784810126582,
+      "grad_norm": 0.9009286165237427,
       "learning_rate": 4.029535864978903e-05,
+      "loss": 0.3932,
+      "step": 460
+    },
+    {
+      "epoch": 0.5822784810126582,
+      "eval_loss": 0.4462432861328125,
+      "eval_runtime": 11.9951,
+      "eval_samples_per_second": 40.016,
+      "eval_steps_per_second": 2.501,
       "step": 460
     },
     {
       "epoch": 0.5949367088607594,
+      "grad_norm": 0.99807208776474,
       "learning_rate": 4.008438818565401e-05,
       "loss": 0.3507,
       "step": 470
     },
+    {
+      "epoch": 0.5949367088607594,
+      "eval_loss": 0.4435524642467499,
+      "eval_runtime": 11.9798,
+      "eval_samples_per_second": 40.067,
+      "eval_steps_per_second": 2.504,
+      "step": 470
+    },
     {
       "epoch": 0.6075949367088608,
+      "grad_norm": 0.9731541872024536,
       "learning_rate": 3.987341772151899e-05,
+      "loss": 0.3554,
+      "step": 480
+    },
+    {
+      "epoch": 0.6075949367088608,
+      "eval_loss": 0.44545066356658936,
+      "eval_runtime": 11.9953,
+      "eval_samples_per_second": 40.016,
+      "eval_steps_per_second": 2.501,
       "step": 480
     },
     {
       "epoch": 0.620253164556962,
+      "grad_norm": 0.8262764811515808,
       "learning_rate": 3.966244725738397e-05,
+      "loss": 0.3598,
+      "step": 490
+    },
+    {
+      "epoch": 0.620253164556962,
+      "eval_loss": 0.44541141390800476,
+      "eval_runtime": 12.0092,
+      "eval_samples_per_second": 39.97,
+      "eval_steps_per_second": 2.498,
       "step": 490
     },
     {
       "epoch": 0.6329113924050633,
+      "grad_norm": 0.8363035917282104,
       "learning_rate": 3.945147679324895e-05,
+      "loss": 0.3395,
       "step": 500
     },
     {
       "epoch": 0.6329113924050633,
+      "eval_loss": 0.4463297426700592,
+      "eval_runtime": 11.9982,
+      "eval_samples_per_second": 40.006,
+      "eval_steps_per_second": 2.5,
       "step": 500
     },
     {
       "epoch": 0.6455696202531646,
+      "grad_norm": 0.9546836018562317,
       "learning_rate": 3.924050632911392e-05,
+      "loss": 0.3719,
+      "step": 510
+    },
+    {
+      "epoch": 0.6455696202531646,
+      "eval_loss": 0.44170814752578735,
+      "eval_runtime": 12.0189,
+      "eval_samples_per_second": 39.937,
+      "eval_steps_per_second": 2.496,
       "step": 510
     },
     {
       "epoch": 0.6582278481012658,
+      "grad_norm": 0.8938493132591248,
       "learning_rate": 3.9029535864978904e-05,
+      "loss": 0.3407,
+      "step": 520
+    },
+    {
+      "epoch": 0.6582278481012658,
+      "eval_loss": 0.44206559658050537,
+      "eval_runtime": 12.0179,
+      "eval_samples_per_second": 39.94,
+      "eval_steps_per_second": 2.496,
       "step": 520
     },
     {
       "epoch": 0.6708860759493671,
+      "grad_norm": 0.8256115317344666,
       "learning_rate": 3.881856540084388e-05,
+      "loss": 0.3463,
+      "step": 530
+    },
+    {
+      "epoch": 0.6708860759493671,
+      "eval_loss": 0.442410409450531,
+      "eval_runtime": 12.0186,
+      "eval_samples_per_second": 39.938,
+      "eval_steps_per_second": 2.496,
       "step": 530
     },
     {
       "epoch": 0.6835443037974683,
+      "grad_norm": 0.9811826348304749,
       "learning_rate": 3.8607594936708864e-05,
+      "loss": 0.3405,
+      "step": 540
+    },
+    {
+      "epoch": 0.6835443037974683,
+      "eval_loss": 0.4402957856655121,
+      "eval_runtime": 12.0169,
+      "eval_samples_per_second": 39.944,
+      "eval_steps_per_second": 2.496,
       "step": 540
     },
     {
       "epoch": 0.6962025316455697,
+      "grad_norm": 1.1067622900009155,
       "learning_rate": 3.839662447257384e-05,
+      "loss": 0.3123,
       "step": 550
     },
     {
       "epoch": 0.6962025316455697,
+      "eval_loss": 0.4435986876487732,
+      "eval_runtime": 12.0131,
+      "eval_samples_per_second": 39.956,
+      "eval_steps_per_second": 2.497,
       "step": 550
     },
     {
       "epoch": 0.7088607594936709,
+      "grad_norm": 0.7862930297851562,
       "learning_rate": 3.8185654008438823e-05,
+      "loss": 0.3241,
+      "step": 560
+    },
+    {
+      "epoch": 0.7088607594936709,
+      "eval_loss": 0.44168028235435486,
+      "eval_runtime": 12.0254,
+      "eval_samples_per_second": 39.916,
+      "eval_steps_per_second": 2.495,
       "step": 560
     },
     {
       "epoch": 0.7215189873417721,
+      "grad_norm": 0.7757970690727234,
       "learning_rate": 3.79746835443038e-05,
+      "loss": 0.3228,
+      "step": 570
+    },
+    {
+      "epoch": 0.7215189873417721,
+      "eval_loss": 0.43862494826316833,
+      "eval_runtime": 12.0155,
+      "eval_samples_per_second": 39.948,
+      "eval_steps_per_second": 2.497,
       "step": 570
     },
     {
       "epoch": 0.7341772151898734,
+      "grad_norm": 0.9344391822814941,
       "learning_rate": 3.7763713080168776e-05,
+      "loss": 0.3493,
+      "step": 580
+    },
+    {
+      "epoch": 0.7341772151898734,
+      "eval_loss": 0.4383662939071655,
+      "eval_runtime": 12.0028,
+      "eval_samples_per_second": 39.991,
+      "eval_steps_per_second": 2.499,
       "step": 580
     },
     {
       "epoch": 0.7468354430379747,
+      "grad_norm": 0.7889246940612793,
       "learning_rate": 3.755274261603376e-05,
+      "loss": 0.3368,
+      "step": 590
+    },
+    {
+      "epoch": 0.7468354430379747,
+      "eval_loss": 0.4401029646396637,
+      "eval_runtime": 12.0067,
+      "eval_samples_per_second": 39.978,
+      "eval_steps_per_second": 2.499,
       "step": 590
     },
     {
       "epoch": 0.759493670886076,
+      "grad_norm": 0.9681524634361267,
       "learning_rate": 3.7341772151898736e-05,
+      "loss": 0.3379,
       "step": 600
     },
     {
       "epoch": 0.759493670886076,
+      "eval_loss": 0.4454769790172577,
+      "eval_runtime": 11.9974,
+      "eval_samples_per_second": 40.009,
+      "eval_steps_per_second": 2.501,
       "step": 600
     },
     {
       "epoch": 0.7721518987341772,
+      "grad_norm": 1.0647331476211548,
       "learning_rate": 3.713080168776372e-05,
+      "loss": 0.3183,
+      "step": 610
+    },
+    {
+      "epoch": 0.7721518987341772,
+      "eval_loss": 0.44765299558639526,
+      "eval_runtime": 11.9871,
+      "eval_samples_per_second": 40.043,
+      "eval_steps_per_second": 2.503,
       "step": 610
     },
     {
       "epoch": 0.7848101265822784,
+      "grad_norm": 1.011276125907898,
       "learning_rate": 3.6919831223628695e-05,
+      "loss": 0.3429,
+      "step": 620
+    },
+    {
+      "epoch": 0.7848101265822784,
+      "eval_loss": 0.44364845752716064,
+      "eval_runtime": 11.9834,
+      "eval_samples_per_second": 40.055,
+      "eval_steps_per_second": 2.503,
       "step": 620
     },
     {
       "epoch": 0.7974683544303798,
+      "grad_norm": 0.9798643589019775,
       "learning_rate": 3.670886075949367e-05,
+      "loss": 0.3241,
+      "step": 630
+    },
+    {
+      "epoch": 0.7974683544303798,
+      "eval_loss": 0.4404812753200531,
+      "eval_runtime": 11.9709,
+      "eval_samples_per_second": 40.097,
+      "eval_steps_per_second": 2.506,
       "step": 630
     },
     {
       "epoch": 0.810126582278481,
+      "grad_norm": 1.0073341131210327,
       "learning_rate": 3.649789029535865e-05,
+      "loss": 0.3458,
+      "step": 640
+    },
+    {
+      "epoch": 0.810126582278481,
+      "eval_loss": 0.4414132237434387,
+      "eval_runtime": 11.9674,
+      "eval_samples_per_second": 40.109,
+      "eval_steps_per_second": 2.507,
       "step": 640
     },
     {
       "epoch": 0.8227848101265823,
+      "grad_norm": 1.1242218017578125,
       "learning_rate": 3.628691983122363e-05,
+      "loss": 0.3349,
       "step": 650
     },
     {
       "epoch": 0.8227848101265823,
+      "eval_loss": 0.44002220034599304,
+      "eval_runtime": 11.9864,
+      "eval_samples_per_second": 40.045,
+      "eval_steps_per_second": 2.503,
       "step": 650
     },
     {
       "epoch": 0.8354430379746836,
+      "grad_norm": 1.017277479171753,
       "learning_rate": 3.607594936708861e-05,
+      "loss": 0.3253,
+      "step": 660
+    },
+    {
+      "epoch": 0.8354430379746836,
+      "eval_loss": 0.44148024916648865,
+      "eval_runtime": 11.9696,
+      "eval_samples_per_second": 40.102,
+      "eval_steps_per_second": 2.506,
       "step": 660
     },
     {
       "epoch": 0.8481012658227848,
+      "grad_norm": 1.0144122838974,
       "learning_rate": 3.586497890295359e-05,
       "loss": 0.3315,
       "step": 670
     },
+    {
+      "epoch": 0.8481012658227848,
+      "eval_loss": 0.44631800055503845,
+      "eval_runtime": 11.9722,
+      "eval_samples_per_second": 40.093,
+      "eval_steps_per_second": 2.506,
+      "step": 670
+    },
     {
       "epoch": 0.8607594936708861,
+      "grad_norm": 0.9348974227905273,
       "learning_rate": 3.565400843881857e-05,
+      "loss": 0.3133,
+      "step": 680
+    },
+    {
+      "epoch": 0.8607594936708861,
+      "eval_loss": 0.44364798069000244,
+      "eval_runtime": 11.9823,
+      "eval_samples_per_second": 40.059,
+      "eval_steps_per_second": 2.504,
       "step": 680
     },
     {
       "epoch": 0.8734177215189873,
+      "grad_norm": 1.0044163465499878,
       "learning_rate": 3.5443037974683544e-05,
+      "loss": 0.3268,
       "step": 690
     },
     {
+      "epoch": 0.8734177215189873,
+      "eval_loss": 0.4390403628349304,
+      "eval_runtime": 11.9953,
+      "eval_samples_per_second": 40.016,
+      "eval_steps_per_second": 2.501,
+      "step": 690
+    },
+    {
+      "epoch": 0.8860759493670886,
+      "grad_norm": 1.0378562211990356,
+      "learning_rate": 3.523206751054853e-05,
+      "loss": 0.301,
       "step": 700
     },
     {
       "epoch": 0.8860759493670886,
+      "eval_loss": 0.44264018535614014,
+      "eval_runtime": 12.0078,
+      "eval_samples_per_second": 39.974,
+      "eval_steps_per_second": 2.498,
       "step": 700
     },
     {
       "epoch": 0.8987341772151899,
+      "grad_norm": 1.0685914754867554,
       "learning_rate": 3.50210970464135e-05,
+      "loss": 0.2999,
+      "step": 710
+    },
+    {
+      "epoch": 0.8987341772151899,
+      "eval_loss": 0.44629010558128357,
+      "eval_runtime": 12.0041,
+      "eval_samples_per_second": 39.986,
+      "eval_steps_per_second": 2.499,
       "step": 710
     },
     {
       "epoch": 0.9113924050632911,
+      "grad_norm": 0.9393686652183533,
       "learning_rate": 3.4810126582278487e-05,
+      "loss": 0.3302,
+      "step": 720
+    },
+    {
+      "epoch": 0.9113924050632911,
+      "eval_loss": 0.4416085481643677,
+      "eval_runtime": 11.9963,
+      "eval_samples_per_second": 40.012,
+      "eval_steps_per_second": 2.501,
       "step": 720
     },
     {
       "epoch": 0.9240506329113924,
+      "grad_norm": 0.7537661790847778,
       "learning_rate": 3.459915611814346e-05,
       "loss": 0.3115,
       "step": 730
     },
+    {
+      "epoch": 0.9240506329113924,
+      "eval_loss": 0.4376052916049957,
+      "eval_runtime": 12.0145,
+      "eval_samples_per_second": 39.952,
+      "eval_steps_per_second": 2.497,
+      "step": 730
+    },
     {
       "epoch": 0.9367088607594937,
+      "grad_norm": 0.8967430591583252,
       "learning_rate": 3.438818565400844e-05,
+      "loss": 0.2953,
+      "step": 740
+    },
+    {
+      "epoch": 0.9367088607594937,
+      "eval_loss": 0.44384878873825073,
+      "eval_runtime": 12.0179,
+      "eval_samples_per_second": 39.94,
+      "eval_steps_per_second": 2.496,
       "step": 740
     },
     {
       "epoch": 0.9493670886075949,
+      "grad_norm": 1.038889765739441,
       "learning_rate": 3.4177215189873416e-05,
+      "loss": 0.2896,
       "step": 750
     },
     {
       "epoch": 0.9493670886075949,
+      "eval_loss": 0.44931265711784363,
+      "eval_runtime": 12.0512,
+      "eval_samples_per_second": 39.83,
+      "eval_steps_per_second": 2.489,
       "step": 750
     },
     {
       "epoch": 0.9620253164556962,
+      "grad_norm": 0.8368887901306152,
       "learning_rate": 3.39662447257384e-05,
+      "loss": 0.3077,
+      "step": 760
+    },
+    {
+      "epoch": 0.9620253164556962,
+      "eval_loss": 0.4448526203632355,
+      "eval_runtime": 12.0245,
+      "eval_samples_per_second": 39.918,
+      "eval_steps_per_second": 2.495,
       "step": 760
     },
     {
       "epoch": 0.9746835443037974,
+      "grad_norm": 0.8918857574462891,
       "learning_rate": 3.3755274261603375e-05,
+      "loss": 0.2998,
+      "step": 770
+    },
+    {
+      "epoch": 0.9746835443037974,
+      "eval_loss": 0.44332075119018555,
+      "eval_runtime": 12.0157,
+      "eval_samples_per_second": 39.948,
+      "eval_steps_per_second": 2.497,
       "step": 770
     },
     {
       "epoch": 0.9873417721518988,
+      "grad_norm": 0.8617395758628845,
       "learning_rate": 3.354430379746836e-05,
+      "loss": 0.3096,
+      "step": 780
+    },
+    {
+      "epoch": 0.9873417721518988,
+      "eval_loss": 0.445936381816864,
+      "eval_runtime": 12.0415,
+      "eval_samples_per_second": 39.862,
+      "eval_steps_per_second": 2.491,
       "step": 780
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.5501235723495483,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.3121,
+      "step": 790
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.4466773569583893,
+      "eval_runtime": 12.0222,
+      "eval_samples_per_second": 39.926,
+      "eval_steps_per_second": 2.495,
       "step": 790
     },
     {
       "epoch": 1.0126582278481013,
+      "grad_norm": 0.8308594822883606,
       "learning_rate": 3.312236286919831e-05,
+      "loss": 0.2496,
       "step": 800
     },
     {
       "epoch": 1.0126582278481013,
+      "eval_loss": 0.4600757658481598,
+      "eval_runtime": 12.0066,
+      "eval_samples_per_second": 39.978,
+      "eval_steps_per_second": 2.499,
       "step": 800
     },
     {
       "epoch": 1.0253164556962024,
+      "grad_norm": 1.106009840965271,
       "learning_rate": 3.291139240506329e-05,
+      "loss": 0.2379,
+      "step": 810
+    },
+    {
+      "epoch": 1.0253164556962024,
+      "eval_loss": 0.4869029223918915,
+      "eval_runtime": 12.0052,
+      "eval_samples_per_second": 39.983,
+      "eval_steps_per_second": 2.499,
       "step": 810
     },
     {
       "epoch": 1.0379746835443038,
+      "grad_norm": 1.245780110359192,
       "learning_rate": 3.270042194092827e-05,
+      "loss": 0.2444,
+      "step": 820
+    },
+    {
+      "epoch": 1.0379746835443038,
+      "eval_loss": 0.4929307997226715,
+      "eval_runtime": 12.04,
+      "eval_samples_per_second": 39.867,
+      "eval_steps_per_second": 2.492,
       "step": 820
     },
     {
       "epoch": 1.0506329113924051,
+      "grad_norm": 0.9375244975090027,
       "learning_rate": 3.248945147679325e-05,
+      "loss": 0.2472,
+      "step": 830
+    },
+    {
+      "epoch": 1.0506329113924051,
+      "eval_loss": 0.4766117334365845,
+      "eval_runtime": 11.9872,
+      "eval_samples_per_second": 40.043,
+      "eval_steps_per_second": 2.503,
       "step": 830
     },
     {
       "epoch": 1.0632911392405062,
+      "grad_norm": 0.918492317199707,
       "learning_rate": 3.227848101265823e-05,
+      "loss": 0.2616,
+      "step": 840
+    },
+    {
+      "epoch": 1.0632911392405062,
+      "eval_loss": 0.47020089626312256,
+      "eval_runtime": 12.0363,
+      "eval_samples_per_second": 39.879,
+      "eval_steps_per_second": 2.492,
       "step": 840
     },
     {
       "epoch": 1.0759493670886076,
+      "grad_norm": 1.1049394607543945,
       "learning_rate": 3.2067510548523214e-05,
+      "loss": 0.2418,
       "step": 850
     },
     {
       "epoch": 1.0759493670886076,
+      "eval_loss": 0.4829190671443939,
+      "eval_runtime": 11.9852,
+      "eval_samples_per_second": 40.049,
       "eval_steps_per_second": 2.503,
       "step": 850
     },
     {
       "epoch": 1.0886075949367089,
+      "grad_norm": 1.016552448272705,
       "learning_rate": 3.185654008438819e-05,
+      "loss": 0.2481,
+      "step": 860
+    },
+    {
+      "epoch": 1.0886075949367089,
+      "eval_loss": 0.4826962649822235,
+      "eval_runtime": 11.9873,
+      "eval_samples_per_second": 40.042,
+      "eval_steps_per_second": 2.503,
       "step": 860
     },
     {
       "epoch": 1.1012658227848102,
+      "grad_norm": 1.2560571432113647,
       "learning_rate": 3.1645569620253167e-05,
+      "loss": 0.2387,
+      "step": 870
+    },
+    {
+      "epoch": 1.1012658227848102,
+      "eval_loss": 0.489859014749527,
+      "eval_runtime": 11.9701,
+      "eval_samples_per_second": 40.1,
+      "eval_steps_per_second": 2.506,
       "step": 870
     },
     {
       "epoch": 1.1139240506329113,
+      "grad_norm": 1.2440732717514038,
       "learning_rate": 3.143459915611814e-05,
       "loss": 0.2435,
       "step": 880
     },
+    {
+      "epoch": 1.1139240506329113,
+      "eval_loss": 0.49208518862724304,
+      "eval_runtime": 11.9784,
+      "eval_samples_per_second": 40.072,
+      "eval_steps_per_second": 2.505,
+      "step": 880
+    },
     {
       "epoch": 1.1265822784810127,
+      "grad_norm": 0.9383878707885742,
       "learning_rate": 3.1223628691983126e-05,
+      "loss": 0.2447,
+      "step": 890
+    },
+    {
+      "epoch": 1.1265822784810127,
+      "eval_loss": 0.4867653548717499,
+      "eval_runtime": 11.9752,
+      "eval_samples_per_second": 40.083,
+      "eval_steps_per_second": 2.505,
       "step": 890
     },
     {
       "epoch": 1.139240506329114,
+      "grad_norm": 1.0004807710647583,
       "learning_rate": 3.10126582278481e-05,
+      "loss": 0.2411,
       "step": 900
     },
     {
       "epoch": 1.139240506329114,
+      "eval_loss": 0.4858919680118561,
+      "eval_runtime": 11.9714,
+      "eval_samples_per_second": 40.096,
+      "eval_steps_per_second": 2.506,
       "step": 900
     },
     {
       "epoch": 1.1518987341772151,
+      "grad_norm": 1.199441909790039,
       "learning_rate": 3.0801687763713086e-05,
+      "loss": 0.2388,
+      "step": 910
+    },
+    {
+      "epoch": 1.1518987341772151,
+      "eval_loss": 0.4939596951007843,
+      "eval_runtime": 11.9759,
+      "eval_samples_per_second": 40.081,
+      "eval_steps_per_second": 2.505,
       "step": 910
     },
     {
       "epoch": 1.1645569620253164,
+      "grad_norm": 1.0790605545043945,
       "learning_rate": 3.059071729957806e-05,
+      "loss": 0.2349,
+      "step": 920
+    },
+    {
+      "epoch": 1.1645569620253164,
+      "eval_loss": 0.4986419081687927,
+      "eval_runtime": 11.9784,
+      "eval_samples_per_second": 40.072,
+      "eval_steps_per_second": 2.505,
       "step": 920
     },
     {
       "epoch": 1.1772151898734178,
+      "grad_norm": 0.8679695725440979,
       "learning_rate": 3.0379746835443042e-05,
+      "loss": 0.2371,
+      "step": 930
+    },
+    {
+      "epoch": 1.1772151898734178,
+      "eval_loss": 0.5016002655029297,
+      "eval_runtime": 11.9852,
+      "eval_samples_per_second": 40.049,
+      "eval_steps_per_second": 2.503,
       "step": 930
     },
     {
       "epoch": 1.189873417721519,
+      "grad_norm": 0.9647346138954163,
       "learning_rate": 3.0168776371308015e-05,
+      "loss": 0.2458,
+      "step": 940
+    },
+    {
+      "epoch": 1.189873417721519,
+      "eval_loss": 0.4908369183540344,
+      "eval_runtime": 11.9702,
+      "eval_samples_per_second": 40.1,
+      "eval_steps_per_second": 2.506,
       "step": 940
     },
     {
       "epoch": 1.2025316455696202,
+      "grad_norm": 1.1370365619659424,
       "learning_rate": 2.9957805907172998e-05,
+      "loss": 0.2445,
       "step": 950
     },
     {
       "epoch": 1.2025316455696202,
+      "eval_loss": 0.49214595556259155,
+      "eval_runtime": 12.0126,
+      "eval_samples_per_second": 39.958,
+      "eval_steps_per_second": 2.497,
       "step": 950
     },
     {
       "epoch": 1.2151898734177216,
+      "grad_norm": 0.9806302785873413,
       "learning_rate": 2.9746835443037974e-05,
+      "loss": 0.2312,
+      "step": 960
+    },
+    {
+      "epoch": 1.2151898734177216,
+      "eval_loss": 0.49411967396736145,
+      "eval_runtime": 11.9848,
+      "eval_samples_per_second": 40.051,
+      "eval_steps_per_second": 2.503,
       "step": 960
     },
     {
       "epoch": 1.2278481012658227,
+      "grad_norm": 1.3110421895980835,
       "learning_rate": 2.9535864978902954e-05,
+      "loss": 0.232,
+      "step": 970
+    },
+    {
+      "epoch": 1.2278481012658227,
+      "eval_loss": 0.4991765320301056,
+      "eval_runtime": 11.9902,
+      "eval_samples_per_second": 40.033,
+      "eval_steps_per_second": 2.502,
       "step": 970
     },
     {
       "epoch": 1.240506329113924,
+      "grad_norm": 1.0500195026397705,
       "learning_rate": 2.9324894514767937e-05,
+      "loss": 0.2383,
+      "step": 980
+    },
+    {
+      "epoch": 1.240506329113924,
+      "eval_loss": 0.49621057510375977,
+      "eval_runtime": 12.0013,
+      "eval_samples_per_second": 39.996,
+      "eval_steps_per_second": 2.5,
       "step": 980
     },
     {
       "epoch": 1.2531645569620253,
+      "grad_norm": 0.9941369891166687,
       "learning_rate": 2.9113924050632914e-05,
+      "loss": 0.2476,
+      "step": 990
+    },
+    {
+      "epoch": 1.2531645569620253,
+      "eval_loss": 0.49155521392822266,
+      "eval_runtime": 11.9925,
+      "eval_samples_per_second": 40.025,
+      "eval_steps_per_second": 2.502,
       "step": 990
     },
     {
       "epoch": 1.2658227848101267,
+      "grad_norm": 0.9125022888183594,
       "learning_rate": 2.8902953586497894e-05,
+      "loss": 0.245,
       "step": 1000
     },
     {
       "epoch": 1.2658227848101267,
+      "eval_loss": 0.48823124170303345,
+      "eval_runtime": 12.0166,
+      "eval_samples_per_second": 39.945,
+      "eval_steps_per_second": 2.497,
       "step": 1000
     },
     {
       "epoch": 1.2784810126582278,
+      "grad_norm": 1.117295265197754,
       "learning_rate": 2.869198312236287e-05,
+      "loss": 0.2524,
+      "step": 1010
+    },
+    {
+      "epoch": 1.2784810126582278,
+      "eval_loss": 0.49002018570899963,
+      "eval_runtime": 12.0063,
+      "eval_samples_per_second": 39.979,
+      "eval_steps_per_second": 2.499,
       "step": 1010
     },
     {
       "epoch": 1.2911392405063291,
+      "grad_norm": 0.8876442313194275,
       "learning_rate": 2.848101265822785e-05,
+      "loss": 0.226,
+      "step": 1020
+    },
+    {
+      "epoch": 1.2911392405063291,
+      "eval_loss": 0.49178546667099,
+      "eval_runtime": 11.9934,
+      "eval_samples_per_second": 40.022,
+      "eval_steps_per_second": 2.501,
       "step": 1020
     },
     {
       "epoch": 1.3037974683544304,
+      "grad_norm": 1.1132365465164185,
       "learning_rate": 2.8270042194092826e-05,
+      "loss": 0.251,
+      "step": 1030
+    },
+    {
+      "epoch": 1.3037974683544304,
+      "eval_loss": 0.48901158571243286,
+      "eval_runtime": 12.0012,
+      "eval_samples_per_second": 39.996,
+      "eval_steps_per_second": 2.5,
       "step": 1030
     },
     {
       "epoch": 1.3164556962025316,
+      "grad_norm": 0.955846905708313,
       "learning_rate": 2.805907172995781e-05,
       "loss": 0.24,
       "step": 1040
     },
+    {
+      "epoch": 1.3164556962025316,
+      "eval_loss": 0.4916110932826996,
+      "eval_runtime": 12.0084,
+      "eval_samples_per_second": 39.972,
+      "eval_steps_per_second": 2.498,
+      "step": 1040
+    },
     {
       "epoch": 1.3291139240506329,
+      "grad_norm": 1.1728436946868896,
       "learning_rate": 2.7848101265822786e-05,
+      "loss": 0.2468,
       "step": 1050
     },
     {
       "epoch": 1.3291139240506329,
+      "eval_loss": 0.4856778383255005,
+      "eval_runtime": 12.0257,
+      "eval_samples_per_second": 39.914,
+      "eval_steps_per_second": 2.495,
       "step": 1050
     },
     {
       "epoch": 1.3417721518987342,
+      "grad_norm": 1.0737842321395874,
       "learning_rate": 2.7637130801687766e-05,
+      "loss": 0.2452,
+      "step": 1060
+    },
+    {
+      "epoch": 1.3417721518987342,
+      "eval_loss": 0.4862895607948303,
+      "eval_runtime": 12.0173,
+      "eval_samples_per_second": 39.942,
+      "eval_steps_per_second": 2.496,
       "step": 1060
     },
     {
       "epoch": 1.3544303797468356,
+      "grad_norm": 1.115880012512207,
       "learning_rate": 2.7426160337552742e-05,
+      "loss": 0.2524,
+      "step": 1070
+    },
+    {
+      "epoch": 1.3544303797468356,
+      "eval_loss": 0.49149009585380554,
+      "eval_runtime": 12.0087,
+      "eval_samples_per_second": 39.971,
+      "eval_steps_per_second": 2.498,
       "step": 1070
     },
     {
       "epoch": 1.3670886075949367,
+      "grad_norm": 1.0399274826049805,
       "learning_rate": 2.7215189873417722e-05,
+      "loss": 0.2414,
+      "step": 1080
+    },
+    {
+      "epoch": 1.3670886075949367,
+      "eval_loss": 0.4949911832809448,
+      "eval_runtime": 12.0146,
+      "eval_samples_per_second": 39.951,
+      "eval_steps_per_second": 2.497,
       "step": 1080
     },
     {
       "epoch": 1.379746835443038,
+      "grad_norm": 1.1653021574020386,
       "learning_rate": 2.7004219409282698e-05,
+      "loss": 0.2474,
+      "step": 1090
+    },
+    {
+      "epoch": 1.379746835443038,
+      "eval_loss": 0.4904167950153351,
+      "eval_runtime": 12.0164,
+      "eval_samples_per_second": 39.946,
+      "eval_steps_per_second": 2.497,
       "step": 1090
     },
     {
       "epoch": 1.3924050632911391,
+      "grad_norm": 1.0303146839141846,
       "learning_rate": 2.679324894514768e-05,
+      "loss": 0.2307,
       "step": 1100
     },
     {
       "epoch": 1.3924050632911391,
+      "eval_loss": 0.5017449855804443,
+      "eval_runtime": 12.0065,
+      "eval_samples_per_second": 39.978,
+      "eval_steps_per_second": 2.499,
       "step": 1100
     },
     {
       "epoch": 1.4050632911392404,
+      "grad_norm": 1.2822359800338745,
       "learning_rate": 2.6582278481012658e-05,
+      "loss": 0.2305,
+      "step": 1110
+    },
+    {
+      "epoch": 1.4050632911392404,
+      "eval_loss": 0.5108040571212769,
+      "eval_runtime": 11.9991,
+      "eval_samples_per_second": 40.003,
+      "eval_steps_per_second": 2.5,
       "step": 1110
     },
     {
       "epoch": 1.4177215189873418,
+      "grad_norm": 1.2391095161437988,
       "learning_rate": 2.6371308016877638e-05,
+      "loss": 0.2417,
+      "step": 1120
+    },
+    {
+      "epoch": 1.4177215189873418,
+      "eval_loss": 0.5006788969039917,
+      "eval_runtime": 11.9945,
+      "eval_samples_per_second": 40.018,
+      "eval_steps_per_second": 2.501,
       "step": 1120
     },
     {
       "epoch": 1.4303797468354431,
+      "grad_norm": 1.1016432046890259,
       "learning_rate": 2.616033755274262e-05,
+      "loss": 0.2365,
+      "step": 1130
+    },
+    {
+      "epoch": 1.4303797468354431,
+      "eval_loss": 0.5026251673698425,
+      "eval_runtime": 12.0033,
+      "eval_samples_per_second": 39.989,
+      "eval_steps_per_second": 2.499,
       "step": 1130
     },
     {
       "epoch": 1.4430379746835442,
+      "grad_norm": 1.0863171815872192,
       "learning_rate": 2.5949367088607597e-05,
+      "loss": 0.2371,
+      "step": 1140
+    },
+    {
+      "epoch": 1.4430379746835442,
+      "eval_loss": 0.5024216175079346,
+      "eval_runtime": 11.9806,
+      "eval_samples_per_second": 40.065,
+      "eval_steps_per_second": 2.504,
       "step": 1140
     },
     {
       "epoch": 1.4556962025316456,
+      "grad_norm": 0.9490317106246948,
       "learning_rate": 2.5738396624472577e-05,
+      "loss": 0.2369,
       "step": 1150
     },
     {
       "epoch": 1.4556962025316456,
+      "eval_loss": 0.50079745054245,
+      "eval_runtime": 11.98,
+      "eval_samples_per_second": 40.067,
+      "eval_steps_per_second": 2.504,
       "step": 1150
     },
     {
       "epoch": 1.4683544303797469,
+      "grad_norm": 0.9962586760520935,
       "learning_rate": 2.5527426160337553e-05,
+      "loss": 0.2253,
+      "step": 1160
+    },
+    {
+      "epoch": 1.4683544303797469,
+      "eval_loss": 0.5059595704078674,
+      "eval_runtime": 11.995,
+      "eval_samples_per_second": 40.017,
+      "eval_steps_per_second": 2.501,
       "step": 1160
     },
     {
       "epoch": 1.481012658227848,
+      "grad_norm": 1.2851423025131226,
       "learning_rate": 2.5316455696202533e-05,
       "loss": 0.2321,
       "step": 1170
     },
+    {
+      "epoch": 1.481012658227848,
+      "eval_loss": 0.5066316723823547,
+      "eval_runtime": 11.9831,
+      "eval_samples_per_second": 40.056,
+      "eval_steps_per_second": 2.504,
+      "step": 1170
+    },
     {
       "epoch": 1.4936708860759493,
+      "grad_norm": 1.130200743675232,
       "learning_rate": 2.510548523206751e-05,
+      "loss": 0.2327,
+      "step": 1180
+    },
+    {
+      "epoch": 1.4936708860759493,
+      "eval_loss": 0.5000527501106262,
+      "eval_runtime": 12.0107,
+      "eval_samples_per_second": 39.964,
+      "eval_steps_per_second": 2.498,
       "step": 1180
     },
     {
       "epoch": 1.5063291139240507,
+      "grad_norm": 1.2298842668533325,
       "learning_rate": 2.4894514767932493e-05,
+      "loss": 0.226,
+      "step": 1190
+    },
+    {
+      "epoch": 1.5063291139240507,
+      "eval_loss": 0.5038193464279175,
+      "eval_runtime": 11.9833,
+      "eval_samples_per_second": 40.056,
+      "eval_steps_per_second": 2.503,
       "step": 1190
     },
     {
       "epoch": 1.518987341772152,
+      "grad_norm": 1.0125024318695068,
       "learning_rate": 2.468354430379747e-05,
+      "loss": 0.2253,
       "step": 1200
     },
     {
       "epoch": 1.518987341772152,
+      "eval_loss": 0.5082682967185974,
+      "eval_runtime": 11.9764,
+      "eval_samples_per_second": 40.079,
+      "eval_steps_per_second": 2.505,
       "step": 1200
     },
     {
       "epoch": 1.5316455696202531,
+      "grad_norm": 0.8856953382492065,
       "learning_rate": 2.447257383966245e-05,
+      "loss": 0.223,
+      "step": 1210
+    },
+    {
+      "epoch": 1.5316455696202531,
+      "eval_loss": 0.512407660484314,
+      "eval_runtime": 12.0193,
+      "eval_samples_per_second": 39.936,
+      "eval_steps_per_second": 2.496,
       "step": 1210
     },
     {
       "epoch": 1.5443037974683544,
+      "grad_norm": 1.1997041702270508,
       "learning_rate": 2.426160337552743e-05,
+      "loss": 0.2166,
+      "step": 1220
+    },
+    {
+      "epoch": 1.5443037974683544,
+      "eval_loss": 0.5125023722648621,
+      "eval_runtime": 11.9717,
+      "eval_samples_per_second": 40.094,
+      "eval_steps_per_second": 2.506,
       "step": 1220
     },
     {
       "epoch": 1.5569620253164556,
+      "grad_norm": 1.145023226737976,
       "learning_rate": 2.4050632911392405e-05,
+      "loss": 0.229,
+      "step": 1230
+    },
+    {
+      "epoch": 1.5569620253164556,
+      "eval_loss": 0.5093728303909302,
+      "eval_runtime": 11.9691,
+      "eval_samples_per_second": 40.103,
+      "eval_steps_per_second": 2.506,
       "step": 1230
     },
     {
       "epoch": 1.5696202531645569,
+      "grad_norm": 1.4955825805664062,
       "learning_rate": 2.3839662447257385e-05,
+      "loss": 0.2244,
+      "step": 1240
+    },
+    {
+      "epoch": 1.5696202531645569,
+      "eval_loss": 0.517650306224823,
+      "eval_runtime": 11.9672,
+      "eval_samples_per_second": 40.11,
+      "eval_steps_per_second": 2.507,
       "step": 1240
     },
     {
       "epoch": 1.5822784810126582,
+      "grad_norm": 1.0501965284347534,
       "learning_rate": 2.3628691983122365e-05,
+      "loss": 0.2189,
       "step": 1250
     },
     {
       "epoch": 1.5822784810126582,
+      "eval_loss": 0.5201436877250671,
+      "eval_runtime": 12.0142,
+      "eval_samples_per_second": 39.953,
+      "eval_steps_per_second": 2.497,
       "step": 1250
     },
     {
       "epoch": 1.5949367088607596,
+      "grad_norm": 1.226491093635559,
       "learning_rate": 2.341772151898734e-05,
+      "loss": 0.2199,
+      "step": 1260
+    },
+    {
+      "epoch": 1.5949367088607596,
+      "eval_loss": 0.518064558506012,
+      "eval_runtime": 11.9747,
+      "eval_samples_per_second": 40.084,
+      "eval_steps_per_second": 2.505,
       "step": 1260
     },
     {
       "epoch": 1.6075949367088609,
+      "grad_norm": 1.477759599685669,
       "learning_rate": 2.320675105485232e-05,
+      "loss": 0.2304,
+      "step": 1270
+    },
+    {
+      "epoch": 1.6075949367088609,
+      "eval_loss": 0.5239500999450684,
+      "eval_runtime": 11.9812,
+      "eval_samples_per_second": 40.063,
+      "eval_steps_per_second": 2.504,
       "step": 1270
     },
     {
       "epoch": 1.620253164556962,
+      "grad_norm": 1.4760652780532837,
       "learning_rate": 2.29957805907173e-05,
+      "loss": 0.2246,
+      "step": 1280
+    },
+    {
+      "epoch": 1.620253164556962,
+      "eval_loss": 0.5147300362586975,
+      "eval_runtime": 12.0066,
+      "eval_samples_per_second": 39.978,
+      "eval_steps_per_second": 2.499,
       "step": 1280
     },
     {
       "epoch": 1.6329113924050633,
+      "grad_norm": 0.9046204686164856,
       "learning_rate": 2.278481012658228e-05,
+      "loss": 0.2226,
+      "step": 1290
+    },
+    {
+      "epoch": 1.6329113924050633,
+      "eval_loss": 0.5135796070098877,
+      "eval_runtime": 11.9818,
+      "eval_samples_per_second": 40.061,
+      "eval_steps_per_second": 2.504,
       "step": 1290
     },
     {
       "epoch": 1.6455696202531644,
+      "grad_norm": 1.2138513326644897,
       "learning_rate": 2.2573839662447257e-05,
+      "loss": 0.2204,
       "step": 1300
     },
     {
       "epoch": 1.6455696202531644,
+      "eval_loss": 0.5264008641242981,
+      "eval_runtime": 11.9901,
+      "eval_samples_per_second": 40.033,
+      "eval_steps_per_second": 2.502,
       "step": 1300
     },
     {
       "epoch": 1.6582278481012658,
+      "grad_norm": 1.1816976070404053,
       "learning_rate": 2.2362869198312237e-05,
+      "loss": 0.2191,
+      "step": 1310
+    },
+    {
+      "epoch": 1.6582278481012658,
+      "eval_loss": 0.5263369083404541,
+      "eval_runtime": 12.0084,
+      "eval_samples_per_second": 39.972,
+      "eval_steps_per_second": 2.498,
       "step": 1310
     },
     {
       "epoch": 1.6708860759493671,
+      "grad_norm": 1.2459923028945923,
       "learning_rate": 2.2151898734177217e-05,
+      "loss": 0.2197,
+      "step": 1320
+    },
+    {
+      "epoch": 1.6708860759493671,
+      "eval_loss": 0.524377167224884,
+      "eval_runtime": 12.0226,
+      "eval_samples_per_second": 39.925,
+      "eval_steps_per_second": 2.495,
       "step": 1320
     },
     {
       "epoch": 1.6835443037974684,
+      "grad_norm": 1.0651572942733765,
       "learning_rate": 2.1940928270042196e-05,
+      "loss": 0.2104,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6835443037974684,
+      "eval_loss": 0.5344482660293579,
+      "eval_runtime": 12.0113,
+      "eval_samples_per_second": 39.962,
+      "eval_steps_per_second": 2.498,
       "step": 1330
     },
     {
       "epoch": 1.6962025316455698,
+      "grad_norm": 1.2068021297454834,
       "learning_rate": 2.1729957805907176e-05,
+      "loss": 0.2216,
+      "step": 1340
+    },
+    {
+      "epoch": 1.6962025316455698,
+      "eval_loss": 0.532943069934845,
+      "eval_runtime": 12.019,
+      "eval_samples_per_second": 39.937,
+      "eval_steps_per_second": 2.496,
       "step": 1340
     },
     {
       "epoch": 1.7088607594936709,
+      "grad_norm": 1.076102614402771,
       "learning_rate": 2.1518987341772153e-05,
+      "loss": 0.2154,
       "step": 1350
     },
     {
       "epoch": 1.7088607594936709,
+      "eval_loss": 0.5252193212509155,
+      "eval_runtime": 12.0124,
+      "eval_samples_per_second": 39.959,
+      "eval_steps_per_second": 2.497,
       "step": 1350
     },
     {
       "epoch": 1.721518987341772,
+      "grad_norm": 1.187601089477539,
       "learning_rate": 2.1308016877637132e-05,
+      "loss": 0.222,
+      "step": 1360
+    },
+    {
+      "epoch": 1.721518987341772,
+      "eval_loss": 0.529236912727356,
+      "eval_runtime": 12.0085,
+      "eval_samples_per_second": 39.972,
+      "eval_steps_per_second": 2.498,
       "step": 1360
     },
     {
       "epoch": 1.7341772151898733,
+      "grad_norm": 1.5633349418640137,
       "learning_rate": 2.1097046413502112e-05,
+      "loss": 0.2126,
+      "step": 1370
+    },
+    {
+      "epoch": 1.7341772151898733,
+      "eval_loss": 0.5363233685493469,
+      "eval_runtime": 12.0383,
+      "eval_samples_per_second": 39.873,
+      "eval_steps_per_second": 2.492,
       "step": 1370
     },
     {
       "epoch": 1.7468354430379747,
+      "grad_norm": 1.088030457496643,
       "learning_rate": 2.088607594936709e-05,
+      "loss": 0.2081,
+      "step": 1380
+    },
+    {
+      "epoch": 1.7468354430379747,
+      "eval_loss": 0.5498476624488831,
+      "eval_runtime": 11.9995,
+      "eval_samples_per_second": 40.002,
+      "eval_steps_per_second": 2.5,
       "step": 1380
     },
     {
       "epoch": 1.759493670886076,
+      "grad_norm": 1.2748924493789673,
       "learning_rate": 2.067510548523207e-05,
+      "loss": 0.2196,
+      "step": 1390
+    },
+    {
+      "epoch": 1.759493670886076,
+      "eval_loss": 0.5448021292686462,
+      "eval_runtime": 12.0058,
+      "eval_samples_per_second": 39.981,
+      "eval_steps_per_second": 2.499,
       "step": 1390
     },
     {
       "epoch": 1.7721518987341773,
+      "grad_norm": 1.4678008556365967,
       "learning_rate": 2.0464135021097048e-05,
+      "loss": 0.2134,
       "step": 1400
     },
     {
       "epoch": 1.7721518987341773,
+      "eval_loss": 0.5372359156608582,
+      "eval_runtime": 11.9957,
+      "eval_samples_per_second": 40.014,
+      "eval_steps_per_second": 2.501,
       "step": 1400
     },
     {
       "epoch": 1.7848101265822784,
+      "grad_norm": 0.9997312426567078,
       "learning_rate": 2.0253164556962025e-05,
+      "loss": 0.2117,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7848101265822784,
+      "eval_loss": 0.5349189639091492,
+      "eval_runtime": 11.9827,
+      "eval_samples_per_second": 40.058,
+      "eval_steps_per_second": 2.504,
       "step": 1410
     },
     {
       "epoch": 1.7974683544303798,
+      "grad_norm": 1.3115603923797607,
       "learning_rate": 2.0042194092827004e-05,
+      "loss": 0.2161,
+      "step": 1420
+    },
+    {
+      "epoch": 1.7974683544303798,
+      "eval_loss": 0.5366716980934143,
+      "eval_runtime": 12.0401,
+      "eval_samples_per_second": 39.867,
+      "eval_steps_per_second": 2.492,
       "step": 1420
     },
     {
       "epoch": 1.810126582278481,
+      "grad_norm": 1.1417936086654663,
       "learning_rate": 1.9831223628691984e-05,
+      "loss": 0.2131,
+      "step": 1430
+    },
+    {
+      "epoch": 1.810126582278481,
+      "eval_loss": 0.5433976650238037,
+      "eval_runtime": 11.9842,
+      "eval_samples_per_second": 40.053,
+      "eval_steps_per_second": 2.503,
       "step": 1430
     },
     {
       "epoch": 1.8227848101265822,
+      "grad_norm": 1.48397696018219,
       "learning_rate": 1.962025316455696e-05,
+      "loss": 0.2253,
+      "step": 1440
+    },
+    {
+      "epoch": 1.8227848101265822,
+      "eval_loss": 0.5409865975379944,
+      "eval_runtime": 11.9832,
+      "eval_samples_per_second": 40.056,
+      "eval_steps_per_second": 2.503,
       "step": 1440
     },
     {
       "epoch": 1.8354430379746836,
+      "grad_norm": 1.1264500617980957,
       "learning_rate": 1.940928270042194e-05,
+      "loss": 0.211,
       "step": 1450
     },
     {
       "epoch": 1.8354430379746836,
+      "eval_loss": 0.5395857095718384,
+      "eval_runtime": 11.9688,
+      "eval_samples_per_second": 40.104,
+      "eval_steps_per_second": 2.507,
       "step": 1450
     },
     {
       "epoch": 1.8481012658227849,
+      "grad_norm": 1.327398419380188,
       "learning_rate": 1.919831223628692e-05,
+      "loss": 0.2129,
+      "step": 1460
+    },
+    {
+      "epoch": 1.8481012658227849,
+      "eval_loss": 0.5368807911872864,
+      "eval_runtime": 11.9903,
+      "eval_samples_per_second": 40.032,
+      "eval_steps_per_second": 2.502,
       "step": 1460
     },
     {
       "epoch": 1.8607594936708862,
+      "grad_norm": 1.0291297435760498,
       "learning_rate": 1.89873417721519e-05,
+      "loss": 0.2171,
+      "step": 1470
+    },
+    {
+      "epoch": 1.8607594936708862,
+      "eval_loss": 0.5369778871536255,
+      "eval_runtime": 11.9701,
+      "eval_samples_per_second": 40.1,
+      "eval_steps_per_second": 2.506,
       "step": 1470
     },
     {
       "epoch": 1.8734177215189873,
+      "grad_norm": 1.253151774406433,
       "learning_rate": 1.877637130801688e-05,
+      "loss": 0.2063,
+      "step": 1480
+    },
+    {
+      "epoch": 1.8734177215189873,
+      "eval_loss": 0.5478894710540771,
+      "eval_runtime": 11.9724,
+      "eval_samples_per_second": 40.092,
+      "eval_steps_per_second": 2.506,
       "step": 1480
     },
     {
       "epoch": 1.8860759493670884,
+      "grad_norm": 1.1835122108459473,
       "learning_rate": 1.856540084388186e-05,
+      "loss": 0.1911,
+      "step": 1490
+    },
+    {
+      "epoch": 1.8860759493670884,
+      "eval_loss": 0.5616199970245361,
+      "eval_runtime": 11.9946,
+      "eval_samples_per_second": 40.018,
+      "eval_steps_per_second": 2.501,
       "step": 1490
     },
     {
       "epoch": 1.8987341772151898,
+      "grad_norm": 1.242970585823059,
       "learning_rate": 1.8354430379746836e-05,
+      "loss": 0.2018,
       "step": 1500
     },
     {
       "epoch": 1.8987341772151898,
+      "eval_loss": 0.5611682534217834,
+      "eval_runtime": 11.9806,
+      "eval_samples_per_second": 40.065,
+      "eval_steps_per_second": 2.504,
       "step": 1500
     },
     {
       "epoch": 1.9113924050632911,
+      "grad_norm": 1.0423119068145752,
       "learning_rate": 1.8143459915611816e-05,
+      "loss": 0.206,
+      "step": 1510
+    },
+    {
+      "epoch": 1.9113924050632911,
+      "eval_loss": 0.5580861568450928,
+      "eval_runtime": 11.9783,
+      "eval_samples_per_second": 40.073,
+      "eval_steps_per_second": 2.505,
       "step": 1510
     },
     {
       "epoch": 1.9240506329113924,
+      "grad_norm": 1.437699317932129,
       "learning_rate": 1.7932489451476795e-05,
+      "loss": 0.2076,
+      "step": 1520
+    },
+    {
+      "epoch": 1.9240506329113924,
+      "eval_loss": 0.5540499091148376,
+      "eval_runtime": 11.9875,
+      "eval_samples_per_second": 40.042,
+      "eval_steps_per_second": 2.503,
       "step": 1520
     },
     {
       "epoch": 1.9367088607594938,
+      "grad_norm": 1.3500527143478394,
       "learning_rate": 1.7721518987341772e-05,
+      "loss": 0.2008,
+      "step": 1530
+    },
+    {
+      "epoch": 1.9367088607594938,
+      "eval_loss": 0.5541906952857971,
+      "eval_runtime": 11.9936,
+      "eval_samples_per_second": 40.021,
+      "eval_steps_per_second": 2.501,
       "step": 1530
     },
     {
       "epoch": 1.9493670886075949,
+      "grad_norm": 1.072831630706787,
       "learning_rate": 1.751054852320675e-05,
+      "loss": 0.2059,
+      "step": 1540
+    },
+    {
+      "epoch": 1.9493670886075949,
+      "eval_loss": 0.5530675053596497,
+      "eval_runtime": 12.0161,
+      "eval_samples_per_second": 39.946,
+      "eval_steps_per_second": 2.497,
       "step": 1540
     },
     {
       "epoch": 1.9620253164556962,
+      "grad_norm": 0.9840304851531982,
       "learning_rate": 1.729957805907173e-05,
+      "loss": 0.1959,
       "step": 1550
     },
     {
       "epoch": 1.9620253164556962,
+      "eval_loss": 0.5577276945114136,
+      "eval_runtime": 12.0016,
+      "eval_samples_per_second": 39.995,
+      "eval_steps_per_second": 2.5,
       "step": 1550
     },
     {
       "epoch": 1.9746835443037973,
+      "grad_norm": 1.2515734434127808,
       "learning_rate": 1.7088607594936708e-05,
+      "loss": 0.2066,
+      "step": 1560
+    },
+    {
+      "epoch": 1.9746835443037973,
+      "eval_loss": 0.5662820339202881,
+      "eval_runtime": 12.0136,
+      "eval_samples_per_second": 39.955,
+      "eval_steps_per_second": 2.497,
       "step": 1560
     },
     {
       "epoch": 1.9873417721518987,
+      "grad_norm": 1.0997124910354614,
       "learning_rate": 1.6877637130801688e-05,
+      "loss": 0.196,
+      "step": 1570
+    },
+    {
+      "epoch": 1.9873417721518987,
+      "eval_loss": 0.5792649388313293,
+      "eval_runtime": 12.0117,
+      "eval_samples_per_second": 39.961,
+      "eval_steps_per_second": 2.498,
       "step": 1570
     },
     {
       "epoch": 2.0,
+      "grad_norm": 2.4227662086486816,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.2056,
+      "step": 1580
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5810548067092896,
+      "eval_runtime": 12.0501,
+      "eval_samples_per_second": 39.834,
+      "eval_steps_per_second": 2.49,
       "step": 1580
     },
     {
       "epoch": 2.0126582278481013,
+      "grad_norm": 0.8668800592422485,
       "learning_rate": 1.6455696202531644e-05,
+      "loss": 0.1732,
+      "step": 1590
+    },
+    {
+      "epoch": 2.0126582278481013,
+      "eval_loss": 0.5968276858329773,
+      "eval_runtime": 12.0023,
+      "eval_samples_per_second": 39.993,
+      "eval_steps_per_second": 2.5,
       "step": 1590
     },
     {
       "epoch": 2.0253164556962027,
+      "grad_norm": 1.0960255861282349,
       "learning_rate": 1.6244725738396624e-05,
+      "loss": 0.1685,
       "step": 1600
     },
     {
       "epoch": 2.0253164556962027,
+      "eval_loss": 0.6258755326271057,
+      "eval_runtime": 12.0148,
+      "eval_samples_per_second": 39.951,
+      "eval_steps_per_second": 2.497,
       "step": 1600
     },
     {
       "epoch": 2.037974683544304,
+      "grad_norm": 1.4453450441360474,
       "learning_rate": 1.6033755274261607e-05,
+      "loss": 0.17,
+      "step": 1610
+    },
+    {
+      "epoch": 2.037974683544304,
+      "eval_loss": 0.6412980556488037,
+      "eval_runtime": 11.9931,
+      "eval_samples_per_second": 40.023,
+      "eval_steps_per_second": 2.501,
       "step": 1610
     },
     {
       "epoch": 2.050632911392405,
+      "grad_norm": 1.2693111896514893,
       "learning_rate": 1.5822784810126583e-05,
+      "loss": 0.1733,
+      "step": 1620
+    },
+    {
+      "epoch": 2.050632911392405,
+      "eval_loss": 0.6423253417015076,
+      "eval_runtime": 12.0148,
+      "eval_samples_per_second": 39.951,
+      "eval_steps_per_second": 2.497,
       "step": 1620
     },
     {
       "epoch": 2.0632911392405062,
+      "grad_norm": 1.004804253578186,
       "learning_rate": 1.5611814345991563e-05,
+      "loss": 0.1636,
+      "step": 1630
+    },
+    {
+      "epoch": 2.0632911392405062,
+      "eval_loss": 0.6398018598556519,
+      "eval_runtime": 12.003,
+      "eval_samples_per_second": 39.99,
+      "eval_steps_per_second": 2.499,
       "step": 1630
     },
     {
       "epoch": 2.0759493670886076,
+      "grad_norm": 1.0561076402664185,
       "learning_rate": 1.5400843881856543e-05,
+      "loss": 0.1696,
+      "step": 1640
+    },
+    {
+      "epoch": 2.0759493670886076,
+      "eval_loss": 0.645611584186554,
+      "eval_runtime": 11.9981,
+      "eval_samples_per_second": 40.006,
+      "eval_steps_per_second": 2.5,
       "step": 1640
     },
     {
       "epoch": 2.088607594936709,
+      "grad_norm": 1.1762917041778564,
       "learning_rate": 1.5189873417721521e-05,
+      "loss": 0.1738,
       "step": 1650
     },
     {
       "epoch": 2.088607594936709,
+      "eval_loss": 0.6439663767814636,
+      "eval_runtime": 12.0238,
+      "eval_samples_per_second": 39.921,
+      "eval_steps_per_second": 2.495,
       "step": 1650
     },
     {
       "epoch": 2.1012658227848102,
+      "grad_norm": 1.1920989751815796,
       "learning_rate": 1.4978902953586499e-05,
+      "loss": 0.1696,
+      "step": 1660
+    },
+    {
+      "epoch": 2.1012658227848102,
+      "eval_loss": 0.6413530707359314,
+      "eval_runtime": 11.9807,
+      "eval_samples_per_second": 40.064,
+      "eval_steps_per_second": 2.504,
       "step": 1660
     },
     {
       "epoch": 2.1139240506329116,
+      "grad_norm": 1.1294046640396118,
       "learning_rate": 1.4767932489451477e-05,
+      "loss": 0.1719,
+      "step": 1670
+    },
+    {
+      "epoch": 2.1139240506329116,
+      "eval_loss": 0.6481492519378662,
+      "eval_runtime": 12.0036,
+      "eval_samples_per_second": 39.988,
+      "eval_steps_per_second": 2.499,
       "step": 1670
     },
     {
       "epoch": 2.1265822784810124,
+      "grad_norm": 0.8568058609962463,
       "learning_rate": 1.4556962025316457e-05,
+      "loss": 0.1639,
+      "step": 1680
+    },
+    {
+      "epoch": 2.1265822784810124,
+      "eval_loss": 0.654758095741272,
+      "eval_runtime": 11.9709,
+      "eval_samples_per_second": 40.097,
+      "eval_steps_per_second": 2.506,
       "step": 1680
     },
     {
       "epoch": 2.1392405063291138,
+      "grad_norm": 1.1770862340927124,
       "learning_rate": 1.4345991561181435e-05,
+      "loss": 0.1653,
+      "step": 1690
+    },
+    {
+      "epoch": 2.1392405063291138,
+      "eval_loss": 0.6589924097061157,
+      "eval_runtime": 11.9933,
+      "eval_samples_per_second": 40.022,
+      "eval_steps_per_second": 2.501,
       "step": 1690
     },
     {
       "epoch": 2.151898734177215,
+      "grad_norm": 1.4487656354904175,
       "learning_rate": 1.4135021097046413e-05,
+      "loss": 0.1684,
       "step": 1700
     },
     {
       "epoch": 2.151898734177215,
+      "eval_loss": 0.6486174464225769,
+      "eval_runtime": 11.971,
+      "eval_samples_per_second": 40.097,
+      "eval_steps_per_second": 2.506,
       "step": 1700
     }
   ],
   "max_steps": 2370,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

checkpoint-1700/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8ef5fa4aad3a350c14df025074931ad8a003d4b851f4886f3b2f66ae6653e4b
 size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1e7aae8b855413d55586dd498c7d7d805796f0c02067ce9d8ccb1ef37f72d29
 size 5880