End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +3680 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: oh_scale_x.125_compute_equal
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # oh_scale_x.125_compute_equal
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.0839

 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: oh_scale_x.125_compute_equal
 # oh_scale_x.125_compute_equal
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on the mlfoundations-dev/oh-dcft-v1.3_no-curation_gpt-4o-mini_scale_0.125x dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.0839

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 88.76392572944297,
+    "eval_loss": 2.0839004516601562,
+    "eval_runtime": 31.6829,
+    "eval_samples_per_second": 40.022,
+    "eval_steps_per_second": 0.631,
+    "total_flos": 7006471418019840.0,
+    "train_loss": 0.08750477477266028,
+    "train_runtime": 144988.2671,
+    "train_samples_per_second": 14.779,
+    "train_steps_per_second": 0.029
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 88.76392572944297,
+    "eval_loss": 2.0839004516601562,
+    "eval_runtime": 31.6829,
+    "eval_samples_per_second": 40.022,
+    "eval_steps_per_second": 0.631
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 88.76392572944297,
+    "total_flos": 7006471418019840.0,
+    "train_loss": 0.08750477477266028,
+    "train_runtime": 144988.2671,
+    "train_samples_per_second": 14.779,
+    "train_steps_per_second": 0.029
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3680 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 88.76392572944297,
+  "eval_steps": 500,
+  "global_step": 4183,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21220159151193635,
+      "grad_norm": 9.341732608305685,
+      "learning_rate": 5e-06,
+      "loss": 1.0392,
+      "step": 10
+    },
+    {
+      "epoch": 0.4244031830238727,
+      "grad_norm": 0.9128095729645316,
+      "learning_rate": 5e-06,
+      "loss": 0.9332,
+      "step": 20
+    },
+    {
+      "epoch": 0.636604774535809,
+      "grad_norm": 1.502485412822423,
+      "learning_rate": 5e-06,
+      "loss": 0.8893,
+      "step": 30
+    },
+    {
+      "epoch": 0.8488063660477454,
+      "grad_norm": 1.0083153850936062,
+      "learning_rate": 5e-06,
+      "loss": 0.8588,
+      "step": 40
+    },
+    {
+      "epoch": 0.9973474801061007,
+      "eval_loss": 0.8430517315864563,
+      "eval_runtime": 32.5274,
+      "eval_samples_per_second": 38.983,
+      "eval_steps_per_second": 0.615,
+      "step": 47
+    },
+    {
+      "epoch": 1.0610079575596818,
+      "grad_norm": 0.9259906485223762,
+      "learning_rate": 5e-06,
+      "loss": 0.9067,
+      "step": 50
+    },
+    {
+      "epoch": 1.273209549071618,
+      "grad_norm": 0.940198338226638,
+      "learning_rate": 5e-06,
+      "loss": 0.7853,
+      "step": 60
+    },
+    {
+      "epoch": 1.4854111405835544,
+      "grad_norm": 1.086273638096655,
+      "learning_rate": 5e-06,
+      "loss": 0.7775,
+      "step": 70
+    },
+    {
+      "epoch": 1.6976127320954908,
+      "grad_norm": 0.8530841409160277,
+      "learning_rate": 5e-06,
+      "loss": 0.7712,
+      "step": 80
+    },
+    {
+      "epoch": 1.909814323607427,
+      "grad_norm": 0.9564203861190921,
+      "learning_rate": 5e-06,
+      "loss": 0.7685,
+      "step": 90
+    },
+    {
+      "epoch": 1.9946949602122017,
+      "eval_loss": 0.8077705502510071,
+      "eval_runtime": 32.1042,
+      "eval_samples_per_second": 39.496,
+      "eval_steps_per_second": 0.623,
+      "step": 94
+    },
+    {
+      "epoch": 2.1220159151193636,
+      "grad_norm": 0.9578045845655985,
+      "learning_rate": 5e-06,
+      "loss": 0.7936,
+      "step": 100
+    },
+    {
+      "epoch": 2.3342175066313,
+      "grad_norm": 0.9574069874226543,
+      "learning_rate": 5e-06,
+      "loss": 0.704,
+      "step": 110
+    },
+    {
+      "epoch": 2.546419098143236,
+      "grad_norm": 0.9815228222710566,
+      "learning_rate": 5e-06,
+      "loss": 0.7011,
+      "step": 120
+    },
+    {
+      "epoch": 2.7586206896551726,
+      "grad_norm": 0.7164262923430226,
+      "learning_rate": 5e-06,
+      "loss": 0.7046,
+      "step": 130
+    },
+    {
+      "epoch": 2.970822281167109,
+      "grad_norm": 0.6859560469508418,
+      "learning_rate": 5e-06,
+      "loss": 0.7039,
+      "step": 140
+    },
+    {
+      "epoch": 2.9920424403183024,
+      "eval_loss": 0.8061403036117554,
+      "eval_runtime": 32.7865,
+      "eval_samples_per_second": 38.674,
+      "eval_steps_per_second": 0.61,
+      "step": 141
+    },
+    {
+      "epoch": 3.183023872679045,
+      "grad_norm": 1.6728622068532006,
+      "learning_rate": 5e-06,
+      "loss": 0.7147,
+      "step": 150
+    },
+    {
+      "epoch": 3.3952254641909816,
+      "grad_norm": 1.076369754171639,
+      "learning_rate": 5e-06,
+      "loss": 0.6462,
+      "step": 160
+    },
+    {
+      "epoch": 3.6074270557029178,
+      "grad_norm": 1.691270988321618,
+      "learning_rate": 5e-06,
+      "loss": 0.6433,
+      "step": 170
+    },
+    {
+      "epoch": 3.819628647214854,
+      "grad_norm": 1.3275149656137304,
+      "learning_rate": 5e-06,
+      "loss": 0.6431,
+      "step": 180
+    },
+    {
+      "epoch": 3.9893899204244034,
+      "eval_loss": 0.8146327137947083,
+      "eval_runtime": 32.6932,
+      "eval_samples_per_second": 38.785,
+      "eval_steps_per_second": 0.612,
+      "step": 188
+    },
+    {
+      "epoch": 4.031830238726791,
+      "grad_norm": 1.3176702724250047,
+      "learning_rate": 5e-06,
+      "loss": 0.6923,
+      "step": 190
+    },
+    {
+      "epoch": 4.244031830238727,
+      "grad_norm": 1.2849523706132415,
+      "learning_rate": 5e-06,
+      "loss": 0.5978,
+      "step": 200
+    },
+    {
+      "epoch": 4.456233421750663,
+      "grad_norm": 1.165543134012214,
+      "learning_rate": 5e-06,
+      "loss": 0.5998,
+      "step": 210
+    },
+    {
+      "epoch": 4.6684350132626,
+      "grad_norm": 2.2650981857822825,
+      "learning_rate": 5e-06,
+      "loss": 0.5999,
+      "step": 220
+    },
+    {
+      "epoch": 4.880636604774535,
+      "grad_norm": 1.5311735920141092,
+      "learning_rate": 5e-06,
+      "loss": 0.6047,
+      "step": 230
+    },
+    {
+      "epoch": 4.986737400530504,
+      "eval_loss": 0.8365211486816406,
+      "eval_runtime": 31.6148,
+      "eval_samples_per_second": 40.108,
+      "eval_steps_per_second": 0.633,
+      "step": 235
+    },
+    {
+      "epoch": 5.092838196286472,
+      "grad_norm": 1.4903267443399042,
+      "learning_rate": 5e-06,
+      "loss": 0.6357,
+      "step": 240
+    },
+    {
+      "epoch": 5.305039787798409,
+      "grad_norm": 1.5203599052418142,
+      "learning_rate": 5e-06,
+      "loss": 0.5495,
+      "step": 250
+    },
+    {
+      "epoch": 5.517241379310345,
+      "grad_norm": 1.3747659230672016,
+      "learning_rate": 5e-06,
+      "loss": 0.5492,
+      "step": 260
+    },
+    {
+      "epoch": 5.729442970822281,
+      "grad_norm": 1.208856854768117,
+      "learning_rate": 5e-06,
+      "loss": 0.5516,
+      "step": 270
+    },
+    {
+      "epoch": 5.941644562334218,
+      "grad_norm": 1.1223364753293816,
+      "learning_rate": 5e-06,
+      "loss": 0.5574,
+      "step": 280
+    },
+    {
+      "epoch": 5.984084880636605,
+      "eval_loss": 0.8701170086860657,
+      "eval_runtime": 32.9222,
+      "eval_samples_per_second": 38.515,
+      "eval_steps_per_second": 0.607,
+      "step": 282
+    },
+    {
+      "epoch": 6.153846153846154,
+      "grad_norm": 1.4487459096766189,
+      "learning_rate": 5e-06,
+      "loss": 0.5594,
+      "step": 290
+    },
+    {
+      "epoch": 6.36604774535809,
+      "grad_norm": 2.034326551490109,
+      "learning_rate": 5e-06,
+      "loss": 0.4983,
+      "step": 300
+    },
+    {
+      "epoch": 6.5782493368700266,
+      "grad_norm": 1.282702990668079,
+      "learning_rate": 5e-06,
+      "loss": 0.5038,
+      "step": 310
+    },
+    {
+      "epoch": 6.790450928381963,
+      "grad_norm": 2.2758157820714637,
+      "learning_rate": 5e-06,
+      "loss": 0.5092,
+      "step": 320
+    },
+    {
+      "epoch": 6.981432360742706,
+      "eval_loss": 0.8984044790267944,
+      "eval_runtime": 31.7383,
+      "eval_samples_per_second": 39.952,
+      "eval_steps_per_second": 0.63,
+      "step": 329
+    },
+    {
+      "epoch": 7.002652519893899,
+      "grad_norm": 4.357468233816183,
+      "learning_rate": 5e-06,
+      "loss": 0.552,
+      "step": 330
+    },
+    {
+      "epoch": 7.2148541114058355,
+      "grad_norm": 1.592204205786802,
+      "learning_rate": 5e-06,
+      "loss": 0.4509,
+      "step": 340
+    },
+    {
+      "epoch": 7.427055702917772,
+      "grad_norm": 1.3361453914667267,
+      "learning_rate": 5e-06,
+      "loss": 0.448,
+      "step": 350
+    },
+    {
+      "epoch": 7.639257294429708,
+      "grad_norm": 1.5846865233854661,
+      "learning_rate": 5e-06,
+      "loss": 0.4496,
+      "step": 360
+    },
+    {
+      "epoch": 7.8514588859416445,
+      "grad_norm": 1.5574198729516744,
+      "learning_rate": 5e-06,
+      "loss": 0.4572,
+      "step": 370
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.9556245803833008,
+      "eval_runtime": 31.8678,
+      "eval_samples_per_second": 39.789,
+      "eval_steps_per_second": 0.628,
+      "step": 377
+    },
+    {
+      "epoch": 8.063660477453581,
+      "grad_norm": 2.3822031143506552,
+      "learning_rate": 5e-06,
+      "loss": 0.4809,
+      "step": 380
+    },
+    {
+      "epoch": 8.275862068965518,
+      "grad_norm": 1.554691141576395,
+      "learning_rate": 5e-06,
+      "loss": 0.3978,
+      "step": 390
+    },
+    {
+      "epoch": 8.488063660477454,
+      "grad_norm": 1.878197798055658,
+      "learning_rate": 5e-06,
+      "loss": 0.3968,
+      "step": 400
+    },
+    {
+      "epoch": 8.70026525198939,
+      "grad_norm": 1.2857028800822918,
+      "learning_rate": 5e-06,
+      "loss": 0.3981,
+      "step": 410
+    },
+    {
+      "epoch": 8.912466843501326,
+      "grad_norm": 1.4597048758174684,
+      "learning_rate": 5e-06,
+      "loss": 0.4085,
+      "step": 420
+    },
+    {
+      "epoch": 8.9973474801061,
+      "eval_loss": 1.0192773342132568,
+      "eval_runtime": 32.6781,
+      "eval_samples_per_second": 38.803,
+      "eval_steps_per_second": 0.612,
+      "step": 424
+    },
+    {
+      "epoch": 9.124668435013263,
+      "grad_norm": 1.8702885363000163,
+      "learning_rate": 5e-06,
+      "loss": 0.4024,
+      "step": 430
+    },
+    {
+      "epoch": 9.3368700265252,
+      "grad_norm": 1.9636785676483195,
+      "learning_rate": 5e-06,
+      "loss": 0.3435,
+      "step": 440
+    },
+    {
+      "epoch": 9.549071618037136,
+      "grad_norm": 1.4123092677374194,
+      "learning_rate": 5e-06,
+      "loss": 0.3426,
+      "step": 450
+    },
+    {
+      "epoch": 9.761273209549072,
+      "grad_norm": 1.7801053638867874,
+      "learning_rate": 5e-06,
+      "loss": 0.3466,
+      "step": 460
+    },
+    {
+      "epoch": 9.973474801061007,
+      "grad_norm": 1.1317251487486244,
+      "learning_rate": 5e-06,
+      "loss": 0.349,
+      "step": 470
+    },
+    {
+      "epoch": 9.994694960212202,
+      "eval_loss": 1.1014161109924316,
+      "eval_runtime": 32.4917,
+      "eval_samples_per_second": 39.025,
+      "eval_steps_per_second": 0.616,
+      "step": 471
+    },
+    {
+      "epoch": 10.185676392572944,
+      "grad_norm": 2.1655078722594565,
+      "learning_rate": 5e-06,
+      "loss": 0.3269,
+      "step": 480
+    },
+    {
+      "epoch": 10.39787798408488,
+      "grad_norm": 1.7331574259835252,
+      "learning_rate": 5e-06,
+      "loss": 0.2895,
+      "step": 490
+    },
+    {
+      "epoch": 10.610079575596817,
+      "grad_norm": 1.757727600785744,
+      "learning_rate": 5e-06,
+      "loss": 0.2906,
+      "step": 500
+    },
+    {
+      "epoch": 10.822281167108754,
+      "grad_norm": 1.8474736771296152,
+      "learning_rate": 5e-06,
+      "loss": 0.2917,
+      "step": 510
+    },
+    {
+      "epoch": 10.992042440318302,
+      "eval_loss": 1.1841471195220947,
+      "eval_runtime": 32.3162,
+      "eval_samples_per_second": 39.237,
+      "eval_steps_per_second": 0.619,
+      "step": 518
+    },
+    {
+      "epoch": 11.03448275862069,
+      "grad_norm": 1.7267327999463395,
+      "learning_rate": 5e-06,
+      "loss": 0.3088,
+      "step": 520
+    },
+    {
+      "epoch": 11.246684350132625,
+      "grad_norm": 2.101718278173947,
+      "learning_rate": 5e-06,
+      "loss": 0.2394,
+      "step": 530
+    },
+    {
+      "epoch": 11.458885941644562,
+      "grad_norm": 2.39802176985078,
+      "learning_rate": 5e-06,
+      "loss": 0.2379,
+      "step": 540
+    },
+    {
+      "epoch": 11.671087533156498,
+      "grad_norm": 2.7095037713266614,
+      "learning_rate": 5e-06,
+      "loss": 0.2352,
+      "step": 550
+    },
+    {
+      "epoch": 11.883289124668435,
+      "grad_norm": 2.683477020014097,
+      "learning_rate": 5e-06,
+      "loss": 0.2371,
+      "step": 560
+    },
+    {
+      "epoch": 11.989389920424403,
+      "eval_loss": 1.2766014337539673,
+      "eval_runtime": 32.9781,
+      "eval_samples_per_second": 38.45,
+      "eval_steps_per_second": 0.606,
+      "step": 565
+    },
+    {
+      "epoch": 12.095490716180372,
+      "grad_norm": 1.7019202766965291,
+      "learning_rate": 5e-06,
+      "loss": 0.2351,
+      "step": 570
+    },
+    {
+      "epoch": 12.307692307692308,
+      "grad_norm": 1.7379326706757747,
+      "learning_rate": 5e-06,
+      "loss": 0.1892,
+      "step": 580
+    },
+    {
+      "epoch": 12.519893899204243,
+      "grad_norm": 1.6744234238634588,
+      "learning_rate": 5e-06,
+      "loss": 0.1891,
+      "step": 590
+    },
+    {
+      "epoch": 12.73209549071618,
+      "grad_norm": 1.7908565943018588,
+      "learning_rate": 5e-06,
+      "loss": 0.1946,
+      "step": 600
+    },
+    {
+      "epoch": 12.944297082228116,
+      "grad_norm": 1.7355938077402586,
+      "learning_rate": 5e-06,
+      "loss": 0.1947,
+      "step": 610
+    },
+    {
+      "epoch": 12.986737400530505,
+      "eval_loss": 1.4153589010238647,
+      "eval_runtime": 32.4408,
+      "eval_samples_per_second": 39.087,
+      "eval_steps_per_second": 0.617,
+      "step": 612
+    },
+    {
+      "epoch": 13.156498673740053,
+      "grad_norm": 2.2121832380586337,
+      "learning_rate": 5e-06,
+      "loss": 0.181,
+      "step": 620
+    },
+    {
+      "epoch": 13.36870026525199,
+      "grad_norm": 1.8566391891990948,
+      "learning_rate": 5e-06,
+      "loss": 0.1524,
+      "step": 630
+    },
+    {
+      "epoch": 13.580901856763926,
+      "grad_norm": 2.2967109108979216,
+      "learning_rate": 5e-06,
+      "loss": 0.154,
+      "step": 640
+    },
+    {
+      "epoch": 13.793103448275861,
+      "grad_norm": 1.9965855100429857,
+      "learning_rate": 5e-06,
+      "loss": 0.1574,
+      "step": 650
+    },
+    {
+      "epoch": 13.984084880636605,
+      "eval_loss": 1.5164598226547241,
+      "eval_runtime": 32.6332,
+      "eval_samples_per_second": 38.856,
+      "eval_steps_per_second": 0.613,
+      "step": 659
+    },
+    {
+      "epoch": 14.005305039787798,
+      "grad_norm": 4.839196556003606,
+      "learning_rate": 5e-06,
+      "loss": 0.1685,
+      "step": 660
+    },
+    {
+      "epoch": 14.217506631299734,
+      "grad_norm": 2.0883251950819073,
+      "learning_rate": 5e-06,
+      "loss": 0.121,
+      "step": 670
+    },
+    {
+      "epoch": 14.429708222811671,
+      "grad_norm": 2.003030672294221,
+      "learning_rate": 5e-06,
+      "loss": 0.1197,
+      "step": 680
+    },
+    {
+      "epoch": 14.641909814323608,
+      "grad_norm": 1.9136393354275711,
+      "learning_rate": 5e-06,
+      "loss": 0.1219,
+      "step": 690
+    },
+    {
+      "epoch": 14.854111405835544,
+      "grad_norm": 1.6240243583531413,
+      "learning_rate": 5e-06,
+      "loss": 0.1248,
+      "step": 700
+    },
+    {
+      "epoch": 14.981432360742705,
+      "eval_loss": 1.6125339269638062,
+      "eval_runtime": 32.5362,
+      "eval_samples_per_second": 38.972,
+      "eval_steps_per_second": 0.615,
+      "step": 706
+    },
+    {
+      "epoch": 15.066312997347481,
+      "grad_norm": 2.2244191294492976,
+      "learning_rate": 5e-06,
+      "loss": 0.1246,
+      "step": 710
+    },
+    {
+      "epoch": 15.278514588859416,
+      "grad_norm": 2.1641176421594506,
+      "learning_rate": 5e-06,
+      "loss": 0.0923,
+      "step": 720
+    },
+    {
+      "epoch": 15.490716180371352,
+      "grad_norm": 2.582841456476548,
+      "learning_rate": 5e-06,
+      "loss": 0.0942,
+      "step": 730
+    },
+    {
+      "epoch": 15.702917771883289,
+      "grad_norm": 2.9053199582126483,
+      "learning_rate": 5e-06,
+      "loss": 0.0932,
+      "step": 740
+    },
+    {
+      "epoch": 15.915119363395226,
+      "grad_norm": 1.896737007332198,
+      "learning_rate": 5e-06,
+      "loss": 0.0949,
+      "step": 750
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.7871086597442627,
+      "eval_runtime": 32.5696,
+      "eval_samples_per_second": 38.932,
+      "eval_steps_per_second": 0.614,
+      "step": 754
+    },
+    {
+      "epoch": 16.127320954907162,
+      "grad_norm": 1.6494570910358723,
+      "learning_rate": 5e-06,
+      "loss": 0.085,
+      "step": 760
+    },
+    {
+      "epoch": 16.339522546419097,
+      "grad_norm": 2.2366499270746947,
+      "learning_rate": 5e-06,
+      "loss": 0.0696,
+      "step": 770
+    },
+    {
+      "epoch": 16.551724137931036,
+      "grad_norm": 2.9537867572779533,
+      "learning_rate": 5e-06,
+      "loss": 0.0718,
+      "step": 780
+    },
+    {
+      "epoch": 16.76392572944297,
+      "grad_norm": 1.9892936590980974,
+      "learning_rate": 5e-06,
+      "loss": 0.0735,
+      "step": 790
+    },
+    {
+      "epoch": 16.97612732095491,
+      "grad_norm": 2.7303551854343326,
+      "learning_rate": 5e-06,
+      "loss": 0.072,
+      "step": 800
+    },
+    {
+      "epoch": 16.9973474801061,
+      "eval_loss": 1.84310781955719,
+      "eval_runtime": 31.922,
+      "eval_samples_per_second": 39.722,
+      "eval_steps_per_second": 0.627,
+      "step": 801
+    },
+    {
+      "epoch": 17.188328912466844,
+      "grad_norm": 2.3365061927376347,
+      "learning_rate": 5e-06,
+      "loss": 0.0602,
+      "step": 810
+    },
+    {
+      "epoch": 17.40053050397878,
+      "grad_norm": 2.0965657939589075,
+      "learning_rate": 5e-06,
+      "loss": 0.0531,
+      "step": 820
+    },
+    {
+      "epoch": 17.612732095490717,
+      "grad_norm": 1.9579339715456343,
+      "learning_rate": 5e-06,
+      "loss": 0.0553,
+      "step": 830
+    },
+    {
+      "epoch": 17.824933687002652,
+      "grad_norm": 1.9356741166585654,
+      "learning_rate": 5e-06,
+      "loss": 0.0557,
+      "step": 840
+    },
+    {
+      "epoch": 17.9946949602122,
+      "eval_loss": 1.8931316137313843,
+      "eval_runtime": 33.3328,
+      "eval_samples_per_second": 38.041,
+      "eval_steps_per_second": 0.6,
+      "step": 848
+    },
+    {
+      "epoch": 18.03713527851459,
+      "grad_norm": 1.7227426111374013,
+      "learning_rate": 5e-06,
+      "loss": 0.0588,
+      "step": 850
+    },
+    {
+      "epoch": 18.249336870026525,
+      "grad_norm": 1.5717755778853983,
+      "learning_rate": 5e-06,
+      "loss": 0.0431,
+      "step": 860
+    },
+    {
+      "epoch": 18.46153846153846,
+      "grad_norm": 1.6003153480178844,
+      "learning_rate": 5e-06,
+      "loss": 0.0448,
+      "step": 870
+    },
+    {
+      "epoch": 18.6737400530504,
+      "grad_norm": 1.5091423093175478,
+      "learning_rate": 5e-06,
+      "loss": 0.0459,
+      "step": 880
+    },
+    {
+      "epoch": 18.885941644562333,
+      "grad_norm": 1.7154544380044592,
+      "learning_rate": 5e-06,
+      "loss": 0.0476,
+      "step": 890
+    },
+    {
+      "epoch": 18.9920424403183,
+      "eval_loss": 1.883098840713501,
+      "eval_runtime": 32.7835,
+      "eval_samples_per_second": 38.678,
+      "eval_steps_per_second": 0.61,
+      "step": 895
+    },
+    {
+      "epoch": 19.09814323607427,
+      "grad_norm": 2.014020013459049,
+      "learning_rate": 5e-06,
+      "loss": 0.0489,
+      "step": 900
+    },
+    {
+      "epoch": 19.310344827586206,
+      "grad_norm": 1.5701588836620408,
+      "learning_rate": 5e-06,
+      "loss": 0.0356,
+      "step": 910
+    },
+    {
+      "epoch": 19.522546419098145,
+      "grad_norm": 1.9900820501837289,
+      "learning_rate": 5e-06,
+      "loss": 0.0394,
+      "step": 920
+    },
+    {
+      "epoch": 19.73474801061008,
+      "grad_norm": 1.5730119274594596,
+      "learning_rate": 5e-06,
+      "loss": 0.0385,
+      "step": 930
+    },
+    {
+      "epoch": 19.946949602122015,
+      "grad_norm": 1.5012495553271223,
+      "learning_rate": 5e-06,
+      "loss": 0.0389,
+      "step": 940
+    },
+    {
+      "epoch": 19.989389920424404,
+      "eval_loss": 2.0264878273010254,
+      "eval_runtime": 37.519,
+      "eval_samples_per_second": 33.796,
+      "eval_steps_per_second": 0.533,
+      "step": 942
+    },
+    {
+      "epoch": 20.159151193633953,
+      "grad_norm": 1.5098992493693495,
+      "learning_rate": 5e-06,
+      "loss": 0.0333,
+      "step": 950
+    },
+    {
+      "epoch": 20.371352785145888,
+      "grad_norm": 1.432073899246155,
+      "learning_rate": 5e-06,
+      "loss": 0.0302,
+      "step": 960
+    },
+    {
+      "epoch": 20.583554376657826,
+      "grad_norm": 1.3305227752590898,
+      "learning_rate": 5e-06,
+      "loss": 0.0318,
+      "step": 970
+    },
+    {
+      "epoch": 20.79575596816976,
+      "grad_norm": 1.4596501984190517,
+      "learning_rate": 5e-06,
+      "loss": 0.0326,
+      "step": 980
+    },
+    {
+      "epoch": 20.986737400530505,
+      "eval_loss": 2.019073486328125,
+      "eval_runtime": 32.0589,
+      "eval_samples_per_second": 39.552,
+      "eval_steps_per_second": 0.624,
+      "step": 989
+    },
+    {
+      "epoch": 21.007957559681696,
+      "grad_norm": 3.134413308495841,
+      "learning_rate": 5e-06,
+      "loss": 0.0363,
+      "step": 990
+    },
+    {
+      "epoch": 21.220159151193634,
+      "grad_norm": 1.6180713225455596,
+      "learning_rate": 5e-06,
+      "loss": 0.0253,
+      "step": 1000
+    },
+    {
+      "epoch": 21.43236074270557,
+      "grad_norm": 1.4753859680921968,
+      "learning_rate": 5e-06,
+      "loss": 0.0273,
+      "step": 1010
+    },
+    {
+      "epoch": 21.644562334217508,
+      "grad_norm": 1.520441812046494,
+      "learning_rate": 5e-06,
+      "loss": 0.0288,
+      "step": 1020
+    },
+    {
+      "epoch": 21.856763925729442,
+      "grad_norm": 1.366187738683794,
+      "learning_rate": 5e-06,
+      "loss": 0.0289,
+      "step": 1030
+    },
+    {
+      "epoch": 21.984084880636605,
+      "eval_loss": 2.077552318572998,
+      "eval_runtime": 32.832,
+      "eval_samples_per_second": 38.621,
+      "eval_steps_per_second": 0.609,
+      "step": 1036
+    },
+    {
+      "epoch": 22.06896551724138,
+      "grad_norm": 1.3144650513341445,
+      "learning_rate": 5e-06,
+      "loss": 0.0287,
+      "step": 1040
+    },
+    {
+      "epoch": 22.281167108753316,
+      "grad_norm": 1.5212514971657123,
+      "learning_rate": 5e-06,
+      "loss": 0.0215,
+      "step": 1050
+    },
+    {
+      "epoch": 22.49336870026525,
+      "grad_norm": 1.405610187558701,
+      "learning_rate": 5e-06,
+      "loss": 0.0233,
+      "step": 1060
+    },
+    {
+      "epoch": 22.70557029177719,
+      "grad_norm": 1.3895812912929395,
+      "learning_rate": 5e-06,
+      "loss": 0.0243,
+      "step": 1070
+    },
+    {
+      "epoch": 22.917771883289124,
+      "grad_norm": 1.3560427478757406,
+      "learning_rate": 5e-06,
+      "loss": 0.0241,
+      "step": 1080
+    },
+    {
+      "epoch": 22.981432360742705,
+      "eval_loss": 2.1364665031433105,
+      "eval_runtime": 32.7239,
+      "eval_samples_per_second": 38.748,
+      "eval_steps_per_second": 0.611,
+      "step": 1083
+    },
+    {
+      "epoch": 23.129973474801062,
+      "grad_norm": 1.147605923465172,
+      "learning_rate": 5e-06,
+      "loss": 0.0222,
+      "step": 1090
+    },
+    {
+      "epoch": 23.342175066312997,
+      "grad_norm": 1.0896438686399077,
+      "learning_rate": 5e-06,
+      "loss": 0.0189,
+      "step": 1100
+    },
+    {
+      "epoch": 23.554376657824935,
+      "grad_norm": 1.159385305063578,
+      "learning_rate": 5e-06,
+      "loss": 0.0202,
+      "step": 1110
+    },
+    {
+      "epoch": 23.76657824933687,
+      "grad_norm": 1.43114641035156,
+      "learning_rate": 5e-06,
+      "loss": 0.0216,
+      "step": 1120
+    },
+    {
+      "epoch": 23.978779840848805,
+      "grad_norm": 1.979577755352171,
+      "learning_rate": 5e-06,
+      "loss": 0.0224,
+      "step": 1130
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 2.163296937942505,
+      "eval_runtime": 32.7165,
+      "eval_samples_per_second": 38.757,
+      "eval_steps_per_second": 0.611,
+      "step": 1131
+    },
+    {
+      "epoch": 24.190981432360743,
+      "grad_norm": 1.1544811255102911,
+      "learning_rate": 5e-06,
+      "loss": 0.0182,
+      "step": 1140
+    },
+    {
+      "epoch": 24.40318302387268,
+      "grad_norm": 1.3454197249206041,
+      "learning_rate": 5e-06,
+      "loss": 0.0176,
+      "step": 1150
+    },
+    {
+      "epoch": 24.615384615384617,
+      "grad_norm": 1.203233332523257,
+      "learning_rate": 5e-06,
+      "loss": 0.0186,
+      "step": 1160
+    },
+    {
+      "epoch": 24.82758620689655,
+      "grad_norm": 1.1333438773996702,
+      "learning_rate": 5e-06,
+      "loss": 0.0186,
+      "step": 1170
+    },
+    {
+      "epoch": 24.9973474801061,
+      "eval_loss": 2.14928936958313,
+      "eval_runtime": 33.4155,
+      "eval_samples_per_second": 37.946,
+      "eval_steps_per_second": 0.599,
+      "step": 1178
+    },
+    {
+      "epoch": 25.039787798408486,
+      "grad_norm": 0.9263446232803251,
+      "learning_rate": 5e-06,
+      "loss": 0.0186,
+      "step": 1180
+    },
+    {
+      "epoch": 25.251989389920425,
+      "grad_norm": 1.0317288058888185,
+      "learning_rate": 5e-06,
+      "loss": 0.0138,
+      "step": 1190
+    },
+    {
+      "epoch": 25.46419098143236,
+      "grad_norm": 1.0131976453838234,
+      "learning_rate": 5e-06,
+      "loss": 0.0154,
+      "step": 1200
+    },
+    {
+      "epoch": 25.676392572944298,
+      "grad_norm": 1.1834224981337875,
+      "learning_rate": 5e-06,
+      "loss": 0.0165,
+      "step": 1210
+    },
+    {
+      "epoch": 25.888594164456233,
+      "grad_norm": 1.0253970500734395,
+      "learning_rate": 5e-06,
+      "loss": 0.0168,
+      "step": 1220
+    },
+    {
+      "epoch": 25.9946949602122,
+      "eval_loss": 2.188133955001831,
+      "eval_runtime": 32.6658,
+      "eval_samples_per_second": 38.817,
+      "eval_steps_per_second": 0.612,
+      "step": 1225
+    },
+    {
+      "epoch": 26.10079575596817,
+      "grad_norm": 1.0388372032250064,
+      "learning_rate": 5e-06,
+      "loss": 0.0164,
+      "step": 1230
+    },
+    {
+      "epoch": 26.312997347480106,
+      "grad_norm": 1.0513592352431824,
+      "learning_rate": 5e-06,
+      "loss": 0.0146,
+      "step": 1240
+    },
+    {
+      "epoch": 26.52519893899204,
+      "grad_norm": 1.0736349361860325,
+      "learning_rate": 5e-06,
+      "loss": 0.0157,
+      "step": 1250
+    },
+    {
+      "epoch": 26.73740053050398,
+      "grad_norm": 1.0758837847097473,
+      "learning_rate": 5e-06,
+      "loss": 0.0161,
+      "step": 1260
+    },
+    {
+      "epoch": 26.949602122015914,
+      "grad_norm": 1.0851440646860222,
+      "learning_rate": 5e-06,
+      "loss": 0.0165,
+      "step": 1270
+    },
+    {
+      "epoch": 26.9920424403183,
+      "eval_loss": 2.211845636367798,
+      "eval_runtime": 32.9121,
+      "eval_samples_per_second": 38.527,
+      "eval_steps_per_second": 0.608,
+      "step": 1272
+    },
+    {
+      "epoch": 27.161803713527853,
+      "grad_norm": 0.9742233097083803,
+      "learning_rate": 5e-06,
+      "loss": 0.0143,
+      "step": 1280
+    },
+    {
+      "epoch": 27.374005305039788,
+      "grad_norm": 0.9639415253464677,
+      "learning_rate": 5e-06,
+      "loss": 0.0137,
+      "step": 1290
+    },
+    {
+      "epoch": 27.586206896551722,
+      "grad_norm": 0.93268451813857,
+      "learning_rate": 5e-06,
+      "loss": 0.0143,
+      "step": 1300
+    },
+    {
+      "epoch": 27.79840848806366,
+      "grad_norm": 0.978519779739182,
+      "learning_rate": 5e-06,
+      "loss": 0.0149,
+      "step": 1310
+    },
+    {
+      "epoch": 27.989389920424404,
+      "eval_loss": 2.1889731884002686,
+      "eval_runtime": 32.8239,
+      "eval_samples_per_second": 38.63,
+      "eval_steps_per_second": 0.609,
+      "step": 1319
+    },
+    {
+      "epoch": 28.010610079575596,
+      "grad_norm": 2.6179762594155402,
+      "learning_rate": 5e-06,
+      "loss": 0.0161,
+      "step": 1320
+    },
+    {
+      "epoch": 28.222811671087534,
+      "grad_norm": 0.9628432697750134,
+      "learning_rate": 5e-06,
+      "loss": 0.0119,
+      "step": 1330
+    },
+    {
+      "epoch": 28.43501326259947,
+      "grad_norm": 0.8501399077558901,
+      "learning_rate": 5e-06,
+      "loss": 0.0127,
+      "step": 1340
+    },
+    {
+      "epoch": 28.647214854111407,
+      "grad_norm": 1.0038378892088047,
+      "learning_rate": 5e-06,
+      "loss": 0.0136,
+      "step": 1350
+    },
+    {
+      "epoch": 28.859416445623342,
+      "grad_norm": 0.9223553139407697,
+      "learning_rate": 5e-06,
+      "loss": 0.0138,
+      "step": 1360
+    },
+    {
+      "epoch": 28.986737400530505,
+      "eval_loss": 2.2227890491485596,
+      "eval_runtime": 32.1693,
+      "eval_samples_per_second": 39.417,
+      "eval_steps_per_second": 0.622,
+      "step": 1366
+    },
+    {
+      "epoch": 29.071618037135277,
+      "grad_norm": 0.8032133641841613,
+      "learning_rate": 5e-06,
+      "loss": 0.0139,
+      "step": 1370
+    },
+    {
+      "epoch": 29.283819628647215,
+      "grad_norm": 0.8321011346505933,
+      "learning_rate": 5e-06,
+      "loss": 0.011,
+      "step": 1380
+    },
+    {
+      "epoch": 29.49602122015915,
+      "grad_norm": 0.8736295486217439,
+      "learning_rate": 5e-06,
+      "loss": 0.0116,
+      "step": 1390
+    },
+    {
+      "epoch": 29.70822281167109,
+      "grad_norm": 1.239316698556453,
+      "learning_rate": 5e-06,
+      "loss": 0.0121,
+      "step": 1400
+    },
+    {
+      "epoch": 29.920424403183024,
+      "grad_norm": 1.033173007202482,
+      "learning_rate": 5e-06,
+      "loss": 0.0124,
+      "step": 1410
+    },
+    {
+      "epoch": 29.984084880636605,
+      "eval_loss": 2.2380588054656982,
+      "eval_runtime": 31.9905,
+      "eval_samples_per_second": 39.637,
+      "eval_steps_per_second": 0.625,
+      "step": 1413
+    },
+    {
+      "epoch": 30.132625994694962,
+      "grad_norm": 0.7511405265787311,
+      "learning_rate": 5e-06,
+      "loss": 0.0106,
+      "step": 1420
+    },
+    {
+      "epoch": 30.344827586206897,
+      "grad_norm": 0.6938569699332628,
+      "learning_rate": 5e-06,
+      "loss": 0.009,
+      "step": 1430
+    },
+    {
+      "epoch": 30.55702917771883,
+      "grad_norm": 0.7309423477128169,
+      "learning_rate": 5e-06,
+      "loss": 0.0093,
+      "step": 1440
+    },
+    {
+      "epoch": 30.76923076923077,
+      "grad_norm": 0.7103092460743347,
+      "learning_rate": 5e-06,
+      "loss": 0.0095,
+      "step": 1450
+    },
+    {
+      "epoch": 30.981432360742705,
+      "grad_norm": 0.7947013023037236,
+      "learning_rate": 5e-06,
+      "loss": 0.0099,
+      "step": 1460
+    },
+    {
+      "epoch": 30.981432360742705,
+      "eval_loss": 2.263244867324829,
+      "eval_runtime": 33.3048,
+      "eval_samples_per_second": 38.073,
+      "eval_steps_per_second": 0.601,
+      "step": 1460
+    },
+    {
+      "epoch": 31.193633952254643,
+      "grad_norm": 0.6749561333798396,
+      "learning_rate": 5e-06,
+      "loss": 0.0083,
+      "step": 1470
+    },
+    {
+      "epoch": 31.405835543766578,
+      "grad_norm": 0.6898931957456894,
+      "learning_rate": 5e-06,
+      "loss": 0.008,
+      "step": 1480
+    },
+    {
+      "epoch": 31.618037135278513,
+      "grad_norm": 0.6719664872444241,
+      "learning_rate": 5e-06,
+      "loss": 0.0082,
+      "step": 1490
+    },
+    {
+      "epoch": 31.83023872679045,
+      "grad_norm": 0.7248012671374453,
+      "learning_rate": 5e-06,
+      "loss": 0.0082,
+      "step": 1500
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 2.3144571781158447,
+      "eval_runtime": 33.5461,
+      "eval_samples_per_second": 37.799,
+      "eval_steps_per_second": 0.596,
+      "step": 1508
+    },
+    {
+      "epoch": 32.04244031830239,
+      "grad_norm": 0.642502415212224,
+      "learning_rate": 5e-06,
+      "loss": 0.0083,
+      "step": 1510
+    },
+    {
+      "epoch": 32.254641909814325,
+      "grad_norm": 0.6750575672896434,
+      "learning_rate": 5e-06,
+      "loss": 0.0066,
+      "step": 1520
+    },
+    {
+      "epoch": 32.46684350132626,
+      "grad_norm": 0.6782281447393,
+      "learning_rate": 5e-06,
+      "loss": 0.0071,
+      "step": 1530
+    },
+    {
+      "epoch": 32.679045092838194,
+      "grad_norm": 0.7155458048712252,
+      "learning_rate": 5e-06,
+      "loss": 0.0071,
+      "step": 1540
+    },
+    {
+      "epoch": 32.89124668435013,
+      "grad_norm": 0.6787150629611534,
+      "learning_rate": 5e-06,
+      "loss": 0.0074,
+      "step": 1550
+    },
+    {
+      "epoch": 32.9973474801061,
+      "eval_loss": 2.3310482501983643,
+      "eval_runtime": 33.0545,
+      "eval_samples_per_second": 38.361,
+      "eval_steps_per_second": 0.605,
+      "step": 1555
+    },
+    {
+      "epoch": 33.10344827586207,
+      "grad_norm": 0.5900207584722631,
+      "learning_rate": 5e-06,
+      "loss": 0.0069,
+      "step": 1560
+    },
+    {
+      "epoch": 33.315649867374006,
+      "grad_norm": 0.6084245597689188,
+      "learning_rate": 5e-06,
+      "loss": 0.0061,
+      "step": 1570
+    },
+    {
+      "epoch": 33.52785145888594,
+      "grad_norm": 0.6170471226633736,
+      "learning_rate": 5e-06,
+      "loss": 0.0063,
+      "step": 1580
+    },
+    {
+      "epoch": 33.740053050397876,
+      "grad_norm": 0.5824013278619694,
+      "learning_rate": 5e-06,
+      "loss": 0.0063,
+      "step": 1590
+    },
+    {
+      "epoch": 33.95225464190982,
+      "grad_norm": 0.574935717379339,
+      "learning_rate": 5e-06,
+      "loss": 0.0063,
+      "step": 1600
+    },
+    {
+      "epoch": 33.9946949602122,
+      "eval_loss": 2.289428472518921,
+      "eval_runtime": 32.1588,
+      "eval_samples_per_second": 39.429,
+      "eval_steps_per_second": 0.622,
+      "step": 1602
+    },
+    {
+      "epoch": 34.16445623342175,
+      "grad_norm": 0.5109802634209422,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 1610
+    },
+    {
+      "epoch": 34.37665782493369,
+      "grad_norm": 0.5703404470782183,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 1620
+    },
+    {
+      "epoch": 34.58885941644562,
+      "grad_norm": 0.5845533088266871,
+      "learning_rate": 5e-06,
+      "loss": 0.0059,
+      "step": 1630
+    },
+    {
+      "epoch": 34.80106100795756,
+      "grad_norm": 0.5434421907385044,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 1640
+    },
+    {
+      "epoch": 34.9920424403183,
+      "eval_loss": 2.308171033859253,
+      "eval_runtime": 31.9291,
+      "eval_samples_per_second": 39.713,
+      "eval_steps_per_second": 0.626,
+      "step": 1649
+    },
+    {
+      "epoch": 35.0132625994695,
+      "grad_norm": 1.8204121159165139,
+      "learning_rate": 5e-06,
+      "loss": 0.006,
+      "step": 1650
+    },
+    {
+      "epoch": 35.225464190981434,
+      "grad_norm": 0.5723754658113271,
+      "learning_rate": 5e-06,
+      "loss": 0.0048,
+      "step": 1660
+    },
+    {
+      "epoch": 35.43766578249337,
+      "grad_norm": 0.5310678098630937,
+      "learning_rate": 5e-06,
+      "loss": 0.005,
+      "step": 1670
+    },
+    {
+      "epoch": 35.649867374005304,
+      "grad_norm": 0.5594010683218659,
+      "learning_rate": 5e-06,
+      "loss": 0.005,
+      "step": 1680
+    },
+    {
+      "epoch": 35.86206896551724,
+      "grad_norm": 0.4969648772589551,
+      "learning_rate": 5e-06,
+      "loss": 0.0051,
+      "step": 1690
+    },
+    {
+      "epoch": 35.9893899204244,
+      "eval_loss": 2.328826904296875,
+      "eval_runtime": 32.454,
+      "eval_samples_per_second": 39.071,
+      "eval_steps_per_second": 0.616,
+      "step": 1696
+    },
+    {
+      "epoch": 36.07427055702918,
+      "grad_norm": 0.47292878730853377,
+      "learning_rate": 5e-06,
+      "loss": 0.005,
+      "step": 1700
+    },
+    {
+      "epoch": 36.286472148541115,
+      "grad_norm": 0.5911894774260973,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 1710
+    },
+    {
+      "epoch": 36.49867374005305,
+      "grad_norm": 0.5004138206777041,
+      "learning_rate": 5e-06,
+      "loss": 0.0048,
+      "step": 1720
+    },
+    {
+      "epoch": 36.710875331564985,
+      "grad_norm": 0.5061114377066651,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 1730
+    },
+    {
+      "epoch": 36.92307692307692,
+      "grad_norm": 0.4913330473751306,
+      "learning_rate": 5e-06,
+      "loss": 0.0048,
+      "step": 1740
+    },
+    {
+      "epoch": 36.9867374005305,
+      "eval_loss": 2.3886594772338867,
+      "eval_runtime": 33.1238,
+      "eval_samples_per_second": 38.281,
+      "eval_steps_per_second": 0.604,
+      "step": 1743
+    },
+    {
+      "epoch": 37.13527851458886,
+      "grad_norm": 0.5277525796544313,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 1750
+    },
+    {
+      "epoch": 37.3474801061008,
+      "grad_norm": 0.4695171734409881,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 1760
+    },
+    {
+      "epoch": 37.55968169761273,
+      "grad_norm": 0.4873411553809643,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 1770
+    },
+    {
+      "epoch": 37.771883289124666,
+      "grad_norm": 0.491661099681712,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 1780
+    },
+    {
+      "epoch": 37.98408488063661,
+      "grad_norm": 0.4870902665440451,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 1790
+    },
+    {
+      "epoch": 37.98408488063661,
+      "eval_loss": 2.3352954387664795,
+      "eval_runtime": 32.7237,
+      "eval_samples_per_second": 38.749,
+      "eval_steps_per_second": 0.611,
+      "step": 1790
+    },
+    {
+      "epoch": 38.19628647214854,
+      "grad_norm": 0.4917736009333884,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 1800
+    },
+    {
+      "epoch": 38.40848806366048,
+      "grad_norm": 0.4772998993497948,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 1810
+    },
+    {
+      "epoch": 38.62068965517241,
+      "grad_norm": 0.4618470399964744,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1820
+    },
+    {
+      "epoch": 38.83289124668435,
+      "grad_norm": 0.5335702794762303,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 1830
+    },
+    {
+      "epoch": 38.98143236074271,
+      "eval_loss": 2.331439256668091,
+      "eval_runtime": 36.1248,
+      "eval_samples_per_second": 35.101,
+      "eval_steps_per_second": 0.554,
+      "step": 1837
+    },
+    {
+      "epoch": 39.04509283819629,
+      "grad_norm": 0.479505582826384,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1840
+    },
+    {
+      "epoch": 39.257294429708224,
+      "grad_norm": 0.5113511589520306,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 1850
+    },
+    {
+      "epoch": 39.46949602122016,
+      "grad_norm": 0.5215185108673973,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1860
+    },
+    {
+      "epoch": 39.681697612732094,
+      "grad_norm": 0.4684510421075637,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1870
+    },
+    {
+      "epoch": 39.89389920424403,
+      "grad_norm": 0.4922971901357758,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 1880
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 2.352881908416748,
+      "eval_runtime": 32.8929,
+      "eval_samples_per_second": 38.549,
+      "eval_steps_per_second": 0.608,
+      "step": 1885
+    },
+    {
+      "epoch": 40.10610079575597,
+      "grad_norm": 0.46894182967311265,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1890
+    },
+    {
+      "epoch": 40.318302387267906,
+      "grad_norm": 0.5014360578712377,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 1900
+    },
+    {
+      "epoch": 40.53050397877984,
+      "grad_norm": 0.4882460378245171,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 1910
+    },
+    {
+      "epoch": 40.742705570291776,
+      "grad_norm": 0.4706172770419776,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 1920
+    },
+    {
+      "epoch": 40.95490716180371,
+      "grad_norm": 0.5059451971167636,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 1930
+    },
+    {
+      "epoch": 40.9973474801061,
+      "eval_loss": 2.2959542274475098,
+      "eval_runtime": 32.0804,
+      "eval_samples_per_second": 39.526,
+      "eval_steps_per_second": 0.623,
+      "step": 1932
+    },
+    {
+      "epoch": 41.16710875331565,
+      "grad_norm": 0.5083900169420202,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 1940
+    },
+    {
+      "epoch": 41.37931034482759,
+      "grad_norm": 0.4890535769006396,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1950
+    },
+    {
+      "epoch": 41.59151193633952,
+      "grad_norm": 0.4834799340549018,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1960
+    },
+    {
+      "epoch": 41.80371352785146,
+      "grad_norm": 0.5123145634590351,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 1970
+    },
+    {
+      "epoch": 41.9946949602122,
+      "eval_loss": 2.2469534873962402,
+      "eval_runtime": 32.0054,
+      "eval_samples_per_second": 39.618,
+      "eval_steps_per_second": 0.625,
+      "step": 1979
+    },
+    {
+      "epoch": 42.01591511936339,
+      "grad_norm": 1.0205112888877195,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 1980
+    },
+    {
+      "epoch": 42.228116710875334,
+      "grad_norm": 0.5070885420891122,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 1990
+    },
+    {
+      "epoch": 42.44031830238727,
+      "grad_norm": 0.46542677043756164,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2000
+    },
+    {
+      "epoch": 42.6525198938992,
+      "grad_norm": 0.4998861777562649,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2010
+    },
+    {
+      "epoch": 42.86472148541114,
+      "grad_norm": 0.5389482176054387,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2020
+    },
+    {
+      "epoch": 42.9920424403183,
+      "eval_loss": 2.2444722652435303,
+      "eval_runtime": 32.4938,
+      "eval_samples_per_second": 39.023,
+      "eval_steps_per_second": 0.616,
+      "step": 2026
+    },
+    {
+      "epoch": 43.07692307692308,
+      "grad_norm": 0.5391194908432944,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 2030
+    },
+    {
+      "epoch": 43.289124668435015,
+      "grad_norm": 0.4981283219249435,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2040
+    },
+    {
+      "epoch": 43.50132625994695,
+      "grad_norm": 0.47345665951297794,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2050
+    },
+    {
+      "epoch": 43.713527851458885,
+      "grad_norm": 0.5298679945828358,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2060
+    },
+    {
+      "epoch": 43.92572944297082,
+      "grad_norm": 0.5185041675783161,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 2070
+    },
+    {
+      "epoch": 43.9893899204244,
+      "eval_loss": 2.185729503631592,
+      "eval_runtime": 36.7149,
+      "eval_samples_per_second": 34.536,
+      "eval_steps_per_second": 0.545,
+      "step": 2073
+    },
+    {
+      "epoch": 44.13793103448276,
+      "grad_norm": 0.4595423086231479,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2080
+    },
+    {
+      "epoch": 44.350132625994696,
+      "grad_norm": 0.5490294028556272,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2090
+    },
+    {
+      "epoch": 44.56233421750663,
+      "grad_norm": 0.4920918340455232,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2100
+    },
+    {
+      "epoch": 44.774535809018566,
+      "grad_norm": 0.4760583120520896,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2110
+    },
+    {
+      "epoch": 44.9867374005305,
+      "grad_norm": 0.5733089439708409,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2120
+    },
+    {
+      "epoch": 44.9867374005305,
+      "eval_loss": 2.2820541858673096,
+      "eval_runtime": 33.8121,
+      "eval_samples_per_second": 37.501,
+      "eval_steps_per_second": 0.592,
+      "step": 2120
+    },
+    {
+      "epoch": 45.19893899204244,
+      "grad_norm": 0.49643601560555334,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2130
+    },
+    {
+      "epoch": 45.41114058355438,
+      "grad_norm": 0.4978312694722092,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2140
+    },
+    {
+      "epoch": 45.62334217506631,
+      "grad_norm": 0.4871972940394871,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2150
+    },
+    {
+      "epoch": 45.83554376657825,
+      "grad_norm": 0.48963099402274846,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2160
+    },
+    {
+      "epoch": 45.98408488063661,
+      "eval_loss": 2.1947340965270996,
+      "eval_runtime": 31.7983,
+      "eval_samples_per_second": 39.876,
+      "eval_steps_per_second": 0.629,
+      "step": 2167
+    },
+    {
+      "epoch": 46.04774535809018,
+      "grad_norm": 0.5401269884224489,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 2170
+    },
+    {
+      "epoch": 46.259946949602124,
+      "grad_norm": 0.48855626759480597,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2180
+    },
+    {
+      "epoch": 46.47214854111406,
+      "grad_norm": 0.4620581610973711,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2190
+    },
+    {
+      "epoch": 46.684350132625994,
+      "grad_norm": 0.5231436233945154,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2200
+    },
+    {
+      "epoch": 46.89655172413793,
+      "grad_norm": 0.5107109905734242,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2210
+    },
+    {
+      "epoch": 46.98143236074271,
+      "eval_loss": 2.244826316833496,
+      "eval_runtime": 32.489,
+      "eval_samples_per_second": 39.029,
+      "eval_steps_per_second": 0.616,
+      "step": 2214
+    },
+    {
+      "epoch": 47.10875331564987,
+      "grad_norm": 0.48505370551160115,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2220
+    },
+    {
+      "epoch": 47.320954907161806,
+      "grad_norm": 0.47743906179946344,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2230
+    },
+    {
+      "epoch": 47.53315649867374,
+      "grad_norm": 0.44336417927466243,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2240
+    },
+    {
+      "epoch": 47.745358090185675,
+      "grad_norm": 0.46929085800943077,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2250
+    },
+    {
+      "epoch": 47.95755968169761,
+      "grad_norm": 0.5231340061248672,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2260
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 2.2752280235290527,
+      "eval_runtime": 32.0921,
+      "eval_samples_per_second": 39.511,
+      "eval_steps_per_second": 0.623,
+      "step": 2262
+    },
+    {
+      "epoch": 48.16976127320955,
+      "grad_norm": 0.48306728388415554,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2270
+    },
+    {
+      "epoch": 48.38196286472149,
+      "grad_norm": 0.4672845604156267,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2280
+    },
+    {
+      "epoch": 48.59416445623342,
+      "grad_norm": 0.4629938422088832,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2290
+    },
+    {
+      "epoch": 48.80636604774536,
+      "grad_norm": 0.47249658476819273,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2300
+    },
+    {
+      "epoch": 48.9973474801061,
+      "eval_loss": 2.191987991333008,
+      "eval_runtime": 32.7778,
+      "eval_samples_per_second": 38.685,
+      "eval_steps_per_second": 0.61,
+      "step": 2309
+    },
+    {
+      "epoch": 49.01856763925729,
+      "grad_norm": 1.2484007364586218,
+      "learning_rate": 5e-06,
+      "loss": 0.0048,
+      "step": 2310
+    },
+    {
+      "epoch": 49.23076923076923,
+      "grad_norm": 0.4611865467475917,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2320
+    },
+    {
+      "epoch": 49.44297082228117,
+      "grad_norm": 0.4743910435522657,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2330
+    },
+    {
+      "epoch": 49.6551724137931,
+      "grad_norm": 0.46542658618821575,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2340
+    },
+    {
+      "epoch": 49.86737400530504,
+      "grad_norm": 0.505406296008645,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2350
+    },
+    {
+      "epoch": 49.9946949602122,
+      "eval_loss": 2.2768940925598145,
+      "eval_runtime": 36.0799,
+      "eval_samples_per_second": 35.144,
+      "eval_steps_per_second": 0.554,
+      "step": 2356
+    },
+    {
+      "epoch": 50.07957559681697,
+      "grad_norm": 0.46367725238189,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2360
+    },
+    {
+      "epoch": 50.291777188328915,
+      "grad_norm": 0.47518379044051445,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2370
+    },
+    {
+      "epoch": 50.50397877984085,
+      "grad_norm": 0.4490016757712857,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2380
+    },
+    {
+      "epoch": 50.716180371352785,
+      "grad_norm": 0.48554533367921304,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2390
+    },
+    {
+      "epoch": 50.92838196286472,
+      "grad_norm": 0.5443769686143077,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2400
+    },
+    {
+      "epoch": 50.9920424403183,
+      "eval_loss": 2.144993305206299,
+      "eval_runtime": 32.7727,
+      "eval_samples_per_second": 38.691,
+      "eval_steps_per_second": 0.61,
+      "step": 2403
+    },
+    {
+      "epoch": 51.14058355437666,
+      "grad_norm": 0.47893302654695646,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2410
+    },
+    {
+      "epoch": 51.352785145888596,
+      "grad_norm": 0.47839392843087253,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2420
+    },
+    {
+      "epoch": 51.56498673740053,
+      "grad_norm": 0.4708576897117157,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 2430
+    },
+    {
+      "epoch": 51.777188328912466,
+      "grad_norm": 0.4416375979362001,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 2440
+    },
+    {
+      "epoch": 51.9893899204244,
+      "grad_norm": 0.49822827548820897,
+      "learning_rate": 5e-06,
+      "loss": 0.0047,
+      "step": 2450
+    },
+    {
+      "epoch": 51.9893899204244,
+      "eval_loss": 2.1438260078430176,
+      "eval_runtime": 36.4269,
+      "eval_samples_per_second": 34.809,
+      "eval_steps_per_second": 0.549,
+      "step": 2450
+    },
+    {
+      "epoch": 52.20159151193634,
+      "grad_norm": 0.5089323733248741,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2460
+    },
+    {
+      "epoch": 52.41379310344828,
+      "grad_norm": 0.44606305075490854,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2470
+    },
+    {
+      "epoch": 52.62599469496021,
+      "grad_norm": 0.4833038017820681,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2480
+    },
+    {
+      "epoch": 52.83819628647215,
+      "grad_norm": 0.48874674821346825,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2490
+    },
+    {
+      "epoch": 52.9867374005305,
+      "eval_loss": 2.208920955657959,
+      "eval_runtime": 32.296,
+      "eval_samples_per_second": 39.262,
+      "eval_steps_per_second": 0.619,
+      "step": 2497
+    },
+    {
+      "epoch": 53.05039787798408,
+      "grad_norm": 0.41030239469513036,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2500
+    },
+    {
+      "epoch": 53.262599469496024,
+      "grad_norm": 0.4585601531053586,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2510
+    },
+    {
+      "epoch": 53.47480106100796,
+      "grad_norm": 0.4732257596690339,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2520
+    },
+    {
+      "epoch": 53.687002652519894,
+      "grad_norm": 0.5085946719924586,
+      "learning_rate": 5e-06,
+      "loss": 0.0045,
+      "step": 2530
+    },
+    {
+      "epoch": 53.89920424403183,
+      "grad_norm": 0.4544286199376631,
+      "learning_rate": 5e-06,
+      "loss": 0.0046,
+      "step": 2540
+    },
+    {
+      "epoch": 53.98408488063661,
+      "eval_loss": 2.123398542404175,
+      "eval_runtime": 32.8291,
+      "eval_samples_per_second": 38.624,
+      "eval_steps_per_second": 0.609,
+      "step": 2544
+    },
+    {
+      "epoch": 54.11140583554376,
+      "grad_norm": 0.44262892146335525,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2550
+    },
+    {
+      "epoch": 54.323607427055705,
+      "grad_norm": 0.49296478494264834,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2560
+    },
+    {
+      "epoch": 54.53580901856764,
+      "grad_norm": 0.48068563453879837,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2570
+    },
+    {
+      "epoch": 54.748010610079575,
+      "grad_norm": 0.4510335725213247,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2580
+    },
+    {
+      "epoch": 54.96021220159151,
+      "grad_norm": 0.46614703692197884,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2590
+    },
+    {
+      "epoch": 54.98143236074271,
+      "eval_loss": 2.098813533782959,
+      "eval_runtime": 32.6607,
+      "eval_samples_per_second": 38.823,
+      "eval_steps_per_second": 0.612,
+      "step": 2591
+    },
+    {
+      "epoch": 55.172413793103445,
+      "grad_norm": 0.466596602949434,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2600
+    },
+    {
+      "epoch": 55.38461538461539,
+      "grad_norm": 0.46230184288151793,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2610
+    },
+    {
+      "epoch": 55.59681697612732,
+      "grad_norm": 0.47754982848015426,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2620
+    },
+    {
+      "epoch": 55.80901856763926,
+      "grad_norm": 0.4544421989477464,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2630
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 2.2261929512023926,
+      "eval_runtime": 35.947,
+      "eval_samples_per_second": 35.274,
+      "eval_steps_per_second": 0.556,
+      "step": 2639
+    },
+    {
+      "epoch": 56.02122015915119,
+      "grad_norm": 0.3799408885340678,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2640
+    },
+    {
+      "epoch": 56.23342175066313,
+      "grad_norm": 0.4677309240050164,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 2650
+    },
+    {
+      "epoch": 56.44562334217507,
+      "grad_norm": 0.4451544359663699,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 2660
+    },
+    {
+      "epoch": 56.657824933687,
+      "grad_norm": 0.4354541222227446,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2670
+    },
+    {
+      "epoch": 56.87002652519894,
+      "grad_norm": 0.42799533212251356,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2680
+    },
+    {
+      "epoch": 56.9973474801061,
+      "eval_loss": 2.1829628944396973,
+      "eval_runtime": 36.932,
+      "eval_samples_per_second": 34.333,
+      "eval_steps_per_second": 0.542,
+      "step": 2686
+    },
+    {
+      "epoch": 57.08222811671087,
+      "grad_norm": 0.4302775997185208,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2690
+    },
+    {
+      "epoch": 57.294429708222815,
+      "grad_norm": 0.45373619115759034,
+      "learning_rate": 5e-06,
+      "loss": 0.0039,
+      "step": 2700
+    },
+    {
+      "epoch": 57.50663129973475,
+      "grad_norm": 0.5093692592215654,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2710
+    },
+    {
+      "epoch": 57.718832891246684,
+      "grad_norm": 0.45674444550397164,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2720
+    },
+    {
+      "epoch": 57.93103448275862,
+      "grad_norm": 0.5039477875488658,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2730
+    },
+    {
+      "epoch": 57.9946949602122,
+      "eval_loss": 2.0565218925476074,
+      "eval_runtime": 33.1808,
+      "eval_samples_per_second": 38.215,
+      "eval_steps_per_second": 0.603,
+      "step": 2733
+    },
+    {
+      "epoch": 58.143236074270554,
+      "grad_norm": 0.637301688376698,
+      "learning_rate": 5e-06,
+      "loss": 0.0039,
+      "step": 2740
+    },
+    {
+      "epoch": 58.355437665782496,
+      "grad_norm": 0.4409796185787368,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2750
+    },
+    {
+      "epoch": 58.56763925729443,
+      "grad_norm": 0.4397178040551203,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2760
+    },
+    {
+      "epoch": 58.779840848806366,
+      "grad_norm": 0.4579546974399331,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2770
+    },
+    {
+      "epoch": 58.9920424403183,
+      "grad_norm": 0.4802915474982352,
+      "learning_rate": 5e-06,
+      "loss": 0.0044,
+      "step": 2780
+    },
+    {
+      "epoch": 58.9920424403183,
+      "eval_loss": 2.1349949836730957,
+      "eval_runtime": 33.3478,
+      "eval_samples_per_second": 38.023,
+      "eval_steps_per_second": 0.6,
+      "step": 2780
+    },
+    {
+      "epoch": 59.204244031830235,
+      "grad_norm": 0.45595342094830865,
+      "learning_rate": 5e-06,
+      "loss": 0.0039,
+      "step": 2790
+    },
+    {
+      "epoch": 59.41644562334218,
+      "grad_norm": 0.42583408196815664,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2800
+    },
+    {
+      "epoch": 59.62864721485411,
+      "grad_norm": 0.46976715325114415,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2810
+    },
+    {
+      "epoch": 59.84084880636605,
+      "grad_norm": 0.4594039159794932,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2820
+    },
+    {
+      "epoch": 59.9893899204244,
+      "eval_loss": 2.147503137588501,
+      "eval_runtime": 33.9868,
+      "eval_samples_per_second": 37.309,
+      "eval_steps_per_second": 0.588,
+      "step": 2827
+    },
+    {
+      "epoch": 60.05305039787798,
+      "grad_norm": 0.3788604780234753,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2830
+    },
+    {
+      "epoch": 60.265251989389924,
+      "grad_norm": 0.4585887452398626,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2840
+    },
+    {
+      "epoch": 60.47745358090186,
+      "grad_norm": 0.44191777540666205,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2850
+    },
+    {
+      "epoch": 60.689655172413794,
+      "grad_norm": 0.4804115061902176,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2860
+    },
+    {
+      "epoch": 60.90185676392573,
+      "grad_norm": 0.4364809653768145,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2870
+    },
+    {
+      "epoch": 60.9867374005305,
+      "eval_loss": 2.1589598655700684,
+      "eval_runtime": 32.8868,
+      "eval_samples_per_second": 38.557,
+      "eval_steps_per_second": 0.608,
+      "step": 2874
+    },
+    {
+      "epoch": 61.11405835543766,
+      "grad_norm": 0.4627247386921585,
+      "learning_rate": 5e-06,
+      "loss": 0.0037,
+      "step": 2880
+    },
+    {
+      "epoch": 61.326259946949605,
+      "grad_norm": 0.44610807113473805,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 2890
+    },
+    {
+      "epoch": 61.53846153846154,
+      "grad_norm": 0.44993855036307506,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2900
+    },
+    {
+      "epoch": 61.750663129973475,
+      "grad_norm": 0.452168597601154,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2910
+    },
+    {
+      "epoch": 61.96286472148541,
+      "grad_norm": 0.43632915397140304,
+      "learning_rate": 5e-06,
+      "loss": 0.0039,
+      "step": 2920
+    },
+    {
+      "epoch": 61.98408488063661,
+      "eval_loss": 2.175154209136963,
+      "eval_runtime": 32.894,
+      "eval_samples_per_second": 38.548,
+      "eval_steps_per_second": 0.608,
+      "step": 2921
+    },
+    {
+      "epoch": 62.175066312997345,
+      "grad_norm": 0.608893909790697,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 2930
+    },
+    {
+      "epoch": 62.38726790450929,
+      "grad_norm": 0.7810123169729063,
+      "learning_rate": 5e-06,
+      "loss": 0.0041,
+      "step": 2940
+    },
+    {
+      "epoch": 62.59946949602122,
+      "grad_norm": 0.5388235256317511,
+      "learning_rate": 5e-06,
+      "loss": 0.0042,
+      "step": 2950
+    },
+    {
+      "epoch": 62.811671087533156,
+      "grad_norm": 0.6616276113363618,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 2960
+    },
+    {
+      "epoch": 62.98143236074271,
+      "eval_loss": 2.0755813121795654,
+      "eval_runtime": 32.5654,
+      "eval_samples_per_second": 38.937,
+      "eval_steps_per_second": 0.614,
+      "step": 2968
+    },
+    {
+      "epoch": 63.02387267904509,
+      "grad_norm": 0.6334559986726974,
+      "learning_rate": 5e-06,
+      "loss": 0.0048,
+      "step": 2970
+    },
+    {
+      "epoch": 63.236074270557026,
+      "grad_norm": 0.4374734696148235,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 2980
+    },
+    {
+      "epoch": 63.44827586206897,
+      "grad_norm": 0.41776684558458094,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 2990
+    },
+    {
+      "epoch": 63.6604774535809,
+      "grad_norm": 0.42616669114162264,
+      "learning_rate": 5e-06,
+      "loss": 0.004,
+      "step": 3000
+    },
+    {
+      "epoch": 63.87267904509284,
+      "grad_norm": 0.41562950815940586,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 3010
+    },
+    {
+      "epoch": 64.0,
+      "eval_loss": 2.1628966331481934,
+      "eval_runtime": 35.8881,
+      "eval_samples_per_second": 35.332,
+      "eval_steps_per_second": 0.557,
+      "step": 3016
+    },
+    {
+      "epoch": 64.08488063660478,
+      "grad_norm": 0.3882496026884459,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 3020
+    },
+    {
+      "epoch": 64.29708222811671,
+      "grad_norm": 0.39751578288878314,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3030
+    },
+    {
+      "epoch": 64.50928381962865,
+      "grad_norm": 0.40212171641197075,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 3040
+    },
+    {
+      "epoch": 64.72148541114058,
+      "grad_norm": 0.41313235372557094,
+      "learning_rate": 5e-06,
+      "loss": 0.0037,
+      "step": 3050
+    },
+    {
+      "epoch": 64.93368700265252,
+      "grad_norm": 0.4322523665445671,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 3060
+    },
+    {
+      "epoch": 64.9973474801061,
+      "eval_loss": 2.1522464752197266,
+      "eval_runtime": 33.9327,
+      "eval_samples_per_second": 37.368,
+      "eval_steps_per_second": 0.589,
+      "step": 3063
+    },
+    {
+      "epoch": 65.14588859416446,
+      "grad_norm": 0.43780473531290537,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3070
+    },
+    {
+      "epoch": 65.35809018567639,
+      "grad_norm": 0.40572872421767864,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3080
+    },
+    {
+      "epoch": 65.57029177718833,
+      "grad_norm": 0.4093469164996682,
+      "learning_rate": 5e-06,
+      "loss": 0.0037,
+      "step": 3090
+    },
+    {
+      "epoch": 65.78249336870026,
+      "grad_norm": 0.4208388004003152,
+      "learning_rate": 5e-06,
+      "loss": 0.0038,
+      "step": 3100
+    },
+    {
+      "epoch": 65.9946949602122,
+      "grad_norm": 0.3777101158629655,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3110
+    },
+    {
+      "epoch": 65.9946949602122,
+      "eval_loss": 2.1448707580566406,
+      "eval_runtime": 32.4346,
+      "eval_samples_per_second": 39.094,
+      "eval_steps_per_second": 0.617,
+      "step": 3110
+    },
+    {
+      "epoch": 66.20689655172414,
+      "grad_norm": 0.40489816550784263,
+      "learning_rate": 5e-06,
+      "loss": 0.0037,
+      "step": 3120
+    },
+    {
+      "epoch": 66.41909814323607,
+      "grad_norm": 0.40494233817333486,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3130
+    },
+    {
+      "epoch": 66.63129973474801,
+      "grad_norm": 0.43182433380221513,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3140
+    },
+    {
+      "epoch": 66.84350132625995,
+      "grad_norm": 0.42002384540999343,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3150
+    },
+    {
+      "epoch": 66.9920424403183,
+      "eval_loss": 2.1888883113861084,
+      "eval_runtime": 33.3496,
+      "eval_samples_per_second": 38.021,
+      "eval_steps_per_second": 0.6,
+      "step": 3157
+    },
+    {
+      "epoch": 67.05570291777188,
+      "grad_norm": 0.339266948363754,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3160
+    },
+    {
+      "epoch": 67.26790450928382,
+      "grad_norm": 0.42114668871012634,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3170
+    },
+    {
+      "epoch": 67.48010610079575,
+      "grad_norm": 0.3926892944575222,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3180
+    },
+    {
+      "epoch": 67.6923076923077,
+      "grad_norm": 0.40585951234482415,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3190
+    },
+    {
+      "epoch": 67.90450928381964,
+      "grad_norm": 0.3806844812557759,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3200
+    },
+    {
+      "epoch": 67.9893899204244,
+      "eval_loss": 2.02482271194458,
+      "eval_runtime": 33.0854,
+      "eval_samples_per_second": 38.325,
+      "eval_steps_per_second": 0.604,
+      "step": 3204
+    },
+    {
+      "epoch": 68.11671087533156,
+      "grad_norm": 0.4132453030965077,
+      "learning_rate": 5e-06,
+      "loss": 0.0037,
+      "step": 3210
+    },
+    {
+      "epoch": 68.3289124668435,
+      "grad_norm": 0.38140095612784375,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3220
+    },
+    {
+      "epoch": 68.54111405835543,
+      "grad_norm": 0.40173788786098963,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3230
+    },
+    {
+      "epoch": 68.75331564986737,
+      "grad_norm": 0.42824163747474797,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3240
+    },
+    {
+      "epoch": 68.96551724137932,
+      "grad_norm": 0.43732807576872973,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3250
+    },
+    {
+      "epoch": 68.9867374005305,
+      "eval_loss": 2.153766632080078,
+      "eval_runtime": 32.6711,
+      "eval_samples_per_second": 38.811,
+      "eval_steps_per_second": 0.612,
+      "step": 3251
+    },
+    {
+      "epoch": 69.17771883289124,
+      "grad_norm": 0.4193548626603914,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3260
+    },
+    {
+      "epoch": 69.38992042440319,
+      "grad_norm": 0.40522275291155146,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3270
+    },
+    {
+      "epoch": 69.60212201591511,
+      "grad_norm": 0.4013758280796354,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3280
+    },
+    {
+      "epoch": 69.81432360742706,
+      "grad_norm": 0.40290926552605144,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3290
+    },
+    {
+      "epoch": 69.9840848806366,
+      "eval_loss": 2.120227336883545,
+      "eval_runtime": 32.4986,
+      "eval_samples_per_second": 39.017,
+      "eval_steps_per_second": 0.615,
+      "step": 3298
+    },
+    {
+      "epoch": 70.026525198939,
+      "grad_norm": 0.33478040634073364,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3300
+    },
+    {
+      "epoch": 70.23872679045093,
+      "grad_norm": 0.4444432922236486,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3310
+    },
+    {
+      "epoch": 70.45092838196287,
+      "grad_norm": 0.4428255323418405,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3320
+    },
+    {
+      "epoch": 70.6631299734748,
+      "grad_norm": 0.3731061791107405,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3330
+    },
+    {
+      "epoch": 70.87533156498674,
+      "grad_norm": 0.45145158640780303,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3340
+    },
+    {
+      "epoch": 70.9814323607427,
+      "eval_loss": 2.0325770378112793,
+      "eval_runtime": 32.522,
+      "eval_samples_per_second": 38.989,
+      "eval_steps_per_second": 0.615,
+      "step": 3345
+    },
+    {
+      "epoch": 71.08753315649868,
+      "grad_norm": 0.39240667441244437,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3350
+    },
+    {
+      "epoch": 71.29973474801061,
+      "grad_norm": 0.410162121432956,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3360
+    },
+    {
+      "epoch": 71.51193633952255,
+      "grad_norm": 0.4249265888654567,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3370
+    },
+    {
+      "epoch": 71.72413793103448,
+      "grad_norm": 0.421612196975819,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3380
+    },
+    {
+      "epoch": 71.93633952254642,
+      "grad_norm": 0.40146518689087984,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3390
+    },
+    {
+      "epoch": 72.0,
+      "eval_loss": 2.136025905609131,
+      "eval_runtime": 32.2821,
+      "eval_samples_per_second": 39.279,
+      "eval_steps_per_second": 0.62,
+      "step": 3393
+    },
+    {
+      "epoch": 72.14854111405836,
+      "grad_norm": 0.4033404722089355,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3400
+    },
+    {
+      "epoch": 72.36074270557029,
+      "grad_norm": 0.38031849104486287,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3410
+    },
+    {
+      "epoch": 72.57294429708223,
+      "grad_norm": 0.4256890823406434,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3420
+    },
+    {
+      "epoch": 72.78514588859416,
+      "grad_norm": 0.39728951575599475,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3430
+    },
+    {
+      "epoch": 72.9973474801061,
+      "grad_norm": 0.43366290130989155,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3440
+    },
+    {
+      "epoch": 72.9973474801061,
+      "eval_loss": 2.140444278717041,
+      "eval_runtime": 32.097,
+      "eval_samples_per_second": 39.505,
+      "eval_steps_per_second": 0.623,
+      "step": 3440
+    },
+    {
+      "epoch": 73.20954907161804,
+      "grad_norm": 0.4496709542811343,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3450
+    },
+    {
+      "epoch": 73.42175066312997,
+      "grad_norm": 0.39499253428451686,
+      "learning_rate": 5e-06,
+      "loss": 0.0037,
+      "step": 3460
+    },
+    {
+      "epoch": 73.63395225464191,
+      "grad_norm": 0.4284470550355988,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3470
+    },
+    {
+      "epoch": 73.84615384615384,
+      "grad_norm": 0.37658553910833825,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3480
+    },
+    {
+      "epoch": 73.9946949602122,
+      "eval_loss": 2.0650992393493652,
+      "eval_runtime": 32.6236,
+      "eval_samples_per_second": 38.868,
+      "eval_steps_per_second": 0.613,
+      "step": 3487
+    },
+    {
+      "epoch": 74.05835543766578,
+      "grad_norm": 0.3524530444221811,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3490
+    },
+    {
+      "epoch": 74.27055702917772,
+      "grad_norm": 0.39409848693901955,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3500
+    },
+    {
+      "epoch": 74.48275862068965,
+      "grad_norm": 0.42047378002627894,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3510
+    },
+    {
+      "epoch": 74.6949602122016,
+      "grad_norm": 0.40274927089710044,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3520
+    },
+    {
+      "epoch": 74.90716180371352,
+      "grad_norm": 0.38906526876812453,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3530
+    },
+    {
+      "epoch": 74.9920424403183,
+      "eval_loss": 2.0981507301330566,
+      "eval_runtime": 32.4031,
+      "eval_samples_per_second": 39.132,
+      "eval_steps_per_second": 0.617,
+      "step": 3534
+    },
+    {
+      "epoch": 75.11936339522546,
+      "grad_norm": 0.391750185960046,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3540
+    },
+    {
+      "epoch": 75.3315649867374,
+      "grad_norm": 0.37102671261917963,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3550
+    },
+    {
+      "epoch": 75.54376657824933,
+      "grad_norm": 0.39585187770926034,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3560
+    },
+    {
+      "epoch": 75.75596816976127,
+      "grad_norm": 0.3879324890894751,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3570
+    },
+    {
+      "epoch": 75.96816976127322,
+      "grad_norm": 0.37359530892758086,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3580
+    },
+    {
+      "epoch": 75.9893899204244,
+      "eval_loss": 2.103228807449341,
+      "eval_runtime": 32.7169,
+      "eval_samples_per_second": 38.757,
+      "eval_steps_per_second": 0.611,
+      "step": 3581
+    },
+    {
+      "epoch": 76.18037135278514,
+      "grad_norm": 0.42277460845620735,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3590
+    },
+    {
+      "epoch": 76.39257294429709,
+      "grad_norm": 0.40212189712733326,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3600
+    },
+    {
+      "epoch": 76.60477453580901,
+      "grad_norm": 0.3777986994301868,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3610
+    },
+    {
+      "epoch": 76.81697612732096,
+      "grad_norm": 0.38925756096466013,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3620
+    },
+    {
+      "epoch": 76.9867374005305,
+      "eval_loss": 2.1027870178222656,
+      "eval_runtime": 36.1826,
+      "eval_samples_per_second": 35.044,
+      "eval_steps_per_second": 0.553,
+      "step": 3628
+    },
+    {
+      "epoch": 77.0291777188329,
+      "grad_norm": 0.30271858281583675,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3630
+    },
+    {
+      "epoch": 77.24137931034483,
+      "grad_norm": 0.3593487322443487,
+      "learning_rate": 5e-06,
+      "loss": 0.0029,
+      "step": 3640
+    },
+    {
+      "epoch": 77.45358090185677,
+      "grad_norm": 0.3928032494121523,
+      "learning_rate": 5e-06,
+      "loss": 0.0031,
+      "step": 3650
+    },
+    {
+      "epoch": 77.6657824933687,
+      "grad_norm": 0.38150790402677676,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3660
+    },
+    {
+      "epoch": 77.87798408488064,
+      "grad_norm": 0.4066783948821425,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3670
+    },
+    {
+      "epoch": 77.9840848806366,
+      "eval_loss": 2.1281707286834717,
+      "eval_runtime": 33.2769,
+      "eval_samples_per_second": 38.104,
+      "eval_steps_per_second": 0.601,
+      "step": 3675
+    },
+    {
+      "epoch": 78.09018567639258,
+      "grad_norm": 0.4254092923201944,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3680
+    },
+    {
+      "epoch": 78.3023872679045,
+      "grad_norm": 0.4237268227184133,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3690
+    },
+    {
+      "epoch": 78.51458885941645,
+      "grad_norm": 0.3749003036052785,
+      "learning_rate": 5e-06,
+      "loss": 0.0031,
+      "step": 3700
+    },
+    {
+      "epoch": 78.72679045092838,
+      "grad_norm": 0.41557736596568606,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3710
+    },
+    {
+      "epoch": 78.93899204244032,
+      "grad_norm": 0.39852779609547256,
+      "learning_rate": 5e-06,
+      "loss": 0.0031,
+      "step": 3720
+    },
+    {
+      "epoch": 78.9814323607427,
+      "eval_loss": 2.0912187099456787,
+      "eval_runtime": 32.9798,
+      "eval_samples_per_second": 38.448,
+      "eval_steps_per_second": 0.606,
+      "step": 3722
+    },
+    {
+      "epoch": 79.15119363395226,
+      "grad_norm": 0.4152067446748348,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3730
+    },
+    {
+      "epoch": 79.36339522546419,
+      "grad_norm": 0.38606471153466937,
+      "learning_rate": 5e-06,
+      "loss": 0.0031,
+      "step": 3740
+    },
+    {
+      "epoch": 79.57559681697613,
+      "grad_norm": 0.36517885494113134,
+      "learning_rate": 5e-06,
+      "loss": 0.0031,
+      "step": 3750
+    },
+    {
+      "epoch": 79.78779840848806,
+      "grad_norm": 0.3821448630598915,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3760
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 1.069831765212845,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3770
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 2.0766139030456543,
+      "eval_runtime": 36.0827,
+      "eval_samples_per_second": 35.141,
+      "eval_steps_per_second": 0.554,
+      "step": 3770
+    },
+    {
+      "epoch": 80.21220159151194,
+      "grad_norm": 0.3955091796926952,
+      "learning_rate": 5e-06,
+      "loss": 0.003,
+      "step": 3780
+    },
+    {
+      "epoch": 80.42440318302387,
+      "grad_norm": 0.4047467697372624,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3790
+    },
+    {
+      "epoch": 80.63660477453581,
+      "grad_norm": 0.41826706633766736,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3800
+    },
+    {
+      "epoch": 80.84880636604774,
+      "grad_norm": 0.37028002132024623,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3810
+    },
+    {
+      "epoch": 80.9973474801061,
+      "eval_loss": 2.028625011444092,
+      "eval_runtime": 32.7509,
+      "eval_samples_per_second": 38.716,
+      "eval_steps_per_second": 0.611,
+      "step": 3817
+    },
+    {
+      "epoch": 81.06100795755968,
+      "grad_norm": 0.3285928992254024,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3820
+    },
+    {
+      "epoch": 81.27320954907162,
+      "grad_norm": 0.3809186826303398,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3830
+    },
+    {
+      "epoch": 81.48541114058355,
+      "grad_norm": 0.3874865576437627,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3840
+    },
+    {
+      "epoch": 81.6976127320955,
+      "grad_norm": 0.37847785183804333,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3850
+    },
+    {
+      "epoch": 81.90981432360742,
+      "grad_norm": 0.3922681560686074,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3860
+    },
+    {
+      "epoch": 81.9946949602122,
+      "eval_loss": 2.042055606842041,
+      "eval_runtime": 32.8433,
+      "eval_samples_per_second": 38.608,
+      "eval_steps_per_second": 0.609,
+      "step": 3864
+    },
+    {
+      "epoch": 82.12201591511936,
+      "grad_norm": 0.4245011346154422,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3870
+    },
+    {
+      "epoch": 82.3342175066313,
+      "grad_norm": 0.42806989556347114,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3880
+    },
+    {
+      "epoch": 82.54641909814323,
+      "grad_norm": 0.3830977535195959,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3890
+    },
+    {
+      "epoch": 82.75862068965517,
+      "grad_norm": 0.3879066862101996,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3900
+    },
+    {
+      "epoch": 82.9708222811671,
+      "grad_norm": 0.3897894318429504,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3910
+    },
+    {
+      "epoch": 82.9920424403183,
+      "eval_loss": 2.1120784282684326,
+      "eval_runtime": 32.6153,
+      "eval_samples_per_second": 38.877,
+      "eval_steps_per_second": 0.613,
+      "step": 3911
+    },
+    {
+      "epoch": 83.18302387267904,
+      "grad_norm": 0.39240258603690487,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3920
+    },
+    {
+      "epoch": 83.39522546419099,
+      "grad_norm": 0.3785833044107697,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3930
+    },
+    {
+      "epoch": 83.60742705570291,
+      "grad_norm": 0.398236658165694,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3940
+    },
+    {
+      "epoch": 83.81962864721486,
+      "grad_norm": 0.39280664719194336,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 3950
+    },
+    {
+      "epoch": 83.9893899204244,
+      "eval_loss": 2.0832369327545166,
+      "eval_runtime": 32.8433,
+      "eval_samples_per_second": 38.608,
+      "eval_steps_per_second": 0.609,
+      "step": 3958
+    },
+    {
+      "epoch": 84.03183023872678,
+      "grad_norm": 0.30807225168642,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 3960
+    },
+    {
+      "epoch": 84.24403183023873,
+      "grad_norm": 0.36812175135622494,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 3970
+    },
+    {
+      "epoch": 84.45623342175067,
+      "grad_norm": 0.369807803862527,
+      "learning_rate": 5e-06,
+      "loss": 0.0036,
+      "step": 3980
+    },
+    {
+      "epoch": 84.6684350132626,
+      "grad_norm": 0.39775427720504497,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 3990
+    },
+    {
+      "epoch": 84.88063660477454,
+      "grad_norm": 0.40370336788928685,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 4000
+    },
+    {
+      "epoch": 84.9867374005305,
+      "eval_loss": 2.062901020050049,
+      "eval_runtime": 32.7157,
+      "eval_samples_per_second": 38.758,
+      "eval_steps_per_second": 0.611,
+      "step": 4005
+    },
+    {
+      "epoch": 85.09283819628648,
+      "grad_norm": 0.3738072261450451,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 4010
+    },
+    {
+      "epoch": 85.3050397877984,
+      "grad_norm": 0.3795696496333657,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 4020
+    },
+    {
+      "epoch": 85.51724137931035,
+      "grad_norm": 0.38039726228824045,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 4030
+    },
+    {
+      "epoch": 85.72944297082228,
+      "grad_norm": 0.3713007889093348,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 4040
+    },
+    {
+      "epoch": 85.94164456233422,
+      "grad_norm": 0.37549610663101146,
+      "learning_rate": 5e-06,
+      "loss": 0.0034,
+      "step": 4050
+    },
+    {
+      "epoch": 85.9840848806366,
+      "eval_loss": 2.139768600463867,
+      "eval_runtime": 32.9089,
+      "eval_samples_per_second": 38.531,
+      "eval_steps_per_second": 0.608,
+      "step": 4052
+    },
+    {
+      "epoch": 86.15384615384616,
+      "grad_norm": 0.3715883533673372,
+      "learning_rate": 5e-06,
+      "loss": 0.0031,
+      "step": 4060
+    },
+    {
+      "epoch": 86.36604774535809,
+      "grad_norm": 0.3641808355872779,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 4070
+    },
+    {
+      "epoch": 86.57824933687003,
+      "grad_norm": 0.34484938990099384,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 4080
+    },
+    {
+      "epoch": 86.79045092838196,
+      "grad_norm": 0.3959007738714927,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 4090
+    },
+    {
+      "epoch": 86.9814323607427,
+      "eval_loss": 2.1202690601348877,
+      "eval_runtime": 32.6798,
+      "eval_samples_per_second": 38.801,
+      "eval_steps_per_second": 0.612,
+      "step": 4099
+    },
+    {
+      "epoch": 87.0026525198939,
+      "grad_norm": 1.2065263867474234,
+      "learning_rate": 5e-06,
+      "loss": 0.0037,
+      "step": 4100
+    },
+    {
+      "epoch": 87.21485411140584,
+      "grad_norm": 0.38654766276954855,
+      "learning_rate": 5e-06,
+      "loss": 0.0029,
+      "step": 4110
+    },
+    {
+      "epoch": 87.42705570291777,
+      "grad_norm": 0.35185210725163113,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 4120
+    },
+    {
+      "epoch": 87.63925729442971,
+      "grad_norm": 0.3676215168760901,
+      "learning_rate": 5e-06,
+      "loss": 0.003,
+      "step": 4130
+    },
+    {
+      "epoch": 87.85145888594164,
+      "grad_norm": 0.377935707153379,
+      "learning_rate": 5e-06,
+      "loss": 0.0032,
+      "step": 4140
+    },
+    {
+      "epoch": 88.0,
+      "eval_loss": 2.1025404930114746,
+      "eval_runtime": 32.6763,
+      "eval_samples_per_second": 38.805,
+      "eval_steps_per_second": 0.612,
+      "step": 4147
+    },
+    {
+      "epoch": 88.06366047745358,
+      "grad_norm": 0.36496057691677547,
+      "learning_rate": 5e-06,
+      "loss": 0.003,
+      "step": 4150
+    },
+    {
+      "epoch": 88.27586206896552,
+      "grad_norm": 0.3627213451338797,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 4160
+    },
+    {
+      "epoch": 88.48806366047745,
+      "grad_norm": 0.376136307650028,
+      "learning_rate": 5e-06,
+      "loss": 0.0033,
+      "step": 4170
+    },
+    {
+      "epoch": 88.70026525198939,
+      "grad_norm": 0.36039763340117825,
+      "learning_rate": 5e-06,
+      "loss": 0.0035,
+      "step": 4180
+    },
+    {
+      "epoch": 88.76392572944297,
+      "eval_loss": 2.0839004516601562,
+      "eval_runtime": 32.6684,
+      "eval_samples_per_second": 38.814,
+      "eval_steps_per_second": 0.612,
+      "step": 4183
+    },
+    {
+      "epoch": 88.76392572944297,
+      "step": 4183,
+      "total_flos": 7006471418019840.0,
+      "train_loss": 0.08750477477266028,
+      "train_runtime": 144988.2671,
+      "train_samples_per_second": 14.779,
+      "train_steps_per_second": 0.029
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4183,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 89,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7006471418019840.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed