End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +3238 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: oh_scale_x.25_compute_equal
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # oh_scale_x.25_compute_equal
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.3639

 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: oh_scale_x.25_compute_equal
 # oh_scale_x.25_compute_equal
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on the mlfoundations-dev/oh-dcft-v1.3_no-curation_gpt-4o-mini_scale_0.25x dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.3639

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 45.93475177304965,
+    "eval_loss": 2.3638699054718018,
+    "eval_runtime": 62.0556,
+    "eval_samples_per_second": 38.224,
+    "eval_steps_per_second": 0.612,
+    "total_flos": 6780341389885440.0,
+    "train_loss": 0.15424752476433726,
+    "train_runtime": 138136.8738,
+    "train_samples_per_second": 15.006,
+    "train_steps_per_second": 0.029
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 45.93475177304965,
+    "eval_loss": 2.3638699054718018,
+    "eval_runtime": 62.0556,
+    "eval_samples_per_second": 38.224,
+    "eval_steps_per_second": 0.612
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 45.93475177304965,
+    "total_flos": 6780341389885440.0,
+    "train_loss": 0.15424752476433726,
+    "train_runtime": 138136.8738,
+    "train_samples_per_second": 15.006,
+    "train_steps_per_second": 0.029
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3238 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 45.93475177304965,
+  "eval_steps": 500,
+  "global_step": 4048,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11347517730496454,
+      "grad_norm": 2.3027738179328545,
+      "learning_rate": 5e-06,
+      "loss": 1.0453,
+      "step": 10
+    },
+    {
+      "epoch": 0.22695035460992907,
+      "grad_norm": 2.6921655569071072,
+      "learning_rate": 5e-06,
+      "loss": 0.9428,
+      "step": 20
+    },
+    {
+      "epoch": 0.3404255319148936,
+      "grad_norm": 3.106201627631174,
+      "learning_rate": 5e-06,
+      "loss": 0.9023,
+      "step": 30
+    },
+    {
+      "epoch": 0.45390070921985815,
+      "grad_norm": 1.1134207204878144,
+      "learning_rate": 5e-06,
+      "loss": 0.8741,
+      "step": 40
+    },
+    {
+      "epoch": 0.5673758865248227,
+      "grad_norm": 1.5570541261244333,
+      "learning_rate": 5e-06,
+      "loss": 0.8561,
+      "step": 50
+    },
+    {
+      "epoch": 0.6808510638297872,
+      "grad_norm": 1.2304331395600878,
+      "learning_rate": 5e-06,
+      "loss": 0.836,
+      "step": 60
+    },
+    {
+      "epoch": 0.7943262411347518,
+      "grad_norm": 0.8463468873895378,
+      "learning_rate": 5e-06,
+      "loss": 0.8276,
+      "step": 70
+    },
+    {
+      "epoch": 0.9078014184397163,
+      "grad_norm": 1.228944154284785,
+      "learning_rate": 5e-06,
+      "loss": 0.8194,
+      "step": 80
+    },
+    {
+      "epoch": 0.9985815602836879,
+      "eval_loss": 0.8080979585647583,
+      "eval_runtime": 60.7189,
+      "eval_samples_per_second": 39.065,
+      "eval_steps_per_second": 0.626,
+      "step": 88
+    },
+    {
+      "epoch": 1.0212765957446808,
+      "grad_norm": 0.7120675758086178,
+      "learning_rate": 5e-06,
+      "loss": 0.8716,
+      "step": 90
+    },
+    {
+      "epoch": 1.1347517730496455,
+      "grad_norm": 0.5665363188375315,
+      "learning_rate": 5e-06,
+      "loss": 0.7617,
+      "step": 100
+    },
+    {
+      "epoch": 1.24822695035461,
+      "grad_norm": 0.7501407091895282,
+      "learning_rate": 5e-06,
+      "loss": 0.7499,
+      "step": 110
+    },
+    {
+      "epoch": 1.3617021276595744,
+      "grad_norm": 0.8887026186759622,
+      "learning_rate": 5e-06,
+      "loss": 0.7506,
+      "step": 120
+    },
+    {
+      "epoch": 1.475177304964539,
+      "grad_norm": 0.9778742655108387,
+      "learning_rate": 5e-06,
+      "loss": 0.7511,
+      "step": 130
+    },
+    {
+      "epoch": 1.5886524822695036,
+      "grad_norm": 0.9687851476126442,
+      "learning_rate": 5e-06,
+      "loss": 0.7457,
+      "step": 140
+    },
+    {
+      "epoch": 1.702127659574468,
+      "grad_norm": 0.9341422096680074,
+      "learning_rate": 5e-06,
+      "loss": 0.7436,
+      "step": 150
+    },
+    {
+      "epoch": 1.8156028368794326,
+      "grad_norm": 1.127646790775998,
+      "learning_rate": 5e-06,
+      "loss": 0.7376,
+      "step": 160
+    },
+    {
+      "epoch": 1.9290780141843973,
+      "grad_norm": 0.8756484845113162,
+      "learning_rate": 5e-06,
+      "loss": 0.7435,
+      "step": 170
+    },
+    {
+      "epoch": 1.9971631205673759,
+      "eval_loss": 0.7863057851791382,
+      "eval_runtime": 61.6081,
+      "eval_samples_per_second": 38.501,
+      "eval_steps_per_second": 0.617,
+      "step": 176
+    },
+    {
+      "epoch": 2.0425531914893615,
+      "grad_norm": 1.2181284988254628,
+      "learning_rate": 5e-06,
+      "loss": 0.7763,
+      "step": 180
+    },
+    {
+      "epoch": 2.1560283687943262,
+      "grad_norm": 1.1289889327658702,
+      "learning_rate": 5e-06,
+      "loss": 0.6823,
+      "step": 190
+    },
+    {
+      "epoch": 2.269503546099291,
+      "grad_norm": 0.8462647029938217,
+      "learning_rate": 5e-06,
+      "loss": 0.6753,
+      "step": 200
+    },
+    {
+      "epoch": 2.382978723404255,
+      "grad_norm": 0.7466282838810588,
+      "learning_rate": 5e-06,
+      "loss": 0.6782,
+      "step": 210
+    },
+    {
+      "epoch": 2.49645390070922,
+      "grad_norm": 1.5023120623230148,
+      "learning_rate": 5e-06,
+      "loss": 0.6788,
+      "step": 220
+    },
+    {
+      "epoch": 2.6099290780141846,
+      "grad_norm": 1.4790514704268571,
+      "learning_rate": 5e-06,
+      "loss": 0.6823,
+      "step": 230
+    },
+    {
+      "epoch": 2.723404255319149,
+      "grad_norm": 1.400821347106736,
+      "learning_rate": 5e-06,
+      "loss": 0.6851,
+      "step": 240
+    },
+    {
+      "epoch": 2.8368794326241136,
+      "grad_norm": 1.4979326003170097,
+      "learning_rate": 5e-06,
+      "loss": 0.6837,
+      "step": 250
+    },
+    {
+      "epoch": 2.950354609929078,
+      "grad_norm": 1.0055414499863942,
+      "learning_rate": 5e-06,
+      "loss": 0.6821,
+      "step": 260
+    },
+    {
+      "epoch": 2.9957446808510637,
+      "eval_loss": 0.7851720452308655,
+      "eval_runtime": 61.627,
+      "eval_samples_per_second": 38.49,
+      "eval_steps_per_second": 0.617,
+      "step": 264
+    },
+    {
+      "epoch": 3.0638297872340425,
+      "grad_norm": 1.6752123419187452,
+      "learning_rate": 5e-06,
+      "loss": 0.7145,
+      "step": 270
+    },
+    {
+      "epoch": 3.1773049645390072,
+      "grad_norm": 0.9962830747356258,
+      "learning_rate": 5e-06,
+      "loss": 0.6212,
+      "step": 280
+    },
+    {
+      "epoch": 3.2907801418439715,
+      "grad_norm": 0.972324563152424,
+      "learning_rate": 5e-06,
+      "loss": 0.6279,
+      "step": 290
+    },
+    {
+      "epoch": 3.404255319148936,
+      "grad_norm": 1.148916684368535,
+      "learning_rate": 5e-06,
+      "loss": 0.6234,
+      "step": 300
+    },
+    {
+      "epoch": 3.5177304964539005,
+      "grad_norm": 0.9255677977296973,
+      "learning_rate": 5e-06,
+      "loss": 0.6239,
+      "step": 310
+    },
+    {
+      "epoch": 3.631205673758865,
+      "grad_norm": 0.8748135331658988,
+      "learning_rate": 5e-06,
+      "loss": 0.6263,
+      "step": 320
+    },
+    {
+      "epoch": 3.74468085106383,
+      "grad_norm": 0.7126896324984585,
+      "learning_rate": 5e-06,
+      "loss": 0.6352,
+      "step": 330
+    },
+    {
+      "epoch": 3.8581560283687946,
+      "grad_norm": 0.7000351915001751,
+      "learning_rate": 5e-06,
+      "loss": 0.6357,
+      "step": 340
+    },
+    {
+      "epoch": 3.971631205673759,
+      "grad_norm": 0.9269318996308881,
+      "learning_rate": 5e-06,
+      "loss": 0.6325,
+      "step": 350
+    },
+    {
+      "epoch": 3.9943262411347518,
+      "eval_loss": 0.7985679507255554,
+      "eval_runtime": 61.9924,
+      "eval_samples_per_second": 38.263,
+      "eval_steps_per_second": 0.613,
+      "step": 352
+    },
+    {
+      "epoch": 4.085106382978723,
+      "grad_norm": 1.3604073736131337,
+      "learning_rate": 5e-06,
+      "loss": 0.6418,
+      "step": 360
+    },
+    {
+      "epoch": 4.198581560283688,
+      "grad_norm": 1.064592781888281,
+      "learning_rate": 5e-06,
+      "loss": 0.57,
+      "step": 370
+    },
+    {
+      "epoch": 4.3120567375886525,
+      "grad_norm": 1.0456672732780632,
+      "learning_rate": 5e-06,
+      "loss": 0.5737,
+      "step": 380
+    },
+    {
+      "epoch": 4.425531914893617,
+      "grad_norm": 0.8594065634354029,
+      "learning_rate": 5e-06,
+      "loss": 0.5751,
+      "step": 390
+    },
+    {
+      "epoch": 4.539007092198582,
+      "grad_norm": 0.8133394847298308,
+      "learning_rate": 5e-06,
+      "loss": 0.5814,
+      "step": 400
+    },
+    {
+      "epoch": 4.652482269503546,
+      "grad_norm": 0.8444234885021146,
+      "learning_rate": 5e-06,
+      "loss": 0.5767,
+      "step": 410
+    },
+    {
+      "epoch": 4.76595744680851,
+      "grad_norm": 0.9079077917670704,
+      "learning_rate": 5e-06,
+      "loss": 0.5791,
+      "step": 420
+    },
+    {
+      "epoch": 4.879432624113475,
+      "grad_norm": 0.9376422685057096,
+      "learning_rate": 5e-06,
+      "loss": 0.5868,
+      "step": 430
+    },
+    {
+      "epoch": 4.99290780141844,
+      "grad_norm": 0.973277316302177,
+      "learning_rate": 5e-06,
+      "loss": 0.5795,
+      "step": 440
+    },
+    {
+      "epoch": 4.99290780141844,
+      "eval_loss": 0.8202199339866638,
+      "eval_runtime": 61.7078,
+      "eval_samples_per_second": 38.439,
+      "eval_steps_per_second": 0.616,
+      "step": 440
+    },
+    {
+      "epoch": 5.1063829787234045,
+      "grad_norm": 1.3674880756976207,
+      "learning_rate": 5e-06,
+      "loss": 0.5655,
+      "step": 450
+    },
+    {
+      "epoch": 5.219858156028369,
+      "grad_norm": 1.7541639365749628,
+      "learning_rate": 5e-06,
+      "loss": 0.509,
+      "step": 460
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 1.5509973437926652,
+      "learning_rate": 5e-06,
+      "loss": 0.5168,
+      "step": 470
+    },
+    {
+      "epoch": 5.446808510638298,
+      "grad_norm": 1.1574291804275065,
+      "learning_rate": 5e-06,
+      "loss": 0.5168,
+      "step": 480
+    },
+    {
+      "epoch": 5.560283687943262,
+      "grad_norm": 2.2427910706765473,
+      "learning_rate": 5e-06,
+      "loss": 0.5192,
+      "step": 490
+    },
+    {
+      "epoch": 5.673758865248227,
+      "grad_norm": 1.5662018655408698,
+      "learning_rate": 5e-06,
+      "loss": 0.5153,
+      "step": 500
+    },
+    {
+      "epoch": 5.787234042553192,
+      "grad_norm": 1.1983365699034005,
+      "learning_rate": 5e-06,
+      "loss": 0.5235,
+      "step": 510
+    },
+    {
+      "epoch": 5.900709219858156,
+      "grad_norm": 0.9749148887193015,
+      "learning_rate": 5e-06,
+      "loss": 0.5193,
+      "step": 520
+    },
+    {
+      "epoch": 5.991489361702127,
+      "eval_loss": 0.8596100807189941,
+      "eval_runtime": 61.8556,
+      "eval_samples_per_second": 38.347,
+      "eval_steps_per_second": 0.614,
+      "step": 528
+    },
+    {
+      "epoch": 6.01418439716312,
+      "grad_norm": 1.9275086532414556,
+      "learning_rate": 5e-06,
+      "loss": 0.5558,
+      "step": 530
+    },
+    {
+      "epoch": 6.127659574468085,
+      "grad_norm": 1.6670293640581666,
+      "learning_rate": 5e-06,
+      "loss": 0.4668,
+      "step": 540
+    },
+    {
+      "epoch": 6.24113475177305,
+      "grad_norm": 1.4632224010725146,
+      "learning_rate": 5e-06,
+      "loss": 0.4606,
+      "step": 550
+    },
+    {
+      "epoch": 6.3546099290780145,
+      "grad_norm": 1.418941753583161,
+      "learning_rate": 5e-06,
+      "loss": 0.4659,
+      "step": 560
+    },
+    {
+      "epoch": 6.468085106382979,
+      "grad_norm": 1.2205311444987517,
+      "learning_rate": 5e-06,
+      "loss": 0.464,
+      "step": 570
+    },
+    {
+      "epoch": 6.581560283687943,
+      "grad_norm": 1.009077269752528,
+      "learning_rate": 5e-06,
+      "loss": 0.4692,
+      "step": 580
+    },
+    {
+      "epoch": 6.695035460992908,
+      "grad_norm": 0.9935626851765949,
+      "learning_rate": 5e-06,
+      "loss": 0.4726,
+      "step": 590
+    },
+    {
+      "epoch": 6.808510638297872,
+      "grad_norm": 1.6179148008775062,
+      "learning_rate": 5e-06,
+      "loss": 0.4747,
+      "step": 600
+    },
+    {
+      "epoch": 6.921985815602837,
+      "grad_norm": 1.321766747558007,
+      "learning_rate": 5e-06,
+      "loss": 0.4751,
+      "step": 610
+    },
+    {
+      "epoch": 6.990070921985816,
+      "eval_loss": 0.9138871431350708,
+      "eval_runtime": 61.7848,
+      "eval_samples_per_second": 38.391,
+      "eval_steps_per_second": 0.615,
+      "step": 616
+    },
+    {
+      "epoch": 7.035460992907802,
+      "grad_norm": 2.5479949839536995,
+      "learning_rate": 5e-06,
+      "loss": 0.4914,
+      "step": 620
+    },
+    {
+      "epoch": 7.148936170212766,
+      "grad_norm": 1.9532287720342911,
+      "learning_rate": 5e-06,
+      "loss": 0.4067,
+      "step": 630
+    },
+    {
+      "epoch": 7.26241134751773,
+      "grad_norm": 1.2471863458868895,
+      "learning_rate": 5e-06,
+      "loss": 0.407,
+      "step": 640
+    },
+    {
+      "epoch": 7.375886524822695,
+      "grad_norm": 1.380768007840979,
+      "learning_rate": 5e-06,
+      "loss": 0.4087,
+      "step": 650
+    },
+    {
+      "epoch": 7.48936170212766,
+      "grad_norm": 1.8120917410891308,
+      "learning_rate": 5e-06,
+      "loss": 0.4093,
+      "step": 660
+    },
+    {
+      "epoch": 7.602836879432624,
+      "grad_norm": 1.326806876928333,
+      "learning_rate": 5e-06,
+      "loss": 0.4097,
+      "step": 670
+    },
+    {
+      "epoch": 7.716312056737589,
+      "grad_norm": 1.6937687132719013,
+      "learning_rate": 5e-06,
+      "loss": 0.4158,
+      "step": 680
+    },
+    {
+      "epoch": 7.829787234042553,
+      "grad_norm": 1.3919385940617122,
+      "learning_rate": 5e-06,
+      "loss": 0.4179,
+      "step": 690
+    },
+    {
+      "epoch": 7.943262411347518,
+      "grad_norm": 1.7802559463891072,
+      "learning_rate": 5e-06,
+      "loss": 0.4221,
+      "step": 700
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.000566840171814,
+      "eval_runtime": 61.7709,
+      "eval_samples_per_second": 38.4,
+      "eval_steps_per_second": 0.615,
+      "step": 705
+    },
+    {
+      "epoch": 8.056737588652481,
+      "grad_norm": 2.1738021359459454,
+      "learning_rate": 5e-06,
+      "loss": 0.424,
+      "step": 710
+    },
+    {
+      "epoch": 8.170212765957446,
+      "grad_norm": 2.0438827395655847,
+      "learning_rate": 5e-06,
+      "loss": 0.3553,
+      "step": 720
+    },
+    {
+      "epoch": 8.28368794326241,
+      "grad_norm": 1.8850254362666403,
+      "learning_rate": 5e-06,
+      "loss": 0.3587,
+      "step": 730
+    },
+    {
+      "epoch": 8.397163120567376,
+      "grad_norm": 2.5094106390967035,
+      "learning_rate": 5e-06,
+      "loss": 0.3574,
+      "step": 740
+    },
+    {
+      "epoch": 8.51063829787234,
+      "grad_norm": 2.2572139568178513,
+      "learning_rate": 5e-06,
+      "loss": 0.3619,
+      "step": 750
+    },
+    {
+      "epoch": 8.624113475177305,
+      "grad_norm": 1.2704163496310845,
+      "learning_rate": 5e-06,
+      "loss": 0.3583,
+      "step": 760
+    },
+    {
+      "epoch": 8.73758865248227,
+      "grad_norm": 1.8304249534362902,
+      "learning_rate": 5e-06,
+      "loss": 0.3604,
+      "step": 770
+    },
+    {
+      "epoch": 8.851063829787234,
+      "grad_norm": 1.6235522609505653,
+      "learning_rate": 5e-06,
+      "loss": 0.363,
+      "step": 780
+    },
+    {
+      "epoch": 8.964539007092199,
+      "grad_norm": 2.126756301230373,
+      "learning_rate": 5e-06,
+      "loss": 0.3649,
+      "step": 790
+    },
+    {
+      "epoch": 8.998581560283688,
+      "eval_loss": 1.0596354007720947,
+      "eval_runtime": 62.8012,
+      "eval_samples_per_second": 37.77,
+      "eval_steps_per_second": 0.605,
+      "step": 793
+    },
+    {
+      "epoch": 9.078014184397164,
+      "grad_norm": 2.421069501768367,
+      "learning_rate": 5e-06,
+      "loss": 0.3544,
+      "step": 800
+    },
+    {
+      "epoch": 9.191489361702128,
+      "grad_norm": 1.648060940441488,
+      "learning_rate": 5e-06,
+      "loss": 0.3044,
+      "step": 810
+    },
+    {
+      "epoch": 9.304964539007091,
+      "grad_norm": 1.6084806059069598,
+      "learning_rate": 5e-06,
+      "loss": 0.3059,
+      "step": 820
+    },
+    {
+      "epoch": 9.418439716312056,
+      "grad_norm": 1.5401041921688723,
+      "learning_rate": 5e-06,
+      "loss": 0.3058,
+      "step": 830
+    },
+    {
+      "epoch": 9.53191489361702,
+      "grad_norm": 2.0293807391338143,
+      "learning_rate": 5e-06,
+      "loss": 0.3115,
+      "step": 840
+    },
+    {
+      "epoch": 9.645390070921986,
+      "grad_norm": 2.314645079025493,
+      "learning_rate": 5e-06,
+      "loss": 0.3145,
+      "step": 850
+    },
+    {
+      "epoch": 9.75886524822695,
+      "grad_norm": 1.5570050085916418,
+      "learning_rate": 5e-06,
+      "loss": 0.3106,
+      "step": 860
+    },
+    {
+      "epoch": 9.872340425531915,
+      "grad_norm": 1.5311554302680037,
+      "learning_rate": 5e-06,
+      "loss": 0.3138,
+      "step": 870
+    },
+    {
+      "epoch": 9.98581560283688,
+      "grad_norm": 1.5287839268465846,
+      "learning_rate": 5e-06,
+      "loss": 0.3192,
+      "step": 880
+    },
+    {
+      "epoch": 9.997163120567375,
+      "eval_loss": 1.1392488479614258,
+      "eval_runtime": 62.4865,
+      "eval_samples_per_second": 37.96,
+      "eval_steps_per_second": 0.608,
+      "step": 881
+    },
+    {
+      "epoch": 10.099290780141844,
+      "grad_norm": 2.72751141563365,
+      "learning_rate": 5e-06,
+      "loss": 0.2913,
+      "step": 890
+    },
+    {
+      "epoch": 10.212765957446809,
+      "grad_norm": 1.695112625785905,
+      "learning_rate": 5e-06,
+      "loss": 0.2564,
+      "step": 900
+    },
+    {
+      "epoch": 10.326241134751774,
+      "grad_norm": 2.3429971574606965,
+      "learning_rate": 5e-06,
+      "loss": 0.2557,
+      "step": 910
+    },
+    {
+      "epoch": 10.439716312056738,
+      "grad_norm": 1.8027953487068278,
+      "learning_rate": 5e-06,
+      "loss": 0.2598,
+      "step": 920
+    },
+    {
+      "epoch": 10.553191489361701,
+      "grad_norm": 1.638203817216446,
+      "learning_rate": 5e-06,
+      "loss": 0.2629,
+      "step": 930
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 1.7806426687502075,
+      "learning_rate": 5e-06,
+      "loss": 0.2634,
+      "step": 940
+    },
+    {
+      "epoch": 10.78014184397163,
+      "grad_norm": 1.5926893822981327,
+      "learning_rate": 5e-06,
+      "loss": 0.2638,
+      "step": 950
+    },
+    {
+      "epoch": 10.893617021276595,
+      "grad_norm": 1.7428329081390457,
+      "learning_rate": 5e-06,
+      "loss": 0.2658,
+      "step": 960
+    },
+    {
+      "epoch": 10.995744680851065,
+      "eval_loss": 1.251742959022522,
+      "eval_runtime": 61.8255,
+      "eval_samples_per_second": 38.366,
+      "eval_steps_per_second": 0.615,
+      "step": 969
+    },
+    {
+      "epoch": 11.00709219858156,
+      "grad_norm": 3.9263311549935636,
+      "learning_rate": 5e-06,
+      "loss": 0.2848,
+      "step": 970
+    },
+    {
+      "epoch": 11.120567375886525,
+      "grad_norm": 2.6049326617817044,
+      "learning_rate": 5e-06,
+      "loss": 0.2138,
+      "step": 980
+    },
+    {
+      "epoch": 11.23404255319149,
+      "grad_norm": 1.6222017763370542,
+      "learning_rate": 5e-06,
+      "loss": 0.213,
+      "step": 990
+    },
+    {
+      "epoch": 11.347517730496454,
+      "grad_norm": 2.5363164551454944,
+      "learning_rate": 5e-06,
+      "loss": 0.2145,
+      "step": 1000
+    },
+    {
+      "epoch": 11.460992907801419,
+      "grad_norm": 1.4653575698277383,
+      "learning_rate": 5e-06,
+      "loss": 0.2126,
+      "step": 1010
+    },
+    {
+      "epoch": 11.574468085106384,
+      "grad_norm": 1.661578038944481,
+      "learning_rate": 5e-06,
+      "loss": 0.2199,
+      "step": 1020
+    },
+    {
+      "epoch": 11.687943262411348,
+      "grad_norm": 1.6170075184374815,
+      "learning_rate": 5e-06,
+      "loss": 0.216,
+      "step": 1030
+    },
+    {
+      "epoch": 11.801418439716311,
+      "grad_norm": 2.84154531134498,
+      "learning_rate": 5e-06,
+      "loss": 0.2248,
+      "step": 1040
+    },
+    {
+      "epoch": 11.914893617021276,
+      "grad_norm": 2.304374165266374,
+      "learning_rate": 5e-06,
+      "loss": 0.2232,
+      "step": 1050
+    },
+    {
+      "epoch": 11.994326241134752,
+      "eval_loss": 1.3437931537628174,
+      "eval_runtime": 62.6563,
+      "eval_samples_per_second": 37.857,
+      "eval_steps_per_second": 0.606,
+      "step": 1057
+    },
+    {
+      "epoch": 12.02836879432624,
+      "grad_norm": 3.171954263474723,
+      "learning_rate": 5e-06,
+      "loss": 0.2283,
+      "step": 1060
+    },
+    {
+      "epoch": 12.141843971631205,
+      "grad_norm": 2.2055268906349044,
+      "learning_rate": 5e-06,
+      "loss": 0.1732,
+      "step": 1070
+    },
+    {
+      "epoch": 12.25531914893617,
+      "grad_norm": 1.966744769081506,
+      "learning_rate": 5e-06,
+      "loss": 0.1702,
+      "step": 1080
+    },
+    {
+      "epoch": 12.368794326241135,
+      "grad_norm": 1.4350271294458334,
+      "learning_rate": 5e-06,
+      "loss": 0.1708,
+      "step": 1090
+    },
+    {
+      "epoch": 12.4822695035461,
+      "grad_norm": 2.1908087303160437,
+      "learning_rate": 5e-06,
+      "loss": 0.1716,
+      "step": 1100
+    },
+    {
+      "epoch": 12.595744680851064,
+      "grad_norm": 2.1524139714858364,
+      "learning_rate": 5e-06,
+      "loss": 0.1769,
+      "step": 1110
+    },
+    {
+      "epoch": 12.709219858156029,
+      "grad_norm": 2.315412876413917,
+      "learning_rate": 5e-06,
+      "loss": 0.1774,
+      "step": 1120
+    },
+    {
+      "epoch": 12.822695035460994,
+      "grad_norm": 1.779835602481138,
+      "learning_rate": 5e-06,
+      "loss": 0.1818,
+      "step": 1130
+    },
+    {
+      "epoch": 12.936170212765958,
+      "grad_norm": 1.5338508372566295,
+      "learning_rate": 5e-06,
+      "loss": 0.1817,
+      "step": 1140
+    },
+    {
+      "epoch": 12.99290780141844,
+      "eval_loss": 1.4415781497955322,
+      "eval_runtime": 62.5739,
+      "eval_samples_per_second": 37.907,
+      "eval_steps_per_second": 0.607,
+      "step": 1145
+    },
+    {
+      "epoch": 13.049645390070921,
+      "grad_norm": 2.4012185669865347,
+      "learning_rate": 5e-06,
+      "loss": 0.1775,
+      "step": 1150
+    },
+    {
+      "epoch": 13.163120567375886,
+      "grad_norm": 2.6033021021980955,
+      "learning_rate": 5e-06,
+      "loss": 0.1378,
+      "step": 1160
+    },
+    {
+      "epoch": 13.27659574468085,
+      "grad_norm": 1.70623847553698,
+      "learning_rate": 5e-06,
+      "loss": 0.1358,
+      "step": 1170
+    },
+    {
+      "epoch": 13.390070921985815,
+      "grad_norm": 2.2305608008154665,
+      "learning_rate": 5e-06,
+      "loss": 0.1364,
+      "step": 1180
+    },
+    {
+      "epoch": 13.50354609929078,
+      "grad_norm": 2.7083160759097016,
+      "learning_rate": 5e-06,
+      "loss": 0.137,
+      "step": 1190
+    },
+    {
+      "epoch": 13.617021276595745,
+      "grad_norm": 2.69713739478201,
+      "learning_rate": 5e-06,
+      "loss": 0.1398,
+      "step": 1200
+    },
+    {
+      "epoch": 13.73049645390071,
+      "grad_norm": 2.3436045100684475,
+      "learning_rate": 5e-06,
+      "loss": 0.1399,
+      "step": 1210
+    },
+    {
+      "epoch": 13.843971631205674,
+      "grad_norm": 1.6050917746136801,
+      "learning_rate": 5e-06,
+      "loss": 0.1412,
+      "step": 1220
+    },
+    {
+      "epoch": 13.957446808510639,
+      "grad_norm": 2.5589880236873546,
+      "learning_rate": 5e-06,
+      "loss": 0.1418,
+      "step": 1230
+    },
+    {
+      "epoch": 13.991489361702127,
+      "eval_loss": 1.5400274991989136,
+      "eval_runtime": 62.1433,
+      "eval_samples_per_second": 38.17,
+      "eval_steps_per_second": 0.611,
+      "step": 1233
+    },
+    {
+      "epoch": 14.070921985815604,
+      "grad_norm": 2.6974199938795715,
+      "learning_rate": 5e-06,
+      "loss": 0.1335,
+      "step": 1240
+    },
+    {
+      "epoch": 14.184397163120567,
+      "grad_norm": 1.669747755191835,
+      "learning_rate": 5e-06,
+      "loss": 0.1045,
+      "step": 1250
+    },
+    {
+      "epoch": 14.297872340425531,
+      "grad_norm": 1.6701536146823392,
+      "learning_rate": 5e-06,
+      "loss": 0.1047,
+      "step": 1260
+    },
+    {
+      "epoch": 14.411347517730496,
+      "grad_norm": 1.5692309327841514,
+      "learning_rate": 5e-06,
+      "loss": 0.1051,
+      "step": 1270
+    },
+    {
+      "epoch": 14.52482269503546,
+      "grad_norm": 1.5854537259008437,
+      "learning_rate": 5e-06,
+      "loss": 0.1092,
+      "step": 1280
+    },
+    {
+      "epoch": 14.638297872340425,
+      "grad_norm": 2.1977634811831757,
+      "learning_rate": 5e-06,
+      "loss": 0.1103,
+      "step": 1290
+    },
+    {
+      "epoch": 14.75177304964539,
+      "grad_norm": 1.4935460100019156,
+      "learning_rate": 5e-06,
+      "loss": 0.112,
+      "step": 1300
+    },
+    {
+      "epoch": 14.865248226950355,
+      "grad_norm": 2.2338875049474316,
+      "learning_rate": 5e-06,
+      "loss": 0.114,
+      "step": 1310
+    },
+    {
+      "epoch": 14.97872340425532,
+      "grad_norm": 1.6452083463902718,
+      "learning_rate": 5e-06,
+      "loss": 0.1144,
+      "step": 1320
+    },
+    {
+      "epoch": 14.990070921985815,
+      "eval_loss": 1.6749097108840942,
+      "eval_runtime": 69.4669,
+      "eval_samples_per_second": 34.146,
+      "eval_steps_per_second": 0.547,
+      "step": 1321
+    },
+    {
+      "epoch": 15.092198581560284,
+      "grad_norm": 2.9909865909950932,
+      "learning_rate": 5e-06,
+      "loss": 0.0978,
+      "step": 1330
+    },
+    {
+      "epoch": 15.205673758865249,
+      "grad_norm": 1.753525186875363,
+      "learning_rate": 5e-06,
+      "loss": 0.0819,
+      "step": 1340
+    },
+    {
+      "epoch": 15.319148936170214,
+      "grad_norm": 1.49718571453873,
+      "learning_rate": 5e-06,
+      "loss": 0.0822,
+      "step": 1350
+    },
+    {
+      "epoch": 15.432624113475176,
+      "grad_norm": 1.5460276195217901,
+      "learning_rate": 5e-06,
+      "loss": 0.0842,
+      "step": 1360
+    },
+    {
+      "epoch": 15.546099290780141,
+      "grad_norm": 2.2302829005472993,
+      "learning_rate": 5e-06,
+      "loss": 0.0846,
+      "step": 1370
+    },
+    {
+      "epoch": 15.659574468085106,
+      "grad_norm": 1.8466734512848562,
+      "learning_rate": 5e-06,
+      "loss": 0.0854,
+      "step": 1380
+    },
+    {
+      "epoch": 15.77304964539007,
+      "grad_norm": 1.826155456821189,
+      "learning_rate": 5e-06,
+      "loss": 0.0859,
+      "step": 1390
+    },
+    {
+      "epoch": 15.886524822695035,
+      "grad_norm": 1.7480925191865653,
+      "learning_rate": 5e-06,
+      "loss": 0.0873,
+      "step": 1400
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 4.703406049536698,
+      "learning_rate": 5e-06,
+      "loss": 0.0932,
+      "step": 1410
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.773341178894043,
+      "eval_runtime": 69.8689,
+      "eval_samples_per_second": 33.949,
+      "eval_steps_per_second": 0.544,
+      "step": 1410
+    },
+    {
+      "epoch": 16.113475177304963,
+      "grad_norm": 2.1931332653452653,
+      "learning_rate": 5e-06,
+      "loss": 0.0618,
+      "step": 1420
+    },
+    {
+      "epoch": 16.22695035460993,
+      "grad_norm": 1.561959511527612,
+      "learning_rate": 5e-06,
+      "loss": 0.0616,
+      "step": 1430
+    },
+    {
+      "epoch": 16.340425531914892,
+      "grad_norm": 2.08368980727909,
+      "learning_rate": 5e-06,
+      "loss": 0.0618,
+      "step": 1440
+    },
+    {
+      "epoch": 16.45390070921986,
+      "grad_norm": 2.633735186380944,
+      "learning_rate": 5e-06,
+      "loss": 0.0632,
+      "step": 1450
+    },
+    {
+      "epoch": 16.56737588652482,
+      "grad_norm": 1.6666433686469015,
+      "learning_rate": 5e-06,
+      "loss": 0.0628,
+      "step": 1460
+    },
+    {
+      "epoch": 16.680851063829788,
+      "grad_norm": 1.5125810239930932,
+      "learning_rate": 5e-06,
+      "loss": 0.063,
+      "step": 1470
+    },
+    {
+      "epoch": 16.79432624113475,
+      "grad_norm": 2.2573637438259464,
+      "learning_rate": 5e-06,
+      "loss": 0.0648,
+      "step": 1480
+    },
+    {
+      "epoch": 16.907801418439718,
+      "grad_norm": 1.766704303804737,
+      "learning_rate": 5e-06,
+      "loss": 0.0669,
+      "step": 1490
+    },
+    {
+      "epoch": 16.99858156028369,
+      "eval_loss": 1.9060131311416626,
+      "eval_runtime": 69.1764,
+      "eval_samples_per_second": 34.289,
+      "eval_steps_per_second": 0.549,
+      "step": 1498
+    },
+    {
+      "epoch": 17.02127659574468,
+      "grad_norm": 2.8884446061839686,
+      "learning_rate": 5e-06,
+      "loss": 0.067,
+      "step": 1500
+    },
+    {
+      "epoch": 17.134751773049647,
+      "grad_norm": 1.4375657511058568,
+      "learning_rate": 5e-06,
+      "loss": 0.045,
+      "step": 1510
+    },
+    {
+      "epoch": 17.24822695035461,
+      "grad_norm": 1.4802152522135432,
+      "learning_rate": 5e-06,
+      "loss": 0.0447,
+      "step": 1520
+    },
+    {
+      "epoch": 17.361702127659573,
+      "grad_norm": 1.614881692739521,
+      "learning_rate": 5e-06,
+      "loss": 0.0473,
+      "step": 1530
+    },
+    {
+      "epoch": 17.47517730496454,
+      "grad_norm": 2.4617340461694472,
+      "learning_rate": 5e-06,
+      "loss": 0.0491,
+      "step": 1540
+    },
+    {
+      "epoch": 17.588652482269502,
+      "grad_norm": 1.4499102037181577,
+      "learning_rate": 5e-06,
+      "loss": 0.0483,
+      "step": 1550
+    },
+    {
+      "epoch": 17.70212765957447,
+      "grad_norm": 1.6979894468070986,
+      "learning_rate": 5e-06,
+      "loss": 0.0489,
+      "step": 1560
+    },
+    {
+      "epoch": 17.81560283687943,
+      "grad_norm": 2.081624941686834,
+      "learning_rate": 5e-06,
+      "loss": 0.0501,
+      "step": 1570
+    },
+    {
+      "epoch": 17.929078014184398,
+      "grad_norm": 1.9921542957081264,
+      "learning_rate": 5e-06,
+      "loss": 0.0506,
+      "step": 1580
+    },
+    {
+      "epoch": 17.997163120567375,
+      "eval_loss": 1.9450756311416626,
+      "eval_runtime": 68.8214,
+      "eval_samples_per_second": 34.466,
+      "eval_steps_per_second": 0.552,
+      "step": 1586
+    },
+    {
+      "epoch": 18.04255319148936,
+      "grad_norm": 1.9224844379964918,
+      "learning_rate": 5e-06,
+      "loss": 0.0503,
+      "step": 1590
+    },
+    {
+      "epoch": 18.156028368794328,
+      "grad_norm": 1.714407414612998,
+      "learning_rate": 5e-06,
+      "loss": 0.0354,
+      "step": 1600
+    },
+    {
+      "epoch": 18.26950354609929,
+      "grad_norm": 1.380425999820701,
+      "learning_rate": 5e-06,
+      "loss": 0.036,
+      "step": 1610
+    },
+    {
+      "epoch": 18.382978723404257,
+      "grad_norm": 1.5291382013616857,
+      "learning_rate": 5e-06,
+      "loss": 0.0386,
+      "step": 1620
+    },
+    {
+      "epoch": 18.49645390070922,
+      "grad_norm": 2.2541583387536037,
+      "learning_rate": 5e-06,
+      "loss": 0.0399,
+      "step": 1630
+    },
+    {
+      "epoch": 18.609929078014183,
+      "grad_norm": 1.7584069820913808,
+      "learning_rate": 5e-06,
+      "loss": 0.0407,
+      "step": 1640
+    },
+    {
+      "epoch": 18.72340425531915,
+      "grad_norm": 1.7575163459677958,
+      "learning_rate": 5e-06,
+      "loss": 0.0408,
+      "step": 1650
+    },
+    {
+      "epoch": 18.836879432624112,
+      "grad_norm": 1.4369028755815154,
+      "learning_rate": 5e-06,
+      "loss": 0.04,
+      "step": 1660
+    },
+    {
+      "epoch": 18.95035460992908,
+      "grad_norm": 1.9850726261264064,
+      "learning_rate": 5e-06,
+      "loss": 0.0412,
+      "step": 1670
+    },
+    {
+      "epoch": 18.995744680851065,
+      "eval_loss": 2.018162727355957,
+      "eval_runtime": 62.4156,
+      "eval_samples_per_second": 38.003,
+      "eval_steps_per_second": 0.609,
+      "step": 1674
+    },
+    {
+      "epoch": 19.06382978723404,
+      "grad_norm": 1.501965463597226,
+      "learning_rate": 5e-06,
+      "loss": 0.0382,
+      "step": 1680
+    },
+    {
+      "epoch": 19.177304964539008,
+      "grad_norm": 1.952580410332778,
+      "learning_rate": 5e-06,
+      "loss": 0.0306,
+      "step": 1690
+    },
+    {
+      "epoch": 19.29078014184397,
+      "grad_norm": 1.729911113753904,
+      "learning_rate": 5e-06,
+      "loss": 0.0306,
+      "step": 1700
+    },
+    {
+      "epoch": 19.404255319148938,
+      "grad_norm": 1.5141444330801705,
+      "learning_rate": 5e-06,
+      "loss": 0.0304,
+      "step": 1710
+    },
+    {
+      "epoch": 19.5177304964539,
+      "grad_norm": 1.3870058186319074,
+      "learning_rate": 5e-06,
+      "loss": 0.031,
+      "step": 1720
+    },
+    {
+      "epoch": 19.631205673758867,
+      "grad_norm": 1.8134623582061118,
+      "learning_rate": 5e-06,
+      "loss": 0.0321,
+      "step": 1730
+    },
+    {
+      "epoch": 19.74468085106383,
+      "grad_norm": 1.699089186796663,
+      "learning_rate": 5e-06,
+      "loss": 0.034,
+      "step": 1740
+    },
+    {
+      "epoch": 19.858156028368793,
+      "grad_norm": 1.3806789087183744,
+      "learning_rate": 5e-06,
+      "loss": 0.034,
+      "step": 1750
+    },
+    {
+      "epoch": 19.97163120567376,
+      "grad_norm": 1.4266442973936173,
+      "learning_rate": 5e-06,
+      "loss": 0.0336,
+      "step": 1760
+    },
+    {
+      "epoch": 19.99432624113475,
+      "eval_loss": 2.0948634147644043,
+      "eval_runtime": 62.5678,
+      "eval_samples_per_second": 37.911,
+      "eval_steps_per_second": 0.607,
+      "step": 1762
+    },
+    {
+      "epoch": 20.085106382978722,
+      "grad_norm": 1.920078997696489,
+      "learning_rate": 5e-06,
+      "loss": 0.0294,
+      "step": 1770
+    },
+    {
+      "epoch": 20.19858156028369,
+      "grad_norm": 1.5002721536366188,
+      "learning_rate": 5e-06,
+      "loss": 0.0258,
+      "step": 1780
+    },
+    {
+      "epoch": 20.31205673758865,
+      "grad_norm": 1.5579738724358545,
+      "learning_rate": 5e-06,
+      "loss": 0.0267,
+      "step": 1790
+    },
+    {
+      "epoch": 20.425531914893618,
+      "grad_norm": 1.455169431793061,
+      "learning_rate": 5e-06,
+      "loss": 0.0266,
+      "step": 1800
+    },
+    {
+      "epoch": 20.53900709219858,
+      "grad_norm": 1.22886010057641,
+      "learning_rate": 5e-06,
+      "loss": 0.0269,
+      "step": 1810
+    },
+    {
+      "epoch": 20.652482269503547,
+      "grad_norm": 1.5116925302103017,
+      "learning_rate": 5e-06,
+      "loss": 0.0282,
+      "step": 1820
+    },
+    {
+      "epoch": 20.76595744680851,
+      "grad_norm": 1.5692932225328788,
+      "learning_rate": 5e-06,
+      "loss": 0.0288,
+      "step": 1830
+    },
+    {
+      "epoch": 20.879432624113477,
+      "grad_norm": 1.391741629484137,
+      "learning_rate": 5e-06,
+      "loss": 0.0298,
+      "step": 1840
+    },
+    {
+      "epoch": 20.99290780141844,
+      "grad_norm": 1.973700678085544,
+      "learning_rate": 5e-06,
+      "loss": 0.0299,
+      "step": 1850
+    },
+    {
+      "epoch": 20.99290780141844,
+      "eval_loss": 2.1437060832977295,
+      "eval_runtime": 62.0314,
+      "eval_samples_per_second": 38.239,
+      "eval_steps_per_second": 0.613,
+      "step": 1850
+    },
+    {
+      "epoch": 21.106382978723403,
+      "grad_norm": 1.1791411901063809,
+      "learning_rate": 5e-06,
+      "loss": 0.0244,
+      "step": 1860
+    },
+    {
+      "epoch": 21.21985815602837,
+      "grad_norm": 1.267123446553761,
+      "learning_rate": 5e-06,
+      "loss": 0.0226,
+      "step": 1870
+    },
+    {
+      "epoch": 21.333333333333332,
+      "grad_norm": 1.3624423761722013,
+      "learning_rate": 5e-06,
+      "loss": 0.023,
+      "step": 1880
+    },
+    {
+      "epoch": 21.4468085106383,
+      "grad_norm": 1.426640337405648,
+      "learning_rate": 5e-06,
+      "loss": 0.0243,
+      "step": 1890
+    },
+    {
+      "epoch": 21.56028368794326,
+      "grad_norm": 1.4553540262096338,
+      "learning_rate": 5e-06,
+      "loss": 0.0242,
+      "step": 1900
+    },
+    {
+      "epoch": 21.673758865248228,
+      "grad_norm": 1.503724635353548,
+      "learning_rate": 5e-06,
+      "loss": 0.0247,
+      "step": 1910
+    },
+    {
+      "epoch": 21.78723404255319,
+      "grad_norm": 1.4126151297962473,
+      "learning_rate": 5e-06,
+      "loss": 0.0255,
+      "step": 1920
+    },
+    {
+      "epoch": 21.900709219858157,
+      "grad_norm": 1.2923917999452894,
+      "learning_rate": 5e-06,
+      "loss": 0.0255,
+      "step": 1930
+    },
+    {
+      "epoch": 21.99148936170213,
+      "eval_loss": 2.1743686199188232,
+      "eval_runtime": 61.954,
+      "eval_samples_per_second": 38.286,
+      "eval_steps_per_second": 0.613,
+      "step": 1938
+    },
+    {
+      "epoch": 22.01418439716312,
+      "grad_norm": 1.2651742889807782,
+      "learning_rate": 5e-06,
+      "loss": 0.0257,
+      "step": 1940
+    },
+    {
+      "epoch": 22.127659574468087,
+      "grad_norm": 1.1234871648540001,
+      "learning_rate": 5e-06,
+      "loss": 0.0183,
+      "step": 1950
+    },
+    {
+      "epoch": 22.24113475177305,
+      "grad_norm": 1.1914682347381635,
+      "learning_rate": 5e-06,
+      "loss": 0.0197,
+      "step": 1960
+    },
+    {
+      "epoch": 22.354609929078013,
+      "grad_norm": 1.5236491827381375,
+      "learning_rate": 5e-06,
+      "loss": 0.0203,
+      "step": 1970
+    },
+    {
+      "epoch": 22.46808510638298,
+      "grad_norm": 1.152425475304377,
+      "learning_rate": 5e-06,
+      "loss": 0.0201,
+      "step": 1980
+    },
+    {
+      "epoch": 22.581560283687942,
+      "grad_norm": 1.5074453816966662,
+      "learning_rate": 5e-06,
+      "loss": 0.0203,
+      "step": 1990
+    },
+    {
+      "epoch": 22.69503546099291,
+      "grad_norm": 1.4232083123752879,
+      "learning_rate": 5e-06,
+      "loss": 0.02,
+      "step": 2000
+    },
+    {
+      "epoch": 22.80851063829787,
+      "grad_norm": 1.3274591200293286,
+      "learning_rate": 5e-06,
+      "loss": 0.0205,
+      "step": 2010
+    },
+    {
+      "epoch": 22.921985815602838,
+      "grad_norm": 1.2163483760719238,
+      "learning_rate": 5e-06,
+      "loss": 0.0214,
+      "step": 2020
+    },
+    {
+      "epoch": 22.990070921985815,
+      "eval_loss": 2.2530956268310547,
+      "eval_runtime": 61.8444,
+      "eval_samples_per_second": 38.354,
+      "eval_steps_per_second": 0.614,
+      "step": 2026
+    },
+    {
+      "epoch": 23.0354609929078,
+      "grad_norm": 1.102674013054533,
+      "learning_rate": 5e-06,
+      "loss": 0.0211,
+      "step": 2030
+    },
+    {
+      "epoch": 23.148936170212767,
+      "grad_norm": 1.280352404689559,
+      "learning_rate": 5e-06,
+      "loss": 0.0166,
+      "step": 2040
+    },
+    {
+      "epoch": 23.26241134751773,
+      "grad_norm": 1.2676632223563031,
+      "learning_rate": 5e-06,
+      "loss": 0.0174,
+      "step": 2050
+    },
+    {
+      "epoch": 23.375886524822697,
+      "grad_norm": 1.338911086977905,
+      "learning_rate": 5e-06,
+      "loss": 0.0179,
+      "step": 2060
+    },
+    {
+      "epoch": 23.48936170212766,
+      "grad_norm": 1.3586671769170666,
+      "learning_rate": 5e-06,
+      "loss": 0.018,
+      "step": 2070
+    },
+    {
+      "epoch": 23.602836879432623,
+      "grad_norm": 1.6478284268488168,
+      "learning_rate": 5e-06,
+      "loss": 0.0182,
+      "step": 2080
+    },
+    {
+      "epoch": 23.71631205673759,
+      "grad_norm": 1.3656912406981414,
+      "learning_rate": 5e-06,
+      "loss": 0.0191,
+      "step": 2090
+    },
+    {
+      "epoch": 23.829787234042552,
+      "grad_norm": 1.2548808655348251,
+      "learning_rate": 5e-06,
+      "loss": 0.0182,
+      "step": 2100
+    },
+    {
+      "epoch": 23.94326241134752,
+      "grad_norm": 1.2709938993829644,
+      "learning_rate": 5e-06,
+      "loss": 0.0183,
+      "step": 2110
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 2.2672340869903564,
+      "eval_runtime": 61.7779,
+      "eval_samples_per_second": 38.396,
+      "eval_steps_per_second": 0.615,
+      "step": 2115
+    },
+    {
+      "epoch": 24.05673758865248,
+      "grad_norm": 1.1287652816162261,
+      "learning_rate": 5e-06,
+      "loss": 0.0176,
+      "step": 2120
+    },
+    {
+      "epoch": 24.170212765957448,
+      "grad_norm": 1.514856403878364,
+      "learning_rate": 5e-06,
+      "loss": 0.0149,
+      "step": 2130
+    },
+    {
+      "epoch": 24.28368794326241,
+      "grad_norm": 1.4283915780055492,
+      "learning_rate": 5e-06,
+      "loss": 0.0156,
+      "step": 2140
+    },
+    {
+      "epoch": 24.397163120567377,
+      "grad_norm": 1.059461534861265,
+      "learning_rate": 5e-06,
+      "loss": 0.0159,
+      "step": 2150
+    },
+    {
+      "epoch": 24.51063829787234,
+      "grad_norm": 1.1623165952765633,
+      "learning_rate": 5e-06,
+      "loss": 0.0161,
+      "step": 2160
+    },
+    {
+      "epoch": 24.624113475177303,
+      "grad_norm": 1.117151249059667,
+      "learning_rate": 5e-06,
+      "loss": 0.0167,
+      "step": 2170
+    },
+    {
+      "epoch": 24.73758865248227,
+      "grad_norm": 1.3585899962321324,
+      "learning_rate": 5e-06,
+      "loss": 0.0173,
+      "step": 2180
+    },
+    {
+      "epoch": 24.851063829787233,
+      "grad_norm": 1.2416797002653372,
+      "learning_rate": 5e-06,
+      "loss": 0.0176,
+      "step": 2190
+    },
+    {
+      "epoch": 24.9645390070922,
+      "grad_norm": 1.1197862040396234,
+      "learning_rate": 5e-06,
+      "loss": 0.0176,
+      "step": 2200
+    },
+    {
+      "epoch": 24.99858156028369,
+      "eval_loss": 2.2650251388549805,
+      "eval_runtime": 61.7487,
+      "eval_samples_per_second": 38.414,
+      "eval_steps_per_second": 0.615,
+      "step": 2203
+    },
+    {
+      "epoch": 25.078014184397162,
+      "grad_norm": 0.9878141556093745,
+      "learning_rate": 5e-06,
+      "loss": 0.016,
+      "step": 2210
+    },
+    {
+      "epoch": 25.19148936170213,
+      "grad_norm": 1.1817739397428935,
+      "learning_rate": 5e-06,
+      "loss": 0.0145,
+      "step": 2220
+    },
+    {
+      "epoch": 25.30496453900709,
+      "grad_norm": 1.004904053519453,
+      "learning_rate": 5e-06,
+      "loss": 0.0152,
+      "step": 2230
+    },
+    {
+      "epoch": 25.418439716312058,
+      "grad_norm": 1.120987937715426,
+      "learning_rate": 5e-06,
+      "loss": 0.0153,
+      "step": 2240
+    },
+    {
+      "epoch": 25.53191489361702,
+      "grad_norm": 1.1581554681983095,
+      "learning_rate": 5e-06,
+      "loss": 0.0158,
+      "step": 2250
+    },
+    {
+      "epoch": 25.645390070921987,
+      "grad_norm": 0.9570504069445702,
+      "learning_rate": 5e-06,
+      "loss": 0.0159,
+      "step": 2260
+    },
+    {
+      "epoch": 25.75886524822695,
+      "grad_norm": 1.2223868766654897,
+      "learning_rate": 5e-06,
+      "loss": 0.0167,
+      "step": 2270
+    },
+    {
+      "epoch": 25.872340425531917,
+      "grad_norm": 1.235670723966881,
+      "learning_rate": 5e-06,
+      "loss": 0.0167,
+      "step": 2280
+    },
+    {
+      "epoch": 25.98581560283688,
+      "grad_norm": 1.0449436637521454,
+      "learning_rate": 5e-06,
+      "loss": 0.0165,
+      "step": 2290
+    },
+    {
+      "epoch": 25.997163120567375,
+      "eval_loss": 2.2784597873687744,
+      "eval_runtime": 61.747,
+      "eval_samples_per_second": 38.415,
+      "eval_steps_per_second": 0.615,
+      "step": 2291
+    },
+    {
+      "epoch": 26.099290780141843,
+      "grad_norm": 0.937351445077704,
+      "learning_rate": 5e-06,
+      "loss": 0.0144,
+      "step": 2300
+    },
+    {
+      "epoch": 26.21276595744681,
+      "grad_norm": 1.4726294234141475,
+      "learning_rate": 5e-06,
+      "loss": 0.0138,
+      "step": 2310
+    },
+    {
+      "epoch": 26.326241134751772,
+      "grad_norm": 0.911974339928837,
+      "learning_rate": 5e-06,
+      "loss": 0.0141,
+      "step": 2320
+    },
+    {
+      "epoch": 26.43971631205674,
+      "grad_norm": 0.9153128396132686,
+      "learning_rate": 5e-06,
+      "loss": 0.0141,
+      "step": 2330
+    },
+    {
+      "epoch": 26.5531914893617,
+      "grad_norm": 1.0379804645600088,
+      "learning_rate": 5e-06,
+      "loss": 0.0146,
+      "step": 2340
+    },
+    {
+      "epoch": 26.666666666666668,
+      "grad_norm": 1.009567426911364,
+      "learning_rate": 5e-06,
+      "loss": 0.015,
+      "step": 2350
+    },
+    {
+      "epoch": 26.78014184397163,
+      "grad_norm": 0.9581577917417519,
+      "learning_rate": 5e-06,
+      "loss": 0.0155,
+      "step": 2360
+    },
+    {
+      "epoch": 26.893617021276597,
+      "grad_norm": 0.9973777175459498,
+      "learning_rate": 5e-06,
+      "loss": 0.0152,
+      "step": 2370
+    },
+    {
+      "epoch": 26.995744680851065,
+      "eval_loss": 2.272617816925049,
+      "eval_runtime": 69.2573,
+      "eval_samples_per_second": 34.249,
+      "eval_steps_per_second": 0.549,
+      "step": 2379
+    },
+    {
+      "epoch": 27.00709219858156,
+      "grad_norm": 2.5151039373227637,
+      "learning_rate": 5e-06,
+      "loss": 0.0162,
+      "step": 2380
+    },
+    {
+      "epoch": 27.120567375886523,
+      "grad_norm": 0.8739287942149531,
+      "learning_rate": 5e-06,
+      "loss": 0.0119,
+      "step": 2390
+    },
+    {
+      "epoch": 27.23404255319149,
+      "grad_norm": 0.9923332279176865,
+      "learning_rate": 5e-06,
+      "loss": 0.0123,
+      "step": 2400
+    },
+    {
+      "epoch": 27.347517730496453,
+      "grad_norm": 0.8986384187935266,
+      "learning_rate": 5e-06,
+      "loss": 0.0123,
+      "step": 2410
+    },
+    {
+      "epoch": 27.46099290780142,
+      "grad_norm": 0.9527555500748222,
+      "learning_rate": 5e-06,
+      "loss": 0.0128,
+      "step": 2420
+    },
+    {
+      "epoch": 27.574468085106382,
+      "grad_norm": 0.9573410638147425,
+      "learning_rate": 5e-06,
+      "loss": 0.0131,
+      "step": 2430
+    },
+    {
+      "epoch": 27.68794326241135,
+      "grad_norm": 0.9206613579635727,
+      "learning_rate": 5e-06,
+      "loss": 0.0134,
+      "step": 2440
+    },
+    {
+      "epoch": 27.80141843971631,
+      "grad_norm": 1.0631805922440314,
+      "learning_rate": 5e-06,
+      "loss": 0.0136,
+      "step": 2450
+    },
+    {
+      "epoch": 27.914893617021278,
+      "grad_norm": 0.9873569774398828,
+      "learning_rate": 5e-06,
+      "loss": 0.0141,
+      "step": 2460
+    },
+    {
+      "epoch": 27.99432624113475,
+      "eval_loss": 2.3099989891052246,
+      "eval_runtime": 61.8228,
+      "eval_samples_per_second": 38.368,
+      "eval_steps_per_second": 0.615,
+      "step": 2467
+    },
+    {
+      "epoch": 28.02836879432624,
+      "grad_norm": 0.8367467896199314,
+      "learning_rate": 5e-06,
+      "loss": 0.0142,
+      "step": 2470
+    },
+    {
+      "epoch": 28.141843971631207,
+      "grad_norm": 0.8750575092503129,
+      "learning_rate": 5e-06,
+      "loss": 0.011,
+      "step": 2480
+    },
+    {
+      "epoch": 28.25531914893617,
+      "grad_norm": 0.8433351422057557,
+      "learning_rate": 5e-06,
+      "loss": 0.0113,
+      "step": 2490
+    },
+    {
+      "epoch": 28.368794326241133,
+      "grad_norm": 0.9459082278215922,
+      "learning_rate": 5e-06,
+      "loss": 0.0114,
+      "step": 2500
+    },
+    {
+      "epoch": 28.4822695035461,
+      "grad_norm": 0.8476815269716437,
+      "learning_rate": 5e-06,
+      "loss": 0.0118,
+      "step": 2510
+    },
+    {
+      "epoch": 28.595744680851062,
+      "grad_norm": 0.9919619479253982,
+      "learning_rate": 5e-06,
+      "loss": 0.0119,
+      "step": 2520
+    },
+    {
+      "epoch": 28.70921985815603,
+      "grad_norm": 0.921713687988904,
+      "learning_rate": 5e-06,
+      "loss": 0.0119,
+      "step": 2530
+    },
+    {
+      "epoch": 28.822695035460992,
+      "grad_norm": 0.8904411861697781,
+      "learning_rate": 5e-06,
+      "loss": 0.012,
+      "step": 2540
+    },
+    {
+      "epoch": 28.93617021276596,
+      "grad_norm": 1.2704463003827144,
+      "learning_rate": 5e-06,
+      "loss": 0.0124,
+      "step": 2550
+    },
+    {
+      "epoch": 28.99290780141844,
+      "eval_loss": 2.332291841506958,
+      "eval_runtime": 60.798,
+      "eval_samples_per_second": 39.014,
+      "eval_steps_per_second": 0.625,
+      "step": 2555
+    },
+    {
+      "epoch": 29.04964539007092,
+      "grad_norm": 0.8345079136380029,
+      "learning_rate": 5e-06,
+      "loss": 0.0116,
+      "step": 2560
+    },
+    {
+      "epoch": 29.163120567375888,
+      "grad_norm": 0.7727575462289974,
+      "learning_rate": 5e-06,
+      "loss": 0.0098,
+      "step": 2570
+    },
+    {
+      "epoch": 29.27659574468085,
+      "grad_norm": 0.7449623009916486,
+      "learning_rate": 5e-06,
+      "loss": 0.01,
+      "step": 2580
+    },
+    {
+      "epoch": 29.390070921985817,
+      "grad_norm": 0.823872924226129,
+      "learning_rate": 5e-06,
+      "loss": 0.01,
+      "step": 2590
+    },
+    {
+      "epoch": 29.50354609929078,
+      "grad_norm": 0.8397207934188576,
+      "learning_rate": 5e-06,
+      "loss": 0.0099,
+      "step": 2600
+    },
+    {
+      "epoch": 29.617021276595743,
+      "grad_norm": 0.8116256567720525,
+      "learning_rate": 5e-06,
+      "loss": 0.0102,
+      "step": 2610
+    },
+    {
+      "epoch": 29.73049645390071,
+      "grad_norm": 0.8294250388534566,
+      "learning_rate": 5e-06,
+      "loss": 0.0102,
+      "step": 2620
+    },
+    {
+      "epoch": 29.843971631205672,
+      "grad_norm": 0.8114849444813739,
+      "learning_rate": 5e-06,
+      "loss": 0.0104,
+      "step": 2630
+    },
+    {
+      "epoch": 29.95744680851064,
+      "grad_norm": 0.8852232975531666,
+      "learning_rate": 5e-06,
+      "loss": 0.0106,
+      "step": 2640
+    },
+    {
+      "epoch": 29.99148936170213,
+      "eval_loss": 2.357081651687622,
+      "eval_runtime": 62.2636,
+      "eval_samples_per_second": 38.096,
+      "eval_steps_per_second": 0.61,
+      "step": 2643
+    },
+    {
+      "epoch": 30.070921985815602,
+      "grad_norm": 0.7031992810809015,
+      "learning_rate": 5e-06,
+      "loss": 0.0096,
+      "step": 2650
+    },
+    {
+      "epoch": 30.18439716312057,
+      "grad_norm": 0.7627672024963855,
+      "learning_rate": 5e-06,
+      "loss": 0.0084,
+      "step": 2660
+    },
+    {
+      "epoch": 30.29787234042553,
+      "grad_norm": 0.7110603755577746,
+      "learning_rate": 5e-06,
+      "loss": 0.0084,
+      "step": 2670
+    },
+    {
+      "epoch": 30.411347517730498,
+      "grad_norm": 0.7420329356605581,
+      "learning_rate": 5e-06,
+      "loss": 0.0085,
+      "step": 2680
+    },
+    {
+      "epoch": 30.52482269503546,
+      "grad_norm": 0.7808701527194697,
+      "learning_rate": 5e-06,
+      "loss": 0.0085,
+      "step": 2690
+    },
+    {
+      "epoch": 30.638297872340427,
+      "grad_norm": 0.7874064236769093,
+      "learning_rate": 5e-06,
+      "loss": 0.0085,
+      "step": 2700
+    },
+    {
+      "epoch": 30.75177304964539,
+      "grad_norm": 0.7661676156662441,
+      "learning_rate": 5e-06,
+      "loss": 0.0087,
+      "step": 2710
+    },
+    {
+      "epoch": 30.865248226950353,
+      "grad_norm": 0.8535116914325056,
+      "learning_rate": 5e-06,
+      "loss": 0.0088,
+      "step": 2720
+    },
+    {
+      "epoch": 30.97872340425532,
+      "grad_norm": 0.7958972876528424,
+      "learning_rate": 5e-06,
+      "loss": 0.0091,
+      "step": 2730
+    },
+    {
+      "epoch": 30.990070921985815,
+      "eval_loss": 2.4116153717041016,
+      "eval_runtime": 62.2832,
+      "eval_samples_per_second": 38.084,
+      "eval_steps_per_second": 0.61,
+      "step": 2731
+    },
+    {
+      "epoch": 31.092198581560282,
+      "grad_norm": 0.6485885567051449,
+      "learning_rate": 5e-06,
+      "loss": 0.0078,
+      "step": 2740
+    },
+    {
+      "epoch": 31.20567375886525,
+      "grad_norm": 0.6541844022555007,
+      "learning_rate": 5e-06,
+      "loss": 0.0072,
+      "step": 2750
+    },
+    {
+      "epoch": 31.319148936170212,
+      "grad_norm": 0.776841660846075,
+      "learning_rate": 5e-06,
+      "loss": 0.0073,
+      "step": 2760
+    },
+    {
+      "epoch": 31.43262411347518,
+      "grad_norm": 0.7710605909492212,
+      "learning_rate": 5e-06,
+      "loss": 0.0072,
+      "step": 2770
+    },
+    {
+      "epoch": 31.54609929078014,
+      "grad_norm": 0.6816480202732877,
+      "learning_rate": 5e-06,
+      "loss": 0.0072,
+      "step": 2780
+    },
+    {
+      "epoch": 31.659574468085108,
+      "grad_norm": 0.8400344753440614,
+      "learning_rate": 5e-06,
+      "loss": 0.0073,
+      "step": 2790
+    },
+    {
+      "epoch": 31.77304964539007,
+      "grad_norm": 0.7577115728922557,
+      "learning_rate": 5e-06,
+      "loss": 0.0076,
+      "step": 2800
+    },
+    {
+      "epoch": 31.886524822695037,
+      "grad_norm": 0.8366427457618262,
+      "learning_rate": 5e-06,
+      "loss": 0.0077,
+      "step": 2810
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 1.7417184938662238,
+      "learning_rate": 5e-06,
+      "loss": 0.0083,
+      "step": 2820
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 2.5119211673736572,
+      "eval_runtime": 62.2182,
+      "eval_samples_per_second": 38.124,
+      "eval_steps_per_second": 0.611,
+      "step": 2820
+    },
+    {
+      "epoch": 32.11347517730496,
+      "grad_norm": 0.6760402035549387,
+      "learning_rate": 5e-06,
+      "loss": 0.006,
+      "step": 2830
+    },
+    {
+      "epoch": 32.226950354609926,
+      "grad_norm": 0.6247844370602216,
+      "learning_rate": 5e-06,
+      "loss": 0.0064,
+      "step": 2840
+    },
+    {
+      "epoch": 32.340425531914896,
+      "grad_norm": 0.8298072821546006,
+      "learning_rate": 5e-06,
+      "loss": 0.0065,
+      "step": 2850
+    },
+    {
+      "epoch": 32.45390070921986,
+      "grad_norm": 0.6225777220105869,
+      "learning_rate": 5e-06,
+      "loss": 0.0064,
+      "step": 2860
+    },
+    {
+      "epoch": 32.56737588652482,
+      "grad_norm": 0.6622379639401021,
+      "learning_rate": 5e-06,
+      "loss": 0.0064,
+      "step": 2870
+    },
+    {
+      "epoch": 32.680851063829785,
+      "grad_norm": 0.6622926501947951,
+      "learning_rate": 5e-06,
+      "loss": 0.0065,
+      "step": 2880
+    },
+    {
+      "epoch": 32.794326241134755,
+      "grad_norm": 0.6348291026878606,
+      "learning_rate": 5e-06,
+      "loss": 0.0072,
+      "step": 2890
+    },
+    {
+      "epoch": 32.90780141843972,
+      "grad_norm": 2.0690919155019616,
+      "learning_rate": 5e-06,
+      "loss": 0.0071,
+      "step": 2900
+    },
+    {
+      "epoch": 32.99858156028369,
+      "eval_loss": 2.4598617553710938,
+      "eval_runtime": 61.935,
+      "eval_samples_per_second": 38.298,
+      "eval_steps_per_second": 0.614,
+      "step": 2908
+    },
+    {
+      "epoch": 33.02127659574468,
+      "grad_norm": 0.536551007465182,
+      "learning_rate": 5e-06,
+      "loss": 0.0072,
+      "step": 2910
+    },
+    {
+      "epoch": 33.13475177304964,
+      "grad_norm": 0.6265202665061125,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 2920
+    },
+    {
+      "epoch": 33.248226950354606,
+      "grad_norm": 0.6066247337398882,
+      "learning_rate": 5e-06,
+      "loss": 0.0061,
+      "step": 2930
+    },
+    {
+      "epoch": 33.361702127659576,
+      "grad_norm": 0.6329886038923753,
+      "learning_rate": 5e-06,
+      "loss": 0.0062,
+      "step": 2940
+    },
+    {
+      "epoch": 33.47517730496454,
+      "grad_norm": 0.6434289034891333,
+      "learning_rate": 5e-06,
+      "loss": 0.006,
+      "step": 2950
+    },
+    {
+      "epoch": 33.5886524822695,
+      "grad_norm": 0.6060277242963108,
+      "learning_rate": 5e-06,
+      "loss": 0.0062,
+      "step": 2960
+    },
+    {
+      "epoch": 33.702127659574465,
+      "grad_norm": 0.6231645801668283,
+      "learning_rate": 5e-06,
+      "loss": 0.0065,
+      "step": 2970
+    },
+    {
+      "epoch": 33.815602836879435,
+      "grad_norm": 0.6726293815659068,
+      "learning_rate": 5e-06,
+      "loss": 0.0062,
+      "step": 2980
+    },
+    {
+      "epoch": 33.9290780141844,
+      "grad_norm": 0.7144217421088135,
+      "learning_rate": 5e-06,
+      "loss": 0.0066,
+      "step": 2990
+    },
+    {
+      "epoch": 33.99716312056738,
+      "eval_loss": 2.4769325256347656,
+      "eval_runtime": 60.7622,
+      "eval_samples_per_second": 39.037,
+      "eval_steps_per_second": 0.625,
+      "step": 2996
+    },
+    {
+      "epoch": 34.04255319148936,
+      "grad_norm": 0.640917218147658,
+      "learning_rate": 5e-06,
+      "loss": 0.0066,
+      "step": 3000
+    },
+    {
+      "epoch": 34.156028368794324,
+      "grad_norm": 0.5848948305959304,
+      "learning_rate": 5e-06,
+      "loss": 0.0059,
+      "step": 3010
+    },
+    {
+      "epoch": 34.269503546099294,
+      "grad_norm": 0.6093130739371995,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3020
+    },
+    {
+      "epoch": 34.38297872340426,
+      "grad_norm": 0.6028806624019981,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3030
+    },
+    {
+      "epoch": 34.49645390070922,
+      "grad_norm": 0.5872374541059426,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3040
+    },
+    {
+      "epoch": 34.60992907801418,
+      "grad_norm": 0.6073657131269332,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3050
+    },
+    {
+      "epoch": 34.723404255319146,
+      "grad_norm": 0.586833117804181,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3060
+    },
+    {
+      "epoch": 34.836879432624116,
+      "grad_norm": 0.6606622175333071,
+      "learning_rate": 5e-06,
+      "loss": 0.0064,
+      "step": 3070
+    },
+    {
+      "epoch": 34.95035460992908,
+      "grad_norm": 0.6279271205274822,
+      "learning_rate": 5e-06,
+      "loss": 0.0061,
+      "step": 3080
+    },
+    {
+      "epoch": 34.99574468085106,
+      "eval_loss": 2.4636948108673096,
+      "eval_runtime": 62.1741,
+      "eval_samples_per_second": 38.151,
+      "eval_steps_per_second": 0.611,
+      "step": 3084
+    },
+    {
+      "epoch": 35.06382978723404,
+      "grad_norm": 0.5598672191700598,
+      "learning_rate": 5e-06,
+      "loss": 0.0059,
+      "step": 3090
+    },
+    {
+      "epoch": 35.177304964539005,
+      "grad_norm": 0.5838009342325976,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3100
+    },
+    {
+      "epoch": 35.290780141843975,
+      "grad_norm": 0.5591904839383254,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 3110
+    },
+    {
+      "epoch": 35.40425531914894,
+      "grad_norm": 0.52651340630151,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3120
+    },
+    {
+      "epoch": 35.5177304964539,
+      "grad_norm": 0.5557733635066537,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3130
+    },
+    {
+      "epoch": 35.63120567375886,
+      "grad_norm": 0.5555621169894426,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3140
+    },
+    {
+      "epoch": 35.744680851063826,
+      "grad_norm": 0.6174053410534251,
+      "learning_rate": 5e-06,
+      "loss": 0.006,
+      "step": 3150
+    },
+    {
+      "epoch": 35.858156028368796,
+      "grad_norm": 0.6219808794998958,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3160
+    },
+    {
+      "epoch": 35.97163120567376,
+      "grad_norm": 0.6453593970939066,
+      "learning_rate": 5e-06,
+      "loss": 0.0059,
+      "step": 3170
+    },
+    {
+      "epoch": 35.99432624113475,
+      "eval_loss": 2.446837902069092,
+      "eval_runtime": 70.4261,
+      "eval_samples_per_second": 33.681,
+      "eval_steps_per_second": 0.54,
+      "step": 3172
+    },
+    {
+      "epoch": 36.08510638297872,
+      "grad_norm": 0.5743613529876505,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3180
+    },
+    {
+      "epoch": 36.198581560283685,
+      "grad_norm": 0.5822243660764591,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3190
+    },
+    {
+      "epoch": 36.312056737588655,
+      "grad_norm": 0.6021189745310633,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3200
+    },
+    {
+      "epoch": 36.42553191489362,
+      "grad_norm": 0.5853179594306633,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3210
+    },
+    {
+      "epoch": 36.53900709219858,
+      "grad_norm": 0.5676622286224795,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3220
+    },
+    {
+      "epoch": 36.652482269503544,
+      "grad_norm": 0.6378528653719511,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 3230
+    },
+    {
+      "epoch": 36.765957446808514,
+      "grad_norm": 0.5795559134784821,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3240
+    },
+    {
+      "epoch": 36.87943262411348,
+      "grad_norm": 0.5739478607744279,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3250
+    },
+    {
+      "epoch": 36.99290780141844,
+      "grad_norm": 0.6761276352174411,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3260
+    },
+    {
+      "epoch": 36.99290780141844,
+      "eval_loss": 2.4386816024780273,
+      "eval_runtime": 64.5541,
+      "eval_samples_per_second": 36.744,
+      "eval_steps_per_second": 0.589,
+      "step": 3260
+    },
+    {
+      "epoch": 37.1063829787234,
+      "grad_norm": 0.5639138084508524,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3270
+    },
+    {
+      "epoch": 37.219858156028366,
+      "grad_norm": 0.5552500627772322,
+      "learning_rate": 5e-06,
+      "loss": 0.0051,
+      "step": 3280
+    },
+    {
+      "epoch": 37.333333333333336,
+      "grad_norm": 0.5505999304380521,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3290
+    },
+    {
+      "epoch": 37.4468085106383,
+      "grad_norm": 0.6290595858485541,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3300
+    },
+    {
+      "epoch": 37.56028368794326,
+      "grad_norm": 0.6689930337019874,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3310
+    },
+    {
+      "epoch": 37.673758865248224,
+      "grad_norm": 0.6361115119336014,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3320
+    },
+    {
+      "epoch": 37.787234042553195,
+      "grad_norm": 0.5758613903708901,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3330
+    },
+    {
+      "epoch": 37.90070921985816,
+      "grad_norm": 0.5488463771978056,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3340
+    },
+    {
+      "epoch": 37.99148936170213,
+      "eval_loss": 2.409132480621338,
+      "eval_runtime": 61.4398,
+      "eval_samples_per_second": 38.607,
+      "eval_steps_per_second": 0.618,
+      "step": 3348
+    },
+    {
+      "epoch": 38.01418439716312,
+      "grad_norm": 0.502740899332166,
+      "learning_rate": 5e-06,
+      "loss": 0.006,
+      "step": 3350
+    },
+    {
+      "epoch": 38.12765957446808,
+      "grad_norm": 0.5325341716894662,
+      "learning_rate": 5e-06,
+      "loss": 0.0051,
+      "step": 3360
+    },
+    {
+      "epoch": 38.241134751773046,
+      "grad_norm": 0.5469915840136621,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3370
+    },
+    {
+      "epoch": 38.354609929078016,
+      "grad_norm": 0.5898577174992149,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3380
+    },
+    {
+      "epoch": 38.46808510638298,
+      "grad_norm": 0.591194838597715,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3390
+    },
+    {
+      "epoch": 38.58156028368794,
+      "grad_norm": 0.5781105524402917,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3400
+    },
+    {
+      "epoch": 38.695035460992905,
+      "grad_norm": 0.5818767708267519,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 3410
+    },
+    {
+      "epoch": 38.808510638297875,
+      "grad_norm": 0.6196108940872473,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3420
+    },
+    {
+      "epoch": 38.92198581560284,
+      "grad_norm": 0.6091311582013242,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3430
+    },
+    {
+      "epoch": 38.99007092198582,
+      "eval_loss": 2.4180121421813965,
+      "eval_runtime": 67.9293,
+      "eval_samples_per_second": 34.919,
+      "eval_steps_per_second": 0.559,
+      "step": 3436
+    },
+    {
+      "epoch": 39.0354609929078,
+      "grad_norm": 0.5203631693062609,
+      "learning_rate": 5e-06,
+      "loss": 0.0059,
+      "step": 3440
+    },
+    {
+      "epoch": 39.148936170212764,
+      "grad_norm": 0.5220175235403596,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3450
+    },
+    {
+      "epoch": 39.262411347517734,
+      "grad_norm": 0.5306053779378094,
+      "learning_rate": 5e-06,
+      "loss": 0.0051,
+      "step": 3460
+    },
+    {
+      "epoch": 39.3758865248227,
+      "grad_norm": 0.5733275129436737,
+      "learning_rate": 5e-06,
+      "loss": 0.005,
+      "step": 3470
+    },
+    {
+      "epoch": 39.48936170212766,
+      "grad_norm": 0.6322314662873444,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3480
+    },
+    {
+      "epoch": 39.60283687943262,
+      "grad_norm": 0.5610008695326577,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3490
+    },
+    {
+      "epoch": 39.716312056737586,
+      "grad_norm": 0.6512700300720512,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3500
+    },
+    {
+      "epoch": 39.829787234042556,
+      "grad_norm": 0.6190687455862945,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3510
+    },
+    {
+      "epoch": 39.94326241134752,
+      "grad_norm": 0.6109666894463458,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3520
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 2.419253349304199,
+      "eval_runtime": 62.0127,
+      "eval_samples_per_second": 38.25,
+      "eval_steps_per_second": 0.613,
+      "step": 3525
+    },
+    {
+      "epoch": 40.05673758865248,
+      "grad_norm": 0.5065903135496583,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3530
+    },
+    {
+      "epoch": 40.170212765957444,
+      "grad_norm": 0.5264705355565352,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3540
+    },
+    {
+      "epoch": 40.283687943262414,
+      "grad_norm": 0.5771888267651291,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3550
+    },
+    {
+      "epoch": 40.39716312056738,
+      "grad_norm": 0.5990984567590389,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3560
+    },
+    {
+      "epoch": 40.51063829787234,
+      "grad_norm": 0.5735226625803138,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3570
+    },
+    {
+      "epoch": 40.6241134751773,
+      "grad_norm": 0.6419191932394923,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3580
+    },
+    {
+      "epoch": 40.737588652482266,
+      "grad_norm": 0.6128946066765568,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3590
+    },
+    {
+      "epoch": 40.851063829787236,
+      "grad_norm": 0.6089024429918992,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3600
+    },
+    {
+      "epoch": 40.9645390070922,
+      "grad_norm": 0.5901415629350402,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3610
+    },
+    {
+      "epoch": 40.99858156028369,
+      "eval_loss": 2.4677248001098633,
+      "eval_runtime": 61.1468,
+      "eval_samples_per_second": 38.792,
+      "eval_steps_per_second": 0.621,
+      "step": 3613
+    },
+    {
+      "epoch": 41.07801418439716,
+      "grad_norm": 0.5208524139132839,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3620
+    },
+    {
+      "epoch": 41.191489361702125,
+      "grad_norm": 0.5081832637563751,
+      "learning_rate": 5e-06,
+      "loss": 0.0051,
+      "step": 3630
+    },
+    {
+      "epoch": 41.304964539007095,
+      "grad_norm": 0.5335717303413468,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3640
+    },
+    {
+      "epoch": 41.41843971631206,
+      "grad_norm": 0.5613593262396614,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3650
+    },
+    {
+      "epoch": 41.53191489361702,
+      "grad_norm": 0.6327268082709085,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3660
+    },
+    {
+      "epoch": 41.645390070921984,
+      "grad_norm": 0.5361250969249659,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3670
+    },
+    {
+      "epoch": 41.758865248226954,
+      "grad_norm": 0.5516534040602991,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3680
+    },
+    {
+      "epoch": 41.87234042553192,
+      "grad_norm": 0.6408365010304582,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3690
+    },
+    {
+      "epoch": 41.98581560283688,
+      "grad_norm": 0.6048119305492722,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3700
+    },
+    {
+      "epoch": 41.99716312056738,
+      "eval_loss": 2.364220142364502,
+      "eval_runtime": 61.7215,
+      "eval_samples_per_second": 38.431,
+      "eval_steps_per_second": 0.616,
+      "step": 3701
+    },
+    {
+      "epoch": 42.09929078014184,
+      "grad_norm": 0.5693627921008746,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3710
+    },
+    {
+      "epoch": 42.212765957446805,
+      "grad_norm": 0.566082918703353,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3720
+    },
+    {
+      "epoch": 42.326241134751776,
+      "grad_norm": 0.5511507866097272,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3730
+    },
+    {
+      "epoch": 42.43971631205674,
+      "grad_norm": 0.559826817930835,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3740
+    },
+    {
+      "epoch": 42.5531914893617,
+      "grad_norm": 0.58340912778088,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3750
+    },
+    {
+      "epoch": 42.666666666666664,
+      "grad_norm": 0.6002758035231259,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 3760
+    },
+    {
+      "epoch": 42.780141843971634,
+      "grad_norm": 0.5989358562823475,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3770
+    },
+    {
+      "epoch": 42.8936170212766,
+      "grad_norm": 0.626190447474167,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3780
+    },
+    {
+      "epoch": 42.99574468085106,
+      "eval_loss": 2.4230844974517822,
+      "eval_runtime": 69.8551,
+      "eval_samples_per_second": 33.956,
+      "eval_steps_per_second": 0.544,
+      "step": 3789
+    },
+    {
+      "epoch": 43.00709219858156,
+      "grad_norm": 1.2904921052987568,
+      "learning_rate": 5e-06,
+      "loss": 0.006,
+      "step": 3790
+    },
+    {
+      "epoch": 43.12056737588652,
+      "grad_norm": 0.5946681024606572,
+      "learning_rate": 5e-06,
+      "loss": 0.0051,
+      "step": 3800
+    },
+    {
+      "epoch": 43.234042553191486,
+      "grad_norm": 0.6247714127627697,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3810
+    },
+    {
+      "epoch": 43.347517730496456,
+      "grad_norm": 0.5677050922672181,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3820
+    },
+    {
+      "epoch": 43.46099290780142,
+      "grad_norm": 0.583683610881685,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 3830
+    },
+    {
+      "epoch": 43.57446808510638,
+      "grad_norm": 0.5921120744442437,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3840
+    },
+    {
+      "epoch": 43.687943262411345,
+      "grad_norm": 0.6264915981813468,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3850
+    },
+    {
+      "epoch": 43.801418439716315,
+      "grad_norm": 0.6015317942981112,
+      "learning_rate": 5e-06,
+      "loss": 0.0058,
+      "step": 3860
+    },
+    {
+      "epoch": 43.91489361702128,
+      "grad_norm": 0.6365257752447925,
+      "learning_rate": 5e-06,
+      "loss": 0.0059,
+      "step": 3870
+    },
+    {
+      "epoch": 43.99432624113475,
+      "eval_loss": 2.413682222366333,
+      "eval_runtime": 62.0169,
+      "eval_samples_per_second": 38.248,
+      "eval_steps_per_second": 0.613,
+      "step": 3877
+    },
+    {
+      "epoch": 44.02836879432624,
+      "grad_norm": 0.5790636141901765,
+      "learning_rate": 5e-06,
+      "loss": 0.0062,
+      "step": 3880
+    },
+    {
+      "epoch": 44.141843971631204,
+      "grad_norm": 0.5977139442568224,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3890
+    },
+    {
+      "epoch": 44.255319148936174,
+      "grad_norm": 0.561775775158954,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3900
+    },
+    {
+      "epoch": 44.36879432624114,
+      "grad_norm": 0.6449694049046988,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3910
+    },
+    {
+      "epoch": 44.4822695035461,
+      "grad_norm": 0.5502986632322298,
+      "learning_rate": 5e-06,
+      "loss": 0.0054,
+      "step": 3920
+    },
+    {
+      "epoch": 44.59574468085106,
+      "grad_norm": 0.6004460230999634,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 3930
+    },
+    {
+      "epoch": 44.709219858156025,
+      "grad_norm": 0.5848689800167252,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 3940
+    },
+    {
+      "epoch": 44.822695035460995,
+      "grad_norm": 0.5660229423422497,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 3950
+    },
+    {
+      "epoch": 44.93617021276596,
+      "grad_norm": 0.6235698314913066,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3960
+    },
+    {
+      "epoch": 44.99290780141844,
+      "eval_loss": 2.4166228771209717,
+      "eval_runtime": 69.0142,
+      "eval_samples_per_second": 34.37,
+      "eval_steps_per_second": 0.551,
+      "step": 3965
+    },
+    {
+      "epoch": 45.04964539007092,
+      "grad_norm": 0.602636820068635,
+      "learning_rate": 5e-06,
+      "loss": 0.0057,
+      "step": 3970
+    },
+    {
+      "epoch": 45.163120567375884,
+      "grad_norm": 0.5512354587640222,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 3980
+    },
+    {
+      "epoch": 45.276595744680854,
+      "grad_norm": 0.5360556245484226,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 3990
+    },
+    {
+      "epoch": 45.39007092198582,
+      "grad_norm": 0.584753693926125,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
+      "step": 4000
+    },
+    {
+      "epoch": 45.50354609929078,
+      "grad_norm": 0.5475446229877688,
+      "learning_rate": 5e-06,
+      "loss": 0.0053,
+      "step": 4010
+    },
+    {
+      "epoch": 45.61702127659574,
+      "grad_norm": 0.5833576450707664,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 4020
+    },
+    {
+      "epoch": 45.730496453900706,
+      "grad_norm": 0.514889308216256,
+      "learning_rate": 5e-06,
+      "loss": 0.0055,
+      "step": 4030
+    },
+    {
+      "epoch": 45.843971631205676,
+      "grad_norm": 0.6093305891992143,
+      "learning_rate": 5e-06,
+      "loss": 0.0056,
+      "step": 4040
+    },
+    {
+      "epoch": 45.93475177304965,
+      "eval_loss": 2.3638699054718018,
+      "eval_runtime": 59.5586,
+      "eval_samples_per_second": 39.826,
+      "eval_steps_per_second": 0.638,
+      "step": 4048
+    },
+    {
+      "epoch": 45.93475177304965,
+      "step": 4048,
+      "total_flos": 6780341389885440.0,
+      "train_loss": 0.15424752476433726,
+      "train_runtime": 138136.8738,
+      "train_samples_per_second": 15.006,
+      "train_steps_per_second": 0.029
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4048,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 46,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6780341389885440.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed