Model save

Browse files

Files changed (6) hide show

README.md +8 -14
all_results.json +6 -11
model.safetensors +1 -1
runs/Sep22_21-06-18_nova.cs.ucla.edu/events.out.tfevents.1727064531.nova.cs.ucla.edu.485295.0 +2 -2
train_results.json +6 -6
trainer_state.json +744 -1010

README.md CHANGED Viewed

@@ -2,15 +2,9 @@
 license: apache-2.0
 base_model: TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
-- trl
-- sft
-- generated_from_trainer
-datasets:
-- yihanwang617/WizardLM_70k_processed_indicator
 model-index:
 - name: tinyllama-sft-wizard-processed-indicator-0.6-full
   results: []
@@ -21,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 # tinyllama-sft-wizard-processed-indicator-0.6-full
-This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T](https://huggingface.co/TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T) on the yihanwang617/WizardLM_70k_processed_indicator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7493
 ## Model description
@@ -58,15 +52,15 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 0.7503        | 1.0   | 543  | 0.7582          |
-| 0.6439        | 2.0   | 1086 | 0.7493          |
 ### Framework versions
 - Transformers 4.40.1
-- Pytorch 2.3.0+cu121
-- Datasets 2.19.0
 - Tokenizers 0.19.1

 license: apache-2.0
 base_model: TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
 tags:
 - trl
 - sft
 - generated_from_trainer
 model-index:
 - name: tinyllama-sft-wizard-processed-indicator-0.6-full
   results: []
 # tinyllama-sft-wizard-processed-indicator-0.6-full
+This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T](https://huggingface.co/TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7533
 ## Model description
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 0.7385        | 0.9989 | 449  | 0.7580          |
+| 0.616         | 1.9978 | 898  | 0.7533          |
 ### Framework versions
 - Transformers 4.40.1
+- Pytorch 2.4.0+cu121
+- Datasets 2.20.0
 - Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
-    "epoch": 2.0,
-    "eval_loss": 0.749311625957489,
-    "eval_runtime": 7.2515,
-    "eval_samples": 500,
-    "eval_samples_per_second": 68.952,
-    "eval_steps_per_second": 2.206,
-    "total_flos": 98609754931200.0,
-    "train_loss": 0.7310274319095507,
-    "train_runtime": 7114.9679,
-    "train_samples": 69499,
-    "train_samples_per_second": 19.536,
     "train_steps_per_second": 0.153
 }

 {
+    "epoch": 1.9977753058954395,
+    "total_flos": 81428314521600.0,
+    "train_loss": 0.7065894536026868,
+    "train_runtime": 5871.8562,
+    "train_samples": 57523,
+    "train_samples_per_second": 19.593,
     "train_steps_per_second": 0.153
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:517a85db7c87335854f692bd78fb9a13cecb1816164fb16c4560dd54bef2696a
 size 2200136248

 version https://git-lfs.github.com/spec/v1
+oid sha256:e524bb680938336a0d0caa6671337b7777d6be5159e33786782ea430cc5a64d8
 size 2200136248

runs/Sep22_21-06-18_nova.cs.ucla.edu/events.out.tfevents.1727064531.nova.cs.ucla.edu.485295.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82dd533cd0d044782ee609bbe72839a2d2ddd43bdfba652823db192032c90d56
-size 39120

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0c85bf361daa1a64e1a2941d7f98e2cbb02b3fa8eb1e1a5552d2bb28d00e668
+size 43754

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.0,
-    "total_flos": 98609754931200.0,
-    "train_loss": 0.7310274319095507,
-    "train_runtime": 7114.9679,
-    "train_samples": 69499,
-    "train_samples_per_second": 19.536,
     "train_steps_per_second": 0.153
 }

 {
+    "epoch": 1.9977753058954395,
+    "total_flos": 81428314521600.0,
+    "train_loss": 0.7065894536026868,
+    "train_runtime": 5871.8562,
+    "train_samples": 57523,
+    "train_samples_per_second": 19.593,
     "train_steps_per_second": 0.153
 }

trainer_state.json CHANGED Viewed

@@ -1,1571 +1,1305 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 1086,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.001841620626151013,
-      "grad_norm": 9.487208756403476,
-      "learning_rate": 1.8348623853211012e-07,
-      "loss": 1.3331,
       "step": 1
     },
     {
-      "epoch": 0.009208103130755065,
-      "grad_norm": 10.098597113934467,
-      "learning_rate": 9.174311926605506e-07,
-      "loss": 1.3415,
       "step": 5
     },
     {
-      "epoch": 0.01841620626151013,
-      "grad_norm": 7.582516918452148,
-      "learning_rate": 1.8348623853211011e-06,
-      "loss": 1.3403,
       "step": 10
     },
     {
-      "epoch": 0.027624309392265192,
-      "grad_norm": 5.9813594730189354,
-      "learning_rate": 2.7522935779816517e-06,
-      "loss": 1.2184,
       "step": 15
     },
     {
-      "epoch": 0.03683241252302026,
-      "grad_norm": 3.8777406610538008,
-      "learning_rate": 3.6697247706422022e-06,
-      "loss": 1.0559,
       "step": 20
     },
     {
-      "epoch": 0.04604051565377532,
-      "grad_norm": 1.7002929064741605,
-      "learning_rate": 4.587155963302753e-06,
-      "loss": 0.9671,
       "step": 25
     },
     {
-      "epoch": 0.055248618784530384,
-      "grad_norm": 1.4670313068989744,
-      "learning_rate": 5.504587155963303e-06,
-      "loss": 0.9249,
       "step": 30
     },
     {
-      "epoch": 0.06445672191528545,
-      "grad_norm": 1.2324864796490131,
-      "learning_rate": 6.422018348623854e-06,
-      "loss": 0.9262,
       "step": 35
     },
     {
-      "epoch": 0.07366482504604052,
-      "grad_norm": 0.9861050708367094,
-      "learning_rate": 7.3394495412844045e-06,
-      "loss": 0.9106,
       "step": 40
     },
     {
-      "epoch": 0.08287292817679558,
-      "grad_norm": 0.9663669086821243,
-      "learning_rate": 8.256880733944956e-06,
-      "loss": 0.8831,
       "step": 45
     },
     {
-      "epoch": 0.09208103130755065,
-      "grad_norm": 0.8208988023179918,
-      "learning_rate": 9.174311926605506e-06,
-      "loss": 0.8742,
       "step": 50
     },
     {
-      "epoch": 0.10128913443830571,
-      "grad_norm": 0.8721325839765847,
-      "learning_rate": 1.0091743119266055e-05,
-      "loss": 0.8394,
       "step": 55
     },
     {
-      "epoch": 0.11049723756906077,
-      "grad_norm": 0.8664821806860861,
-      "learning_rate": 1.1009174311926607e-05,
-      "loss": 0.8781,
       "step": 60
     },
     {
-      "epoch": 0.11970534069981584,
-      "grad_norm": 0.850850909127002,
-      "learning_rate": 1.1926605504587156e-05,
-      "loss": 0.8387,
       "step": 65
     },
     {
-      "epoch": 0.1289134438305709,
-      "grad_norm": 7.254429640030813,
-      "learning_rate": 1.2844036697247708e-05,
-      "loss": 0.8546,
       "step": 70
     },
     {
-      "epoch": 0.13812154696132597,
-      "grad_norm": 0.7808043895966499,
-      "learning_rate": 1.3761467889908258e-05,
-      "loss": 0.8559,
       "step": 75
     },
     {
-      "epoch": 0.14732965009208104,
-      "grad_norm": 0.8235579642853418,
-      "learning_rate": 1.4678899082568809e-05,
-      "loss": 0.847,
       "step": 80
     },
     {
-      "epoch": 0.15653775322283608,
-      "grad_norm": 0.8274749206676449,
-      "learning_rate": 1.559633027522936e-05,
-      "loss": 0.8565,
       "step": 85
     },
     {
-      "epoch": 0.16574585635359115,
-      "grad_norm": 0.895280984193072,
-      "learning_rate": 1.6513761467889912e-05,
-      "loss": 0.8345,
       "step": 90
     },
     {
-      "epoch": 0.17495395948434622,
-      "grad_norm": 0.815840163221152,
-      "learning_rate": 1.743119266055046e-05,
-      "loss": 0.8498,
       "step": 95
     },
     {
-      "epoch": 0.1841620626151013,
-      "grad_norm": 0.8221433248452157,
-      "learning_rate": 1.834862385321101e-05,
-      "loss": 0.8127,
       "step": 100
     },
     {
-      "epoch": 0.19337016574585636,
-      "grad_norm": 0.7976140905412046,
-      "learning_rate": 1.9266055045871563e-05,
-      "loss": 0.8034,
       "step": 105
     },
     {
-      "epoch": 0.20257826887661143,
-      "grad_norm": 0.8468389129277489,
-      "learning_rate": 1.9999948301225546e-05,
-      "loss": 0.8136,
       "step": 110
     },
     {
-      "epoch": 0.21178637200736647,
-      "grad_norm": 0.8088159655151304,
-      "learning_rate": 1.9998138900246916e-05,
-      "loss": 0.8092,
       "step": 115
     },
     {
-      "epoch": 0.22099447513812154,
-      "grad_norm": 0.8780117799583818,
-      "learning_rate": 1.999374509507318e-05,
-      "loss": 0.804,
       "step": 120
     },
     {
-      "epoch": 0.2302025782688766,
-      "grad_norm": 0.8490164846117048,
-      "learning_rate": 1.9986768021452575e-05,
-      "loss": 0.8158,
       "step": 125
     },
     {
-      "epoch": 0.23941068139963168,
-      "grad_norm": 0.8529248772977012,
-      "learning_rate": 1.9977209482878576e-05,
-      "loss": 0.7929,
       "step": 130
     },
     {
-      "epoch": 0.24861878453038674,
-      "grad_norm": 0.8507754240635628,
-      "learning_rate": 1.9965071950123732e-05,
-      "loss": 0.8246,
       "step": 135
     },
     {
-      "epoch": 0.2578268876611418,
-      "grad_norm": 0.8525493517761155,
-      "learning_rate": 1.9950358560601014e-05,
-      "loss": 0.7977,
       "step": 140
     },
     {
-      "epoch": 0.26703499079189685,
-      "grad_norm": 0.8643821001967661,
-      "learning_rate": 1.9933073117552798e-05,
-      "loss": 0.8016,
       "step": 145
     },
     {
-      "epoch": 0.27624309392265195,
-      "grad_norm": 0.8211547028472236,
-      "learning_rate": 1.9913220089067794e-05,
-      "loss": 0.8122,
       "step": 150
     },
     {
-      "epoch": 0.285451197053407,
-      "grad_norm": 0.8921853892857524,
-      "learning_rate": 1.989080460692609e-05,
-      "loss": 0.8168,
       "step": 155
     },
     {
-      "epoch": 0.2946593001841621,
-      "grad_norm": 0.8476039400748493,
-      "learning_rate": 1.9865832465272636e-05,
-      "loss": 0.8063,
       "step": 160
     },
     {
-      "epoch": 0.30386740331491713,
-      "grad_norm": 0.8396324344695479,
-      "learning_rate": 1.9838310119119545e-05,
-      "loss": 0.7957,
       "step": 165
     },
     {
-      "epoch": 0.31307550644567217,
-      "grad_norm": 0.8985723047446901,
-      "learning_rate": 1.980824468267753e-05,
-      "loss": 0.8067,
       "step": 170
     },
     {
-      "epoch": 0.32228360957642727,
-      "grad_norm": 0.8501578425193793,
-      "learning_rate": 1.9775643927516956e-05,
-      "loss": 0.797,
       "step": 175
     },
     {
-      "epoch": 0.3314917127071823,
-      "grad_norm": 0.8031738855835595,
-      "learning_rate": 1.9740516280559005e-05,
-      "loss": 0.8252,
       "step": 180
     },
     {
-      "epoch": 0.3406998158379374,
-      "grad_norm": 0.7975858240133766,
-      "learning_rate": 1.9702870821897385e-05,
-      "loss": 0.8067,
       "step": 185
     },
     {
-      "epoch": 0.34990791896869244,
-      "grad_norm": 0.8400266617085882,
-      "learning_rate": 1.9662717282451248e-05,
-      "loss": 0.7992,
       "step": 190
     },
     {
-      "epoch": 0.35911602209944754,
-      "grad_norm": 0.8202525540050369,
-      "learning_rate": 1.9620066041449854e-05,
-      "loss": 0.7825,
       "step": 195
     },
     {
-      "epoch": 0.3683241252302026,
-      "grad_norm": 0.8050965315301092,
-      "learning_rate": 1.957492812374965e-05,
-      "loss": 0.7791,
       "step": 200
     },
     {
-      "epoch": 0.3775322283609576,
-      "grad_norm": 0.7847260713022038,
-      "learning_rate": 1.9527315196984488e-05,
-      "loss": 0.7991,
       "step": 205
     },
     {
-      "epoch": 0.3867403314917127,
-      "grad_norm": 0.872287521809297,
-      "learning_rate": 1.9477239568549667e-05,
-      "loss": 0.7895,
       "step": 210
     },
     {
-      "epoch": 0.39594843462246776,
-      "grad_norm": 0.844414567232304,
-      "learning_rate": 1.9424714182420606e-05,
-      "loss": 0.7601,
       "step": 215
     },
     {
-      "epoch": 0.40515653775322286,
-      "grad_norm": 0.8125259889814365,
-      "learning_rate": 1.936975261580699e-05,
-      "loss": 0.806,
       "step": 220
     },
     {
-      "epoch": 0.4143646408839779,
-      "grad_norm": 0.8968645108680745,
-      "learning_rate": 1.9312369075643197e-05,
-      "loss": 0.8014,
       "step": 225
     },
     {
-      "epoch": 0.42357274401473294,
-      "grad_norm": 0.8900810655883074,
-      "learning_rate": 1.925257839491599e-05,
-      "loss": 0.7862,
       "step": 230
     },
     {
-      "epoch": 0.43278084714548803,
-      "grad_norm": 0.8706454375089893,
-      "learning_rate": 1.919039602883035e-05,
-      "loss": 0.7856,
       "step": 235
     },
     {
-      "epoch": 0.4419889502762431,
-      "grad_norm": 0.8616663919009867,
-      "learning_rate": 1.9125838050814472e-05,
-      "loss": 0.7865,
       "step": 240
     },
     {
-      "epoch": 0.45119705340699817,
-      "grad_norm": 0.7779548551967467,
-      "learning_rate": 1.9058921148364996e-05,
-      "loss": 0.7727,
       "step": 245
     },
     {
-      "epoch": 0.4604051565377532,
-      "grad_norm": 0.816623288149591,
-      "learning_rate": 1.8989662618733446e-05,
-      "loss": 0.7717,
       "step": 250
     },
     {
-      "epoch": 0.4696132596685083,
-      "grad_norm": 0.8077504929283144,
-      "learning_rate": 1.8918080364455122e-05,
-      "loss": 0.7718,
       "step": 255
     },
     {
-      "epoch": 0.47882136279926335,
-      "grad_norm": 0.898394828698269,
-      "learning_rate": 1.8844192888721473e-05,
-      "loss": 0.7919,
       "step": 260
     },
     {
-      "epoch": 0.4880294659300184,
-      "grad_norm": 0.8460969420323019,
-      "learning_rate": 1.8768019290597254e-05,
-      "loss": 0.78,
       "step": 265
     },
     {
-      "epoch": 0.4972375690607735,
-      "grad_norm": 0.8108678986863811,
-      "learning_rate": 1.8689579260083622e-05,
-      "loss": 0.7682,
       "step": 270
     },
     {
-      "epoch": 0.5064456721915286,
-      "grad_norm": 0.851899315304496,
-      "learning_rate": 1.8608893073028506e-05,
-      "loss": 0.7748,
       "step": 275
     },
     {
-      "epoch": 0.5156537753222836,
-      "grad_norm": 0.8558898829777909,
-      "learning_rate": 1.8525981585885537e-05,
-      "loss": 0.7626,
       "step": 280
     },
     {
-      "epoch": 0.5248618784530387,
-      "grad_norm": 0.804822749475494,
-      "learning_rate": 1.8440866230322877e-05,
-      "loss": 0.7641,
       "step": 285
     },
     {
-      "epoch": 0.5340699815837937,
-      "grad_norm": 0.8865259202746634,
-      "learning_rate": 1.8353569007683397e-05,
-      "loss": 0.7824,
       "step": 290
     },
     {
-      "epoch": 0.5432780847145487,
-      "grad_norm": 0.8550440609518042,
-      "learning_rate": 1.826411248329757e-05,
-      "loss": 0.7773,
       "step": 295
     },
     {
-      "epoch": 0.5524861878453039,
-      "grad_norm": 0.8246342972571714,
-      "learning_rate": 1.8172519780650594e-05,
-      "loss": 0.7851,
       "step": 300
     },
     {
-      "epoch": 0.5616942909760589,
-      "grad_norm": 0.8005281857217135,
-      "learning_rate": 1.8078814575405245e-05,
-      "loss": 0.7728,
       "step": 305
     },
     {
-      "epoch": 0.570902394106814,
-      "grad_norm": 0.7698583029915118,
-      "learning_rate": 1.7983021089281983e-05,
-      "loss": 0.7668,
       "step": 310
     },
     {
-      "epoch": 0.580110497237569,
-      "grad_norm": 0.7927682088956794,
-      "learning_rate": 1.788516408379791e-05,
-      "loss": 0.7635,
       "step": 315
     },
     {
-      "epoch": 0.5893186003683242,
-      "grad_norm": 0.8067514556430884,
-      "learning_rate": 1.7785268853866213e-05,
-      "loss": 0.7865,
       "step": 320
     },
     {
-      "epoch": 0.5985267034990792,
-      "grad_norm": 0.8196716073911758,
-      "learning_rate": 1.7683361221257705e-05,
-      "loss": 0.8062,
       "step": 325
     },
     {
-      "epoch": 0.6077348066298343,
-      "grad_norm": 0.8001423555494012,
-      "learning_rate": 1.7579467527926223e-05,
-      "loss": 0.7586,
       "step": 330
     },
     {
-      "epoch": 0.6169429097605893,
-      "grad_norm": 0.9198857339519773,
-      "learning_rate": 1.747361462919949e-05,
-      "loss": 0.7759,
       "step": 335
     },
     {
-      "epoch": 0.6261510128913443,
-      "grad_norm": 0.8228345682753472,
-      "learning_rate": 1.7365829886837355e-05,
-      "loss": 0.7616,
       "step": 340
     },
     {
-      "epoch": 0.6353591160220995,
-      "grad_norm": 0.796330816708183,
-      "learning_rate": 1.7256141161959087e-05,
-      "loss": 0.7676,
       "step": 345
     },
     {
-      "epoch": 0.6445672191528545,
-      "grad_norm": 0.7918906890618521,
-      "learning_rate": 1.7144576807841583e-05,
-      "loss": 0.7673,
       "step": 350
     },
     {
-      "epoch": 0.6537753222836096,
-      "grad_norm": 0.8576033484219812,
-      "learning_rate": 1.703116566259039e-05,
-      "loss": 0.7621,
       "step": 355
     },
     {
-      "epoch": 0.6629834254143646,
-      "grad_norm": 0.7554673227831459,
-      "learning_rate": 1.691593704168536e-05,
-      "loss": 0.7598,
       "step": 360
     },
     {
-      "epoch": 0.6721915285451197,
-      "grad_norm": 0.7862261132654765,
-      "learning_rate": 1.6798920730402962e-05,
-      "loss": 0.7678,
       "step": 365
     },
     {
-      "epoch": 0.6813996316758748,
-      "grad_norm": 0.8740704305339191,
-      "learning_rate": 1.6680146976117105e-05,
-      "loss": 0.7647,
       "step": 370
     },
     {
-      "epoch": 0.6906077348066298,
-      "grad_norm": 0.8294527194634077,
-      "learning_rate": 1.6559646480480563e-05,
-      "loss": 0.762,
       "step": 375
     },
     {
-      "epoch": 0.6998158379373849,
-      "grad_norm": 0.7716363144077072,
-      "learning_rate": 1.6437450391488928e-05,
-      "loss": 0.7487,
       "step": 380
     },
     {
-      "epoch": 0.7090239410681399,
-      "grad_norm": 0.7955322279334337,
-      "learning_rate": 1.6313590295429224e-05,
-      "loss": 0.7586,
       "step": 385
     },
     {
-      "epoch": 0.7182320441988951,
-      "grad_norm": 0.8305380250574657,
-      "learning_rate": 1.6188098208715216e-05,
-      "loss": 0.7766,
       "step": 390
     },
     {
-      "epoch": 0.7274401473296501,
-      "grad_norm": 0.8332371543946018,
-      "learning_rate": 1.6061006569611524e-05,
-      "loss": 0.7682,
       "step": 395
     },
     {
-      "epoch": 0.7366482504604052,
-      "grad_norm": 0.8102940732343397,
-      "learning_rate": 1.5932348229848704e-05,
-      "loss": 0.745,
       "step": 400
     },
     {
-      "epoch": 0.7458563535911602,
-      "grad_norm": 0.7917727224706915,
-      "learning_rate": 1.5802156446131463e-05,
-      "loss": 0.7769,
       "step": 405
     },
     {
-      "epoch": 0.7550644567219152,
-      "grad_norm": 0.779471652707005,
-      "learning_rate": 1.5670464871542178e-05,
-      "loss": 0.7627,
       "step": 410
     },
     {
-      "epoch": 0.7642725598526704,
-      "grad_norm": 0.8211568133910095,
-      "learning_rate": 1.553730754684196e-05,
-      "loss": 0.7612,
       "step": 415
     },
     {
-      "epoch": 0.7734806629834254,
-      "grad_norm": 0.7983960011422999,
-      "learning_rate": 1.54027188916715e-05,
-      "loss": 0.7357,
       "step": 420
     },
     {
-      "epoch": 0.7826887661141805,
-      "grad_norm": 0.8013861464148014,
-      "learning_rate": 1.5266733695653998e-05,
-      "loss": 0.7705,
       "step": 425
     },
     {
-      "epoch": 0.7918968692449355,
-      "grad_norm": 0.8199111369167583,
-      "learning_rate": 1.512938710940244e-05,
-      "loss": 0.7583,
       "step": 430
     },
     {
-      "epoch": 0.8011049723756906,
-      "grad_norm": 0.7915824131694972,
-      "learning_rate": 1.4990714635433568e-05,
-      "loss": 0.7491,
       "step": 435
     },
     {
-      "epoch": 0.8103130755064457,
-      "grad_norm": 0.8547061633671984,
-      "learning_rate": 1.4850752118990884e-05,
-      "loss": 0.7654,
       "step": 440
     },
     {
-      "epoch": 0.8195211786372008,
-      "grad_norm": 0.7827758210693739,
-      "learning_rate": 1.4709535738779075e-05,
-      "loss": 0.7568,
       "step": 445
     },
     {
-      "epoch": 0.8287292817679558,
-      "grad_norm": 0.7957470036216413,
-      "learning_rate": 1.4567101997612216e-05,
-      "loss": 0.7515,
       "step": 450
     },
     {
-      "epoch": 0.8379373848987108,
-      "grad_norm": 0.8123571090284315,
-      "learning_rate": 1.442348771297824e-05,
-      "loss": 0.781,
       "step": 455
     },
     {
-      "epoch": 0.8471454880294659,
-      "grad_norm": 0.8072064378151553,
-      "learning_rate": 1.4278730007521996e-05,
-      "loss": 0.7572,
       "step": 460
     },
     {
-      "epoch": 0.856353591160221,
-      "grad_norm": 0.8464641899857075,
-      "learning_rate": 1.4132866299449523e-05,
-      "loss": 0.7658,
       "step": 465
     },
     {
-      "epoch": 0.8655616942909761,
-      "grad_norm": 0.7581535740866823,
-      "learning_rate": 1.3985934292855827e-05,
-      "loss": 0.758,
       "step": 470
     },
     {
-      "epoch": 0.8747697974217311,
-      "grad_norm": 0.7867764834923046,
-      "learning_rate": 1.3837971967978836e-05,
-      "loss": 0.7427,
       "step": 475
     },
     {
-      "epoch": 0.8839779005524862,
-      "grad_norm": 0.7623817629427382,
-      "learning_rate": 1.3689017571381928e-05,
-      "loss": 0.7714,
       "step": 480
     },
     {
-      "epoch": 0.8931860036832413,
-      "grad_norm": 0.7606541547158601,
-      "learning_rate": 1.3539109606067642e-05,
-      "loss": 0.7666,
       "step": 485
     },
     {
-      "epoch": 0.9023941068139963,
-      "grad_norm": 0.8238089902302942,
-      "learning_rate": 1.3388286821525086e-05,
-      "loss": 0.7485,
       "step": 490
     },
     {
-      "epoch": 0.9116022099447514,
-      "grad_norm": 0.7885602761270838,
-      "learning_rate": 1.3236588203713645e-05,
-      "loss": 0.7603,
       "step": 495
     },
     {
-      "epoch": 0.9208103130755064,
-      "grad_norm": 0.7479729563440987,
-      "learning_rate": 1.3084052964985559e-05,
-      "loss": 0.7421,
       "step": 500
     },
     {
-      "epoch": 0.9300184162062615,
-      "grad_norm": 0.7938079694293718,
-      "learning_rate": 1.2930720533949967e-05,
-      "loss": 0.7679,
       "step": 505
     },
     {
-      "epoch": 0.9392265193370166,
-      "grad_norm": 0.8413412375713666,
-      "learning_rate": 1.2776630545281088e-05,
-      "loss": 0.7666,
       "step": 510
     },
     {
-      "epoch": 0.9484346224677717,
-      "grad_norm": 0.7972101994643543,
-      "learning_rate": 1.2621822829473074e-05,
-      "loss": 0.7566,
       "step": 515
     },
     {
-      "epoch": 0.9576427255985267,
-      "grad_norm": 0.7657469250786952,
-      "learning_rate": 1.2466337402544333e-05,
-      "loss": 0.7516,
       "step": 520
     },
     {
-      "epoch": 0.9668508287292817,
-      "grad_norm": 0.8383325196873513,
-      "learning_rate": 1.2310214455693808e-05,
-      "loss": 0.7459,
       "step": 525
     },
     {
-      "epoch": 0.9760589318600368,
-      "grad_norm": 0.82514029800541,
-      "learning_rate": 1.2153494344912031e-05,
-      "loss": 0.7639,
       "step": 530
     },
     {
-      "epoch": 0.9852670349907919,
-      "grad_norm": 0.8339642920969854,
-      "learning_rate": 1.1996217580549557e-05,
-      "loss": 0.7451,
       "step": 535
     },
     {
-      "epoch": 0.994475138121547,
-      "grad_norm": 0.7668661450010597,
-      "learning_rate": 1.1838424816845507e-05,
-      "loss": 0.7503,
       "step": 540
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.7581701278686523,
-      "eval_runtime": 7.3077,
-      "eval_samples_per_second": 68.421,
-      "eval_steps_per_second": 2.189,
-      "step": 543
-    },
-    {
-      "epoch": 1.003683241252302,
-      "grad_norm": 0.8608149523736537,
-      "learning_rate": 1.1680156841418911e-05,
-      "loss": 0.725,
       "step": 545
     },
     {
-      "epoch": 1.0128913443830572,
-      "grad_norm": 0.8104603283187576,
-      "learning_rate": 1.152145456472558e-05,
-      "loss": 0.6691,
       "step": 550
     },
     {
-      "epoch": 1.022099447513812,
-      "grad_norm": 0.8675959690946367,
-      "learning_rate": 1.1362359009483213e-05,
-      "loss": 0.6669,
       "step": 555
     },
     {
-      "epoch": 1.0313075506445673,
-      "grad_norm": 0.8067692174219936,
-      "learning_rate": 1.1202911300067508e-05,
-      "loss": 0.6621,
       "step": 560
     },
     {
-      "epoch": 1.0405156537753222,
-      "grad_norm": 0.8291984516702348,
-      "learning_rate": 1.1043152651881972e-05,
-      "loss": 0.6587,
       "step": 565
     },
     {
-      "epoch": 1.0497237569060773,
-      "grad_norm": 0.8125897984224644,
-      "learning_rate": 1.088312436070422e-05,
-      "loss": 0.6505,
       "step": 570
     },
     {
-      "epoch": 1.0589318600368325,
-      "grad_norm": 0.8239385209954087,
-      "learning_rate": 1.0722867792011486e-05,
-      "loss": 0.6758,
       "step": 575
     },
     {
-      "epoch": 1.0681399631675874,
-      "grad_norm": 0.7378856324994607,
-      "learning_rate": 1.056242437028812e-05,
-      "loss": 0.6402,
       "step": 580
     },
     {
-      "epoch": 1.0773480662983426,
-      "grad_norm": 0.8124816346329752,
-      "learning_rate": 1.0401835568317842e-05,
-      "loss": 0.6646,
       "step": 585
     },
     {
-      "epoch": 1.0865561694290977,
-      "grad_norm": 0.8476238930753656,
-      "learning_rate": 1.0241142896463492e-05,
-      "loss": 0.682,
       "step": 590
     },
     {
-      "epoch": 1.0957642725598526,
-      "grad_norm": 0.799491224921835,
-      "learning_rate": 1.0080387891937085e-05,
-      "loss": 0.6599,
       "step": 595
     },
     {
-      "epoch": 1.1049723756906078,
-      "grad_norm": 0.7791926205470533,
-      "learning_rate": 9.919612108062919e-06,
-      "loss": 0.6594,
       "step": 600
     },
     {
-      "epoch": 1.1141804788213627,
-      "grad_norm": 0.7949021068706513,
-      "learning_rate": 9.758857103536513e-06,
-      "loss": 0.6407,
       "step": 605
     },
     {
-      "epoch": 1.1233885819521179,
-      "grad_norm": 0.7929021998993265,
-      "learning_rate": 9.598164431682161e-06,
-      "loss": 0.6714,
       "step": 610
     },
     {
-      "epoch": 1.132596685082873,
-      "grad_norm": 0.8745034855467555,
-      "learning_rate": 9.437575629711883e-06,
-      "loss": 0.6633,
       "step": 615
     },
     {
-      "epoch": 1.141804788213628,
-      "grad_norm": 0.8538313288917855,
-      "learning_rate": 9.277132207988516e-06,
-      "loss": 0.6648,
       "step": 620
     },
     {
-      "epoch": 1.1510128913443831,
-      "grad_norm": 0.8480594300581092,
-      "learning_rate": 9.116875639295783e-06,
-      "loss": 0.6544,
       "step": 625
     },
     {
-      "epoch": 1.160220994475138,
-      "grad_norm": 0.8024034851622296,
-      "learning_rate": 8.95684734811803e-06,
-      "loss": 0.6464,
       "step": 630
     },
     {
-      "epoch": 1.1694290976058932,
-      "grad_norm": 0.7945587013648906,
-      "learning_rate": 8.797088699932494e-06,
-      "loss": 0.6706,
       "step": 635
     },
     {
-      "epoch": 1.1786372007366483,
-      "grad_norm": 0.7785266749039379,
-      "learning_rate": 8.637640990516793e-06,
-      "loss": 0.6614,
       "step": 640
     },
     {
-      "epoch": 1.1878453038674033,
-      "grad_norm": 0.7747139630379014,
-      "learning_rate": 8.478545435274424e-06,
-      "loss": 0.6418,
       "step": 645
     },
     {
-      "epoch": 1.1970534069981584,
-      "grad_norm": 0.8245612464107108,
-      "learning_rate": 8.319843158581092e-06,
-      "loss": 0.6584,
       "step": 650
     },
     {
-      "epoch": 1.2062615101289134,
-      "grad_norm": 0.8157643940105639,
-      "learning_rate": 8.161575183154495e-06,
-      "loss": 0.6565,
       "step": 655
     },
     {
-      "epoch": 1.2154696132596685,
-      "grad_norm": 0.8388086475486061,
-      "learning_rate": 8.003782419450448e-06,
-      "loss": 0.6395,
       "step": 660
     },
     {
-      "epoch": 1.2246777163904237,
-      "grad_norm": 0.8310167738763593,
-      "learning_rate": 7.846505655087972e-06,
-      "loss": 0.6813,
       "step": 665
     },
     {
-      "epoch": 1.2338858195211786,
-      "grad_norm": 0.8391836254738144,
-      "learning_rate": 7.689785544306194e-06,
-      "loss": 0.6587,
       "step": 670
     },
     {
-      "epoch": 1.2430939226519337,
-      "grad_norm": 0.7962173399966784,
-      "learning_rate": 7.533662597455667e-06,
-      "loss": 0.6588,
       "step": 675
     },
     {
-      "epoch": 1.2523020257826887,
-      "grad_norm": 0.8500627389770019,
-      "learning_rate": 7.378177170526928e-06,
-      "loss": 0.677,
       "step": 680
     },
     {
-      "epoch": 1.2615101289134438,
-      "grad_norm": 0.8630506829350645,
-      "learning_rate": 7.223369454718918e-06,
-      "loss": 0.6579,
       "step": 685
     },
     {
-      "epoch": 1.270718232044199,
-      "grad_norm": 0.8314926708434114,
-      "learning_rate": 7.069279466050035e-06,
-      "loss": 0.6703,
       "step": 690
     },
     {
-      "epoch": 1.279926335174954,
-      "grad_norm": 0.8492527667742464,
-      "learning_rate": 6.915947035014443e-06,
-      "loss": 0.6707,
       "step": 695
     },
     {
-      "epoch": 1.289134438305709,
-      "grad_norm": 0.7820802239255638,
-      "learning_rate": 6.763411796286357e-06,
-      "loss": 0.6681,
       "step": 700
     },
     {
-      "epoch": 1.298342541436464,
-      "grad_norm": 0.8873442738028852,
-      "learning_rate": 6.611713178474917e-06,
-      "loss": 0.6486,
       "step": 705
     },
     {
-      "epoch": 1.3075506445672191,
-      "grad_norm": 0.8035807172426459,
-      "learning_rate": 6.460890393932362e-06,
-      "loss": 0.6588,
       "step": 710
     },
     {
-      "epoch": 1.3167587476979743,
-      "grad_norm": 0.842111847094747,
-      "learning_rate": 6.310982428618078e-06,
-      "loss": 0.6548,
       "step": 715
     },
     {
-      "epoch": 1.3259668508287292,
-      "grad_norm": 0.7911544859206101,
-      "learning_rate": 6.162028032021168e-06,
-      "loss": 0.6373,
       "step": 720
     },
     {
-      "epoch": 1.3351749539594844,
-      "grad_norm": 0.8256151679332612,
-      "learning_rate": 6.014065707144177e-06,
-      "loss": 0.6515,
       "step": 725
     },
     {
-      "epoch": 1.3443830570902393,
-      "grad_norm": 0.9134076129092624,
-      "learning_rate": 5.867133700550479e-06,
-      "loss": 0.6508,
       "step": 730
     },
     {
-      "epoch": 1.3535911602209945,
-      "grad_norm": 0.8273025916436556,
-      "learning_rate": 5.721269992478002e-06,
-      "loss": 0.6424,
       "step": 735
     },
     {
-      "epoch": 1.3627992633517496,
-      "grad_norm": 0.7925519814177099,
-      "learning_rate": 5.576512287021765e-06,
-      "loss": 0.652,
       "step": 740
     },
     {
-      "epoch": 1.3720073664825045,
-      "grad_norm": 0.7841670661929079,
-      "learning_rate": 5.432898002387783e-06,
-      "loss": 0.6451,
       "step": 745
     },
     {
-      "epoch": 1.3812154696132597,
-      "grad_norm": 0.821957171130619,
-      "learning_rate": 5.290464261220927e-06,
-      "loss": 0.6533,
       "step": 750
     },
     {
-      "epoch": 1.3904235727440146,
-      "grad_norm": 0.812271073504896,
-      "learning_rate": 5.1492478810091184e-06,
-      "loss": 0.6578,
       "step": 755
     },
     {
-      "epoch": 1.3996316758747698,
-      "grad_norm": 0.8094850595378614,
-      "learning_rate": 5.009285364566435e-06,
-      "loss": 0.6485,
       "step": 760
     },
     {
-      "epoch": 1.408839779005525,
-      "grad_norm": 0.7954296064958799,
-      "learning_rate": 4.870612890597564e-06,
-      "loss": 0.65,
       "step": 765
     },
     {
-      "epoch": 1.4180478821362799,
-      "grad_norm": 0.8280348246791821,
-      "learning_rate": 4.733266304346005e-06,
-      "loss": 0.671,
       "step": 770
     },
     {
-      "epoch": 1.427255985267035,
-      "grad_norm": 0.794742848274457,
-      "learning_rate": 4.597281108328502e-06,
-      "loss": 0.6518,
       "step": 775
     },
     {
-      "epoch": 1.43646408839779,
-      "grad_norm": 0.8869694027557428,
-      "learning_rate": 4.4626924531580395e-06,
-      "loss": 0.6561,
       "step": 780
     },
     {
-      "epoch": 1.445672191528545,
-      "grad_norm": 0.9209352567295318,
-      "learning_rate": 4.329535128457822e-06,
-      "loss": 0.6547,
       "step": 785
     },
     {
-      "epoch": 1.4548802946593002,
-      "grad_norm": 0.8502537321209426,
-      "learning_rate": 4.197843553868538e-06,
-      "loss": 0.6569,
       "step": 790
     },
     {
-      "epoch": 1.4640883977900552,
-      "grad_norm": 0.8080876894016148,
-      "learning_rate": 4.0676517701513015e-06,
-      "loss": 0.6527,
       "step": 795
     },
     {
-      "epoch": 1.4732965009208103,
-      "grad_norm": 0.7910362786638171,
-      "learning_rate": 3.938993430388481e-06,
-      "loss": 0.6543,
       "step": 800
     },
     {
-      "epoch": 1.4825046040515653,
-      "grad_norm": 0.8560846908290042,
-      "learning_rate": 3.811901791284788e-06,
-      "loss": 0.6647,
       "step": 805
     },
     {
-      "epoch": 1.4917127071823204,
-      "grad_norm": 0.7964529443721665,
-      "learning_rate": 3.6864097045707783e-06,
-      "loss": 0.6697,
       "step": 810
     },
     {
-      "epoch": 1.5009208103130756,
-      "grad_norm": 0.8033436559604712,
-      "learning_rate": 3.5625496085110757e-06,
-      "loss": 0.6513,
       "step": 815
     },
     {
-      "epoch": 1.5101289134438307,
-      "grad_norm": 0.8129442941161483,
-      "learning_rate": 3.4403535195194393e-06,
-      "loss": 0.654,
       "step": 820
     },
     {
-      "epoch": 1.5193370165745856,
-      "grad_norm": 0.7999545048055324,
-      "learning_rate": 3.3198530238828973e-06,
-      "loss": 0.6614,
       "step": 825
     },
     {
-      "epoch": 1.5285451197053406,
-      "grad_norm": 0.8267897501901618,
-      "learning_rate": 3.2010792695970407e-06,
-      "loss": 0.6592,
       "step": 830
     },
     {
-      "epoch": 1.5377532228360957,
-      "grad_norm": 0.8616636469230253,
-      "learning_rate": 3.084062958314642e-06,
-      "loss": 0.6548,
       "step": 835
     },
     {
-      "epoch": 1.5469613259668509,
-      "grad_norm": 0.8103113691746665,
-      "learning_rate": 2.968834337409612e-06,
-      "loss": 0.6317,
       "step": 840
     },
     {
-      "epoch": 1.556169429097606,
-      "grad_norm": 0.7961526907420402,
-      "learning_rate": 2.8554231921584164e-06,
-      "loss": 0.6345,
       "step": 845
     },
     {
-      "epoch": 1.565377532228361,
-      "grad_norm": 0.8329727483158361,
-      "learning_rate": 2.743858838040918e-06,
-      "loss": 0.6671,
       "step": 850
     },
     {
-      "epoch": 1.5745856353591159,
-      "grad_norm": 0.8108747642347348,
-      "learning_rate": 2.6341701131626486e-06,
-      "loss": 0.6464,
       "step": 855
     },
     {
-      "epoch": 1.583793738489871,
-      "grad_norm": 0.8354712498356168,
-      "learning_rate": 2.526385370800515e-06,
-      "loss": 0.6534,
       "step": 860
     },
     {
-      "epoch": 1.5930018416206262,
-      "grad_norm": 0.7991431474616921,
-      "learning_rate": 2.4205324720737787e-06,
-      "loss": 0.6533,
       "step": 865
     },
     {
-      "epoch": 1.6022099447513813,
-      "grad_norm": 0.7629298090902601,
-      "learning_rate": 2.316638778742295e-06,
-      "loss": 0.6337,
       "step": 870
     },
     {
-      "epoch": 1.6114180478821363,
-      "grad_norm": 0.807235622742352,
-      "learning_rate": 2.214731146133793e-06,
-      "loss": 0.6489,
       "step": 875
     },
     {
-      "epoch": 1.6206261510128912,
-      "grad_norm": 0.8905546466064861,
-      "learning_rate": 2.114835916202094e-06,
-      "loss": 0.6668,
       "step": 880
     },
     {
-      "epoch": 1.6298342541436464,
-      "grad_norm": 0.8202370989602302,
-      "learning_rate": 2.0169789107180195e-06,
-      "loss": 0.6408,
       "step": 885
     },
     {
-      "epoch": 1.6390423572744015,
-      "grad_norm": 0.8131318832841805,
-      "learning_rate": 1.921185424594758e-06,
-      "loss": 0.6502,
       "step": 890
     },
     {
-      "epoch": 1.6482504604051567,
-      "grad_norm": 0.787848568355299,
-      "learning_rate": 1.827480219349409e-06,
-      "loss": 0.6421,
       "step": 895
     },
     {
-      "epoch": 1.6574585635359116,
-      "grad_norm": 0.8013571602839892,
-      "learning_rate": 1.7358875167024336e-06,
-      "loss": 0.6562,
-      "step": 900
-    },
-    {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 0.8050853357467429,
-      "learning_rate": 1.6464309923166033e-06,
-      "loss": 0.6601,
-      "step": 905
-    },
-    {
-      "epoch": 1.6758747697974217,
-      "grad_norm": 0.7632083820451964,
-      "learning_rate": 1.5591337696771247e-06,
-      "loss": 0.6511,
-      "step": 910
-    },
-    {
-      "epoch": 1.6850828729281768,
-      "grad_norm": 0.8160981703519061,
-      "learning_rate": 1.4740184141144664e-06,
-      "loss": 0.6528,
-      "step": 915
-    },
-    {
-      "epoch": 1.694290976058932,
-      "grad_norm": 0.7909791196212368,
-      "learning_rate": 1.391106926971496e-06,
-      "loss": 0.6676,
-      "step": 920
-    },
-    {
-      "epoch": 1.703499079189687,
-      "grad_norm": 0.7627803057441984,
-      "learning_rate": 1.3104207399163816e-06,
-      "loss": 0.6437,
-      "step": 925
-    },
-    {
-      "epoch": 1.7127071823204418,
-      "grad_norm": 0.8629435634729274,
-      "learning_rate": 1.2319807094027492e-06,
-      "loss": 0.6744,
-      "step": 930
-    },
-    {
-      "epoch": 1.721915285451197,
-      "grad_norm": 0.8022493311275769,
-      "learning_rate": 1.1558071112785297e-06,
-      "loss": 0.6405,
-      "step": 935
-    },
-    {
-      "epoch": 1.7311233885819521,
-      "grad_norm": 0.8085541255802431,
-      "learning_rate": 1.0819196355448801e-06,
-      "loss": 0.6316,
-      "step": 940
-    },
-    {
-      "epoch": 1.7403314917127073,
-      "grad_norm": 0.7700288703813564,
-      "learning_rate": 1.0103373812665552e-06,
-      "loss": 0.6616,
-      "step": 945
-    },
-    {
-      "epoch": 1.7495395948434622,
-      "grad_norm": 0.7911373139738717,
-      "learning_rate": 9.410788516350078e-07,
-      "loss": 0.6412,
-      "step": 950
-    },
-    {
-      "epoch": 1.7587476979742172,
-      "grad_norm": 0.7678764765370287,
-      "learning_rate": 8.741619491855291e-07,
-      "loss": 0.6426,
-      "step": 955
-    },
-    {
-      "epoch": 1.7679558011049723,
-      "grad_norm": 0.7815749787856374,
-      "learning_rate": 8.096039711696546e-07,
-      "loss": 0.6515,
-      "step": 960
-    },
-    {
-      "epoch": 1.7771639042357275,
-      "grad_norm": 0.798843530004998,
-      "learning_rate": 7.474216050840122e-07,
-      "loss": 0.6459,
-      "step": 965
-    },
-    {
-      "epoch": 1.7863720073664826,
-      "grad_norm": 0.8229004013795932,
-      "learning_rate": 6.876309243568058e-07,
-      "loss": 0.6581,
-      "step": 970
-    },
-    {
-      "epoch": 1.7955801104972375,
-      "grad_norm": 0.801312315357016,
-      "learning_rate": 6.302473841930135e-07,
-      "loss": 0.6376,
-      "step": 975
-    },
-    {
-      "epoch": 1.8047882136279927,
-      "grad_norm": 0.8305624262846181,
-      "learning_rate": 5.752858175793951e-07,
-      "loss": 0.6544,
-      "step": 980
-    },
-    {
-      "epoch": 1.8139963167587476,
-      "grad_norm": 0.8131955374085587,
-      "learning_rate": 5.227604314503343e-07,
-      "loss": 0.6723,
-      "step": 985
-    },
-    {
-      "epoch": 1.8232044198895028,
-      "grad_norm": 0.7947035393070572,
-      "learning_rate": 4.726848030155129e-07,
-      "loss": 0.6487,
-      "step": 990
-    },
-    {
-      "epoch": 1.832412523020258,
-      "grad_norm": 0.854919068098428,
-      "learning_rate": 4.250718762503514e-07,
-      "loss": 0.6545,
-      "step": 995
-    },
-    {
-      "epoch": 1.8416206261510129,
-      "grad_norm": 0.8021121270473258,
-      "learning_rate": 3.799339585501494e-07,
-      "loss": 0.6446,
-      "step": 1000
-    },
-    {
-      "epoch": 1.850828729281768,
-      "grad_norm": 0.8523268755119086,
-      "learning_rate": 3.3728271754875365e-07,
-      "loss": 0.6508,
-      "step": 1005
-    },
-    {
-      "epoch": 1.860036832412523,
-      "grad_norm": 0.7951948802052549,
-      "learning_rate": 2.9712917810261645e-07,
-      "loss": 0.6515,
-      "step": 1010
-    },
-    {
-      "epoch": 1.869244935543278,
-      "grad_norm": 0.7861608829681604,
-      "learning_rate": 2.5948371944099715e-07,
-      "loss": 0.6585,
-      "step": 1015
-    },
-    {
-      "epoch": 1.8784530386740332,
-      "grad_norm": 0.8978633111243858,
-      "learning_rate": 2.2435607248304624e-07,
-      "loss": 0.6581,
-      "step": 1020
-    },
-    {
-      "epoch": 1.8876611418047882,
-      "grad_norm": 0.8270088384179148,
-      "learning_rate": 1.91755317322474e-07,
-      "loss": 0.676,
-      "step": 1025
-    },
-    {
-      "epoch": 1.8968692449355433,
-      "grad_norm": 0.7911364129059182,
-      "learning_rate": 1.616898808804568e-07,
-      "loss": 0.6551,
-      "step": 1030
-    },
-    {
-      "epoch": 1.9060773480662982,
-      "grad_norm": 0.7914078659350331,
-      "learning_rate": 1.341675347273652e-07,
-      "loss": 0.6542,
-      "step": 1035
-    },
-    {
-      "epoch": 1.9152854511970534,
-      "grad_norm": 0.803263967646776,
-      "learning_rate": 1.0919539307391314e-07,
-      "loss": 0.6649,
-      "step": 1040
-    },
-    {
-      "epoch": 1.9244935543278086,
-      "grad_norm": 0.9249827462440064,
-      "learning_rate": 8.677991093220761e-08,
-      "loss": 0.654,
-      "step": 1045
-    },
-    {
-      "epoch": 1.9337016574585635,
-      "grad_norm": 0.8226059624242837,
-      "learning_rate": 6.692688244720357e-08,
-      "loss": 0.6414,
-      "step": 1050
-    },
-    {
-      "epoch": 1.9429097605893186,
-      "grad_norm": 0.8086200955718532,
-      "learning_rate": 4.964143939898747e-08,
-      "loss": 0.6503,
-      "step": 1055
-    },
-    {
-      "epoch": 1.9521178637200736,
-      "grad_norm": 0.7620700285094846,
-      "learning_rate": 3.49280498762683e-08,
-      "loss": 0.6538,
-      "step": 1060
-    },
-    {
-      "epoch": 1.9613259668508287,
-      "grad_norm": 0.8452874961667022,
-      "learning_rate": 2.2790517121428212e-08,
-      "loss": 0.6534,
-      "step": 1065
-    },
-    {
-      "epoch": 1.9705340699815839,
-      "grad_norm": 0.8148841155131437,
-      "learning_rate": 1.3231978547427749e-08,
-      "loss": 0.646,
-      "step": 1070
-    },
-    {
-      "epoch": 1.979742173112339,
-      "grad_norm": 0.7814438235127492,
-      "learning_rate": 6.254904926820127e-09,
-      "loss": 0.6488,
-      "step": 1075
-    },
-    {
-      "epoch": 1.988950276243094,
-      "grad_norm": 0.8357299862813449,
-      "learning_rate": 1.8610997530876806e-09,
-      "loss": 0.6691,
-      "step": 1080
-    },
-    {
-      "epoch": 1.9981583793738489,
-      "grad_norm": 0.7847164963349244,
-      "learning_rate": 5.169877445809768e-11,
-      "loss": 0.6439,
-      "step": 1085
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.749311625957489,
-      "eval_runtime": 7.2936,
-      "eval_samples_per_second": 68.553,
-      "eval_steps_per_second": 2.194,
-      "step": 1086
     },
     {
-      "epoch": 2.0,
-      "step": 1086,
-      "total_flos": 98609754931200.0,
-      "train_loss": 0.7310274319095507,
-      "train_runtime": 7114.9679,
-      "train_samples_per_second": 19.536,
       "train_steps_per_second": 0.153
     }
   ],
   "logging_steps": 5,
-  "max_steps": 1086,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 100,
-  "total_flos": 98609754931200.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9977753058954395,
   "eval_steps": 500,
+  "global_step": 898,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.002224694104560623,
+      "grad_norm": 10.055098914546134,
+      "learning_rate": 2.2222222222222224e-07,
+      "loss": 1.3661,
       "step": 1
     },
     {
+      "epoch": 0.011123470522803115,
+      "grad_norm": 9.126296513090308,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 1.2942,
       "step": 5
     },
     {
+      "epoch": 0.02224694104560623,
+      "grad_norm": 7.84364716096091,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 1.313,
       "step": 10
     },
     {
+      "epoch": 0.03337041156840934,
+      "grad_norm": 5.7358942086951625,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.173,
       "step": 15
     },
     {
+      "epoch": 0.04449388209121246,
+      "grad_norm": 1.8899122666121964,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.9741,
       "step": 20
     },
     {
+      "epoch": 0.05561735261401557,
+      "grad_norm": 1.3213559323931832,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.9238,
       "step": 25
     },
     {
+      "epoch": 0.06674082313681869,
+      "grad_norm": 1.041365244653977,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.8728,
       "step": 30
     },
     {
+      "epoch": 0.0778642936596218,
+      "grad_norm": 0.9488843220134849,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.9007,
       "step": 35
     },
     {
+      "epoch": 0.08898776418242492,
+      "grad_norm": 0.8275801836954026,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.8661,
       "step": 40
     },
     {
+      "epoch": 0.10011123470522804,
+      "grad_norm": 0.9030018185879571,
+      "learning_rate": 1e-05,
+      "loss": 0.8484,
       "step": 45
     },
     {
+      "epoch": 0.11123470522803114,
+      "grad_norm": 0.7848210903418559,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 0.8291,
       "step": 50
     },
     {
+      "epoch": 0.12235817575083426,
+      "grad_norm": 0.9313858219522357,
+      "learning_rate": 1.2222222222222224e-05,
+      "loss": 0.8707,
       "step": 55
     },
     {
+      "epoch": 0.13348164627363737,
+      "grad_norm": 0.8227239131251839,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.8055,
       "step": 60
     },
     {
+      "epoch": 0.1446051167964405,
+      "grad_norm": 0.8199201964167689,
+      "learning_rate": 1.4444444444444446e-05,
+      "loss": 0.8151,
       "step": 65
     },
     {
+      "epoch": 0.1557285873192436,
+      "grad_norm": 0.7767041809184307,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 0.8384,
       "step": 70
     },
     {
+      "epoch": 0.1668520578420467,
+      "grad_norm": 0.9088502789460952,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.8106,
       "step": 75
     },
     {
+      "epoch": 0.17797552836484984,
+      "grad_norm": 0.8343739709762875,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 0.7932,
       "step": 80
     },
     {
+      "epoch": 0.18909899888765294,
+      "grad_norm": 0.8939354128507568,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 0.8045,
       "step": 85
     },
     {
+      "epoch": 0.20022246941045607,
+      "grad_norm": 0.885411772323368,
+      "learning_rate": 2e-05,
+      "loss": 0.8009,
       "step": 90
     },
     {
+      "epoch": 0.21134593993325917,
+      "grad_norm": 0.8890660179859062,
+      "learning_rate": 1.9998110384864614e-05,
+      "loss": 0.8225,
       "step": 95
     },
     {
+      "epoch": 0.22246941045606228,
+      "grad_norm": 0.8371399480864414,
+      "learning_rate": 1.9992442253587533e-05,
+      "loss": 0.7893,
       "step": 100
     },
     {
+      "epoch": 0.2335928809788654,
+      "grad_norm": 0.8656120072046296,
+      "learning_rate": 1.998299774828608e-05,
+      "loss": 0.812,
       "step": 105
     },
     {
+      "epoch": 0.2447163515016685,
+      "grad_norm": 0.8486947049775396,
+      "learning_rate": 1.9969780438256295e-05,
+      "loss": 0.7886,
       "step": 110
     },
     {
+      "epoch": 0.25583982202447164,
+      "grad_norm": 0.8507931458580409,
+      "learning_rate": 1.995279531862399e-05,
+      "loss": 0.8078,
       "step": 115
     },
     {
+      "epoch": 0.26696329254727474,
+      "grad_norm": 0.8150830104906274,
+      "learning_rate": 1.993204880845699e-05,
+      "loss": 0.7672,
       "step": 120
     },
     {
+      "epoch": 0.27808676307007785,
+      "grad_norm": 0.8642627038468238,
+      "learning_rate": 1.9907548748339223e-05,
+      "loss": 0.7929,
       "step": 125
     },
     {
+      "epoch": 0.289210233592881,
+      "grad_norm": 0.8541146407873894,
+      "learning_rate": 1.987930439740757e-05,
+      "loss": 0.7873,
       "step": 130
     },
     {
+      "epoch": 0.3003337041156841,
+      "grad_norm": 0.8995167237276087,
+      "learning_rate": 1.9847326429852632e-05,
+      "loss": 0.7862,
       "step": 135
     },
     {
+      "epoch": 0.3114571746384872,
+      "grad_norm": 0.8173771695441595,
+      "learning_rate": 1.981162693088471e-05,
+      "loss": 0.7983,
       "step": 140
     },
     {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8404409912157184,
+      "learning_rate": 1.977221939216652e-05,
+      "loss": 0.8037,
       "step": 145
     },
     {
+      "epoch": 0.3337041156840934,
+      "grad_norm": 0.8245961889334814,
+      "learning_rate": 1.9729118706714377e-05,
+      "loss": 0.8027,
       "step": 150
     },
     {
+      "epoch": 0.3448275862068966,
+      "grad_norm": 0.8314933715558246,
+      "learning_rate": 1.96823411632698e-05,
+      "loss": 0.7843,
       "step": 155
     },
     {
+      "epoch": 0.3559510567296997,
+      "grad_norm": 0.8726345334934287,
+      "learning_rate": 1.9631904440143614e-05,
+      "loss": 0.793,
       "step": 160
     },
     {
+      "epoch": 0.3670745272525028,
+      "grad_norm": 0.8415196157334568,
+      "learning_rate": 1.9577827598534888e-05,
+      "loss": 0.7668,
       "step": 165
     },
     {
+      "epoch": 0.3781979977753059,
+      "grad_norm": 0.8815634680126696,
+      "learning_rate": 1.95201310753273e-05,
+      "loss": 0.7851,
       "step": 170
     },
     {
+      "epoch": 0.389321468298109,
+      "grad_norm": 0.8024209332569573,
+      "learning_rate": 1.945883667536556e-05,
+      "loss": 0.7772,
       "step": 175
     },
     {
+      "epoch": 0.40044493882091214,
+      "grad_norm": 0.8490296704540178,
+      "learning_rate": 1.9393967563214833e-05,
+      "loss": 0.7761,
       "step": 180
     },
     {
+      "epoch": 0.41156840934371525,
+      "grad_norm": 0.8454078852442415,
+      "learning_rate": 1.9325548254406354e-05,
+      "loss": 0.7624,
       "step": 185
     },
     {
+      "epoch": 0.42269187986651835,
+      "grad_norm": 0.8511908385629164,
+      "learning_rate": 1.925360460617242e-05,
+      "loss": 0.7668,
       "step": 190
     },
     {
+      "epoch": 0.43381535038932145,
+      "grad_norm": 0.7982929700309319,
+      "learning_rate": 1.9178163807674343e-05,
+      "loss": 0.7634,
       "step": 195
     },
     {
+      "epoch": 0.44493882091212456,
+      "grad_norm": 0.7816495059977551,
+      "learning_rate": 1.9099254369727062e-05,
+      "loss": 0.7748,
       "step": 200
     },
     {
+      "epoch": 0.4560622914349277,
+      "grad_norm": 0.7563436109378239,
+      "learning_rate": 1.901690611402423e-05,
+      "loss": 0.7722,
       "step": 205
     },
     {
+      "epoch": 0.4671857619577308,
+      "grad_norm": 0.8466958907764663,
+      "learning_rate": 1.8931150161867917e-05,
+      "loss": 0.7765,
       "step": 210
     },
     {
+      "epoch": 0.4783092324805339,
+      "grad_norm": 0.7620831089947199,
+      "learning_rate": 1.8842018922407153e-05,
+      "loss": 0.7704,
       "step": 215
     },
     {
+      "epoch": 0.489432703003337,
+      "grad_norm": 0.84897869766796,
+      "learning_rate": 1.874954608038976e-05,
+      "loss": 0.7729,
       "step": 220
     },
     {
+      "epoch": 0.5005561735261401,
+      "grad_norm": 0.8210216367491153,
+      "learning_rate": 1.8653766583432114e-05,
+      "loss": 0.7716,
       "step": 225
     },
     {
+      "epoch": 0.5116796440489433,
+      "grad_norm": 0.8730864132572128,
+      "learning_rate": 1.855471662881164e-05,
+      "loss": 0.7882,
       "step": 230
     },
     {
+      "epoch": 0.5228031145717463,
+      "grad_norm": 0.7987767766986732,
+      "learning_rate": 1.845243364978702e-05,
+      "loss": 0.7609,
       "step": 235
     },
     {
+      "epoch": 0.5339265850945495,
+      "grad_norm": 0.7622467591417209,
+      "learning_rate": 1.8346956301451303e-05,
+      "loss": 0.7551,
       "step": 240
     },
     {
+      "epoch": 0.5450500556173526,
+      "grad_norm": 0.831755089876671,
+      "learning_rate": 1.8238324446123265e-05,
+      "loss": 0.7634,
       "step": 245
     },
     {
+      "epoch": 0.5561735261401557,
+      "grad_norm": 0.7942015525420777,
+      "learning_rate": 1.8126579138282502e-05,
+      "loss": 0.7541,
       "step": 250
     },
     {
+      "epoch": 0.5672969966629589,
+      "grad_norm": 0.824338690380162,
+      "learning_rate": 1.801176260905402e-05,
+      "loss": 0.7641,
       "step": 255
     },
     {
+      "epoch": 0.578420467185762,
+      "grad_norm": 0.8160737587426502,
+      "learning_rate": 1.7893918250248106e-05,
+      "loss": 0.747,
       "step": 260
     },
     {
+      "epoch": 0.5895439377085651,
+      "grad_norm": 0.7619822007899363,
+      "learning_rate": 1.7773090597961554e-05,
+      "loss": 0.7353,
       "step": 265
     },
     {
+      "epoch": 0.6006674082313682,
+      "grad_norm": 0.7898915967361627,
+      "learning_rate": 1.764932531574648e-05,
+      "loss": 0.7588,
       "step": 270
     },
     {
+      "epoch": 0.6117908787541713,
+      "grad_norm": 0.9091978830168115,
+      "learning_rate": 1.7522669177352978e-05,
+      "loss": 0.781,
       "step": 275
     },
     {
+      "epoch": 0.6229143492769744,
+      "grad_norm": 0.8198662250585645,
+      "learning_rate": 1.7393170049052274e-05,
+      "loss": 0.7545,
       "step": 280
     },
     {
+      "epoch": 0.6340378197997776,
+      "grad_norm": 0.7880789917007047,
+      "learning_rate": 1.7260876871546935e-05,
+      "loss": 0.7726,
       "step": 285
     },
     {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.8385501161327127,
+      "learning_rate": 1.7125839641475074e-05,
+      "loss": 0.7619,
       "step": 290
     },
     {
+      "epoch": 0.6562847608453838,
+      "grad_norm": 0.8924470377096518,
+      "learning_rate": 1.6988109392515432e-05,
+      "loss": 0.7346,
       "step": 295
     },
     {
+      "epoch": 0.6674082313681868,
+      "grad_norm": 0.7890602183226353,
+      "learning_rate": 1.6847738176100632e-05,
+      "loss": 0.7643,
       "step": 300
     },
     {
+      "epoch": 0.67853170189099,
+      "grad_norm": 0.8110214434516344,
+      "learning_rate": 1.6704779041745686e-05,
+      "loss": 0.7603,
       "step": 305
     },
     {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 0.7873486916181355,
+      "learning_rate": 1.65592860169994e-05,
+      "loss": 0.7595,
       "step": 310
     },
     {
+      "epoch": 0.7007786429365962,
+      "grad_norm": 0.7527591581883117,
+      "learning_rate": 1.6411314087026108e-05,
+      "loss": 0.7508,
       "step": 315
     },
     {
+      "epoch": 0.7119021134593994,
+      "grad_norm": 0.8283445625547928,
+      "learning_rate": 1.6260919173825507e-05,
+      "loss": 0.7387,
       "step": 320
     },
     {
+      "epoch": 0.7230255839822024,
+      "grad_norm": 0.7262591008119376,
+      "learning_rate": 1.6108158115098443e-05,
+      "loss": 0.7264,
       "step": 325
     },
     {
+      "epoch": 0.7341490545050056,
+      "grad_norm": 0.7739070575646189,
+      "learning_rate": 1.595308864276666e-05,
+      "loss": 0.7435,
       "step": 330
     },
     {
+      "epoch": 0.7452725250278087,
+      "grad_norm": 0.8489625309544235,
+      "learning_rate": 1.5795769361154548e-05,
+      "loss": 0.7615,
       "step": 335
     },
     {
+      "epoch": 0.7563959955506118,
+      "grad_norm": 0.769293674851008,
+      "learning_rate": 1.5636259724841224e-05,
+      "loss": 0.7536,
       "step": 340
     },
     {
+      "epoch": 0.7675194660734149,
+      "grad_norm": 0.7920492833518509,
+      "learning_rate": 1.5474620016191296e-05,
+      "loss": 0.7431,
       "step": 345
     },
     {
+      "epoch": 0.778642936596218,
+      "grad_norm": 0.7468241826638446,
+      "learning_rate": 1.531091132257275e-05,
+      "loss": 0.732,
       "step": 350
     },
     {
+      "epoch": 0.7897664071190211,
+      "grad_norm": 0.743401655764991,
+      "learning_rate": 1.5145195513270644e-05,
+      "loss": 0.7291,
       "step": 355
     },
     {
+      "epoch": 0.8008898776418243,
+      "grad_norm": 0.8018681967515083,
+      "learning_rate": 1.4977535216105258e-05,
+      "loss": 0.7257,
       "step": 360
     },
     {
+      "epoch": 0.8120133481646273,
+      "grad_norm": 0.7600864193920938,
+      "learning_rate": 1.480799379376362e-05,
+      "loss": 0.741,
       "step": 365
     },
     {
+      "epoch": 0.8231368186874305,
+      "grad_norm": 0.8389942553789884,
+      "learning_rate": 1.4636635319853274e-05,
+      "loss": 0.742,
       "step": 370
     },
     {
+      "epoch": 0.8342602892102335,
+      "grad_norm": 0.7886124496265561,
+      "learning_rate": 1.4463524554687398e-05,
+      "loss": 0.7545,
       "step": 375
     },
     {
+      "epoch": 0.8453837597330367,
+      "grad_norm": 0.7344461106509269,
+      "learning_rate": 1.4288726920810381e-05,
+      "loss": 0.7278,
       "step": 380
     },
     {
+      "epoch": 0.8565072302558399,
+      "grad_norm": 0.8189552942167496,
+      "learning_rate": 1.4112308478273144e-05,
+      "loss": 0.7461,
       "step": 385
     },
     {
+      "epoch": 0.8676307007786429,
+      "grad_norm": 0.7834178214856152,
+      "learning_rate": 1.3934335899667526e-05,
+      "loss": 0.7378,
       "step": 390
     },
     {
+      "epoch": 0.8787541713014461,
+      "grad_norm": 0.7714482088214847,
+      "learning_rate": 1.3754876444929165e-05,
+      "loss": 0.7489,
       "step": 395
     },
     {
+      "epoch": 0.8898776418242491,
+      "grad_norm": 0.7755466989206458,
+      "learning_rate": 1.357399793591844e-05,
+      "loss": 0.7469,
       "step": 400
     },
     {
+      "epoch": 0.9010011123470523,
+      "grad_norm": 0.8377177614112041,
+      "learning_rate": 1.3391768730789e-05,
+      "loss": 0.739,
       "step": 405
     },
     {
+      "epoch": 0.9121245828698554,
+      "grad_norm": 0.7908000259612985,
+      "learning_rate": 1.3208257698153677e-05,
+      "loss": 0.7281,
       "step": 410
     },
     {
+      "epoch": 0.9232480533926585,
+      "grad_norm": 0.7818338363656034,
+      "learning_rate": 1.3023534191057427e-05,
+      "loss": 0.753,
       "step": 415
     },
     {
+      "epoch": 0.9343715239154616,
+      "grad_norm": 0.749284045444348,
+      "learning_rate": 1.283766802076722e-05,
+      "loss": 0.738,
       "step": 420
     },
     {
+      "epoch": 0.9454949944382648,
+      "grad_norm": 0.7839632426822802,
+      "learning_rate": 1.2650729430388764e-05,
+      "loss": 0.7436,
       "step": 425
     },
     {
+      "epoch": 0.9566184649610678,
+      "grad_norm": 0.7721084207333134,
+      "learning_rate": 1.2462789068320016e-05,
+      "loss": 0.748,
       "step": 430
     },
     {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.7290139666717954,
+      "learning_rate": 1.2273917961551513e-05,
+      "loss": 0.7239,
       "step": 435
     },
     {
+      "epoch": 0.978865406006674,
+      "grad_norm": 0.8056619429328024,
+      "learning_rate": 1.2084187488823657e-05,
+      "loss": 0.738,
       "step": 440
     },
     {
+      "epoch": 0.9899888765294772,
+      "grad_norm": 0.7770001841474352,
+      "learning_rate": 1.1893669353651032e-05,
+      "loss": 0.7385,
       "step": 445
     },
     {
+      "epoch": 0.9988876529477196,
+      "eval_loss": 0.7580433487892151,
+      "eval_runtime": 5.7595,
+      "eval_samples_per_second": 70.666,
+      "eval_steps_per_second": 2.257,
+      "step": 449
+    },
+    {
+      "epoch": 1.0011123470522802,
+      "grad_norm": 0.8135422551691482,
+      "learning_rate": 1.1702435557223988e-05,
+      "loss": 0.7266,
       "step": 450
     },
     {
+      "epoch": 1.0122358175750834,
+      "grad_norm": 0.8964435701944624,
+      "learning_rate": 1.1510558371197754e-05,
+      "loss": 0.6412,
       "step": 455
     },
     {
+      "epoch": 1.0233592880978866,
+      "grad_norm": 0.8600984235769464,
+      "learning_rate": 1.1318110310379303e-05,
+      "loss": 0.6433,
       "step": 460
     },
     {
+      "epoch": 1.0344827586206897,
+      "grad_norm": 0.8458880171077358,
+      "learning_rate": 1.112516410532233e-05,
+      "loss": 0.6292,
       "step": 465
     },
     {
+      "epoch": 1.0456062291434929,
+      "grad_norm": 0.8284785412200435,
+      "learning_rate": 1.0931792674840718e-05,
+      "loss": 0.6339,
       "step": 470
     },
     {
+      "epoch": 1.0567296996662958,
+      "grad_norm": 0.7444359225044646,
+      "learning_rate": 1.073806909845082e-05,
+      "loss": 0.6355,
       "step": 475
     },
     {
+      "epoch": 1.067853170189099,
+      "grad_norm": 0.7723149976392786,
+      "learning_rate": 1.0544066588753044e-05,
+      "loss": 0.6235,
       "step": 480
     },
     {
+      "epoch": 1.0789766407119021,
+      "grad_norm": 0.7593187602310192,
+      "learning_rate": 1.0349858463763114e-05,
+      "loss": 0.6105,
       "step": 485
     },
     {
+      "epoch": 1.0901001112347053,
+      "grad_norm": 0.7855139607799839,
+      "learning_rate": 1.0155518119203511e-05,
+      "loss": 0.6568,
       "step": 490
     },
     {
+      "epoch": 1.1012235817575085,
+      "grad_norm": 0.7898700329509037,
+      "learning_rate": 9.961119000765532e-06,
+      "loss": 0.6225,
       "step": 495
     },
     {
+      "epoch": 1.1123470522803114,
+      "grad_norm": 0.8669564798886822,
+      "learning_rate": 9.766734576352478e-06,
+      "loss": 0.6391,
       "step": 500
     },
     {
+      "epoch": 1.1234705228031145,
+      "grad_norm": 0.7837289412561955,
+      "learning_rate": 9.572438308314447e-06,
+      "loss": 0.6171,
       "step": 505
     },
     {
+      "epoch": 1.1345939933259177,
+      "grad_norm": 0.8070851055141667,
+      "learning_rate": 9.378303625685196e-06,
+      "loss": 0.6282,
       "step": 510
     },
     {
+      "epoch": 1.1457174638487209,
+      "grad_norm": 0.7979212620110364,
+      "learning_rate": 9.184403896431649e-06,
+      "loss": 0.6233,
       "step": 515
     },
     {
+      "epoch": 1.156840934371524,
+      "grad_norm": 0.7704548256097349,
+      "learning_rate": 8.990812399726435e-06,
+      "loss": 0.5992,
       "step": 520
     },
     {
+      "epoch": 1.167964404894327,
+      "grad_norm": 0.8961749452380681,
+      "learning_rate": 8.797602298254005e-06,
+      "loss": 0.6378,
       "step": 525
     },
     {
+      "epoch": 1.1790878754171301,
+      "grad_norm": 0.8053259116501744,
+      "learning_rate": 8.604846610560771e-06,
+      "loss": 0.605,
       "step": 530
     },
     {
+      "epoch": 1.1902113459399333,
+      "grad_norm": 0.7782548725591264,
+      "learning_rate": 8.412618183459707e-06,
+      "loss": 0.6081,
       "step": 535
     },
     {
+      "epoch": 1.2013348164627364,
+      "grad_norm": 0.7780589674933976,
+      "learning_rate": 8.22098966449988e-06,
+      "loss": 0.6251,
       "step": 540
     },
     {
+      "epoch": 1.2124582869855396,
+      "grad_norm": 0.8213283153654349,
+      "learning_rate": 8.030033474511248e-06,
+      "loss": 0.6092,
       "step": 545
     },
     {
+      "epoch": 1.2235817575083425,
+      "grad_norm": 0.7889430474165346,
+      "learning_rate": 7.839821780235168e-06,
+      "loss": 0.645,
       "step": 550
     },
     {
+      "epoch": 1.2347052280311457,
+      "grad_norm": 0.8377912406937705,
+      "learning_rate": 7.650426467050926e-06,
+      "loss": 0.6286,
       "step": 555
     },
     {
+      "epoch": 1.2458286985539488,
+      "grad_norm": 0.8488324297083317,
+      "learning_rate": 7.4619191118085955e-06,
+      "loss": 0.6129,
       "step": 560
     },
     {
+      "epoch": 1.256952169076752,
+      "grad_norm": 0.7608536209939344,
+      "learning_rate": 7.274370955778498e-06,
+      "loss": 0.6072,
       "step": 565
     },
     {
+      "epoch": 1.2680756395995552,
+      "grad_norm": 0.7928583676765779,
+      "learning_rate": 7.0878528777274814e-06,
+      "loss": 0.6042,
       "step": 570
     },
     {
+      "epoch": 1.279199110122358,
+      "grad_norm": 1.5882806537259504,
+      "learning_rate": 6.9024353671322086e-06,
+      "loss": 0.647,
       "step": 575
     },
     {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.8447762128943721,
+      "learning_rate": 6.718188497539554e-06,
+      "loss": 0.6214,
       "step": 580
     },
     {
+      "epoch": 1.3014460511679644,
+      "grad_norm": 0.8209371297634136,
+      "learning_rate": 6.535181900084206e-06,
+      "loss": 0.6079,
       "step": 585
     },
     {
+      "epoch": 1.3125695216907676,
+      "grad_norm": 0.8624820584895021,
+      "learning_rate": 6.35348473717345e-06,
+      "loss": 0.6221,
       "step": 590
     },
     {
+      "epoch": 1.3236929922135707,
+      "grad_norm": 0.8056054069589547,
+      "learning_rate": 6.173165676349103e-06,
+      "loss": 0.6254,
       "step": 595
     },
     {
+      "epoch": 1.3348164627363737,
+      "grad_norm": 0.8273703875367165,
+      "learning_rate": 5.994292864336473e-06,
+      "loss": 0.6119,
       "step": 600
     },
     {
+      "epoch": 1.3459399332591768,
+      "grad_norm": 0.8723777846098392,
+      "learning_rate": 5.816933901290136e-06,
+      "loss": 0.6395,
       "step": 605
     },
     {
+      "epoch": 1.35706340378198,
+      "grad_norm": 0.8674540470170442,
+      "learning_rate": 5.64115581524629e-06,
+      "loss": 0.6163,
       "step": 610
     },
     {
+      "epoch": 1.3681868743047831,
+      "grad_norm": 0.8762720501618131,
+      "learning_rate": 5.4670250367913025e-06,
+      "loss": 0.6225,
       "step": 615
     },
     {
+      "epoch": 1.3793103448275863,
+      "grad_norm": 0.8491305197357123,
+      "learning_rate": 5.294607373956071e-06,
+      "loss": 0.6093,
       "step": 620
     },
     {
+      "epoch": 1.3904338153503892,
+      "grad_norm": 0.8166208130830984,
+      "learning_rate": 5.1239679873456636e-06,
+      "loss": 0.6361,
       "step": 625
     },
     {
+      "epoch": 1.4015572858731924,
+      "grad_norm": 0.8009131846316857,
+      "learning_rate": 4.955171365513603e-06,
+      "loss": 0.617,
       "step": 630
     },
     {
+      "epoch": 1.4126807563959956,
+      "grad_norm": 0.8366294436519559,
+      "learning_rate": 4.788281300590169e-06,
+      "loss": 0.6118,
       "step": 635
     },
     {
+      "epoch": 1.4238042269187987,
+      "grad_norm": 0.8808417873595291,
+      "learning_rate": 4.623360864173893e-06,
+      "loss": 0.6177,
       "step": 640
     },
     {
+      "epoch": 1.4349276974416019,
+      "grad_norm": 0.8629287010139255,
+      "learning_rate": 4.4604723834953315e-06,
+      "loss": 0.6251,
       "step": 645
     },
     {
+      "epoch": 1.4460511679644048,
+      "grad_norm": 0.7875671775994082,
+      "learning_rate": 4.299677417862174e-06,
+      "loss": 0.6199,
       "step": 650
     },
     {
+      "epoch": 1.457174638487208,
+      "grad_norm": 0.7828729245421459,
+      "learning_rate": 4.141036735394575e-06,
+      "loss": 0.6215,
       "step": 655
     },
     {
+      "epoch": 1.4682981090100111,
+      "grad_norm": 0.8007957527163657,
+      "learning_rate": 3.984610290059467e-06,
+      "loss": 0.6253,
       "step": 660
     },
     {
+      "epoch": 1.4794215795328143,
+      "grad_norm": 0.7910153849628225,
+      "learning_rate": 3.830457199012585e-06,
+      "loss": 0.6157,
       "step": 665
     },
     {
+      "epoch": 1.4905450500556174,
+      "grad_norm": 0.8255633946537543,
+      "learning_rate": 3.6786357202567367e-06,
+      "loss": 0.6182,
       "step": 670
     },
     {
+      "epoch": 1.5016685205784204,
+      "grad_norm": 0.8740651322002517,
+      "learning_rate": 3.529203230624747e-06,
+      "loss": 0.6334,
       "step": 675
     },
     {
+      "epoch": 1.5127919911012235,
+      "grad_norm": 0.7540939777667681,
+      "learning_rate": 3.3822162040954355e-06,
+      "loss": 0.596,
       "step": 680
     },
     {
+      "epoch": 1.5239154616240267,
+      "grad_norm": 0.7934734563966453,
+      "learning_rate": 3.2377301904508163e-06,
+      "loss": 0.5951,
       "step": 685
     },
     {
+      "epoch": 1.5350389321468298,
+      "grad_norm": 0.8131581917254441,
+      "learning_rate": 3.0957997942825337e-06,
+      "loss": 0.612,
       "step": 690
     },
     {
+      "epoch": 1.546162402669633,
+      "grad_norm": 0.8454586171154052,
+      "learning_rate": 2.956478654355539e-06,
+      "loss": 0.6293,
       "step": 695
     },
     {
+      "epoch": 1.557285873192436,
+      "grad_norm": 0.8339559981613245,
+      "learning_rate": 2.8198194233367747e-06,
+      "loss": 0.6088,
       "step": 700
     },
     {
+      "epoch": 1.568409343715239,
+      "grad_norm": 0.821374605567537,
+      "learning_rate": 2.6858737478965036e-06,
+      "loss": 0.6233,
       "step": 705
     },
     {
+      "epoch": 1.5795328142380423,
+      "grad_norm": 0.7711457173871649,
+      "learning_rate": 2.5546922491898497e-06,
+      "loss": 0.6262,
       "step": 710
     },
     {
+      "epoch": 1.5906562847608454,
+      "grad_norm": 0.841438327290974,
+      "learning_rate": 2.4263245037258996e-06,
+      "loss": 0.6359,
       "step": 715
     },
     {
+      "epoch": 1.6017797552836486,
+      "grad_norm": 0.8546385634639357,
+      "learning_rate": 2.3008190246316033e-06,
+      "loss": 0.6312,
       "step": 720
     },
     {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.7477788666400325,
+      "learning_rate": 2.178223243317532e-06,
+      "loss": 0.6115,
       "step": 725
     },
     {
+      "epoch": 1.624026696329255,
+      "grad_norm": 0.8448273050299596,
+      "learning_rate": 2.058583491552465e-06,
+      "loss": 0.641,
       "step": 730
     },
     {
+      "epoch": 1.6351501668520578,
+      "grad_norm": 0.8261008969765296,
+      "learning_rate": 1.9419449839535522e-06,
+      "loss": 0.617,
       "step": 735
     },
     {
+      "epoch": 1.646273637374861,
+      "grad_norm": 0.8357122860638048,
+      "learning_rate": 1.8283518008986566e-06,
+      "loss": 0.607,
       "step": 740
     },
     {
+      "epoch": 1.6573971078976641,
+      "grad_norm": 0.8350425917666864,
+      "learning_rate": 1.7178468718673712e-06,
+      "loss": 0.607,
       "step": 745
     },
     {
+      "epoch": 1.668520578420467,
+      "grad_norm": 0.8305517949246249,
+      "learning_rate": 1.6104719592169905e-06,
+      "loss": 0.6151,
       "step": 750
     },
     {
+      "epoch": 1.6796440489432705,
+      "grad_norm": 0.8186870980107259,
+      "learning_rate": 1.506267642399525e-06,
+      "loss": 0.6385,
       "step": 755
     },
     {
+      "epoch": 1.6907675194660734,
+      "grad_norm": 0.7636300249499965,
+      "learning_rate": 1.405273302625828e-06,
+      "loss": 0.6075,
       "step": 760
     },
     {
+      "epoch": 1.7018909899888766,
+      "grad_norm": 0.8363995841599257,
+      "learning_rate": 1.3075271079825035e-06,
+      "loss": 0.638,
       "step": 765
     },
     {
+      "epoch": 1.7130144605116797,
+      "grad_norm": 0.7622345846029582,
+      "learning_rate": 1.2130659990073146e-06,
+      "loss": 0.6125,
       "step": 770
     },
     {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 0.7854431717950116,
+      "learning_rate": 1.1219256747285046e-06,
+      "loss": 0.6203,
       "step": 775
     },
     {
+      "epoch": 1.735261401557286,
+      "grad_norm": 0.80577828518747,
+      "learning_rate": 1.0341405791733183e-06,
+      "loss": 0.6318,
       "step": 780
     },
     {
+      "epoch": 1.746384872080089,
+      "grad_norm": 0.8025241111868774,
+      "learning_rate": 9.497438883507981e-07,
+      "loss": 0.6104,
       "step": 785
     },
     {
+      "epoch": 1.7575083426028921,
+      "grad_norm": 0.7484880734203889,
+      "learning_rate": 8.687674977138116e-07,
+      "loss": 0.6111,
       "step": 790
     },
     {
+      "epoch": 1.7686318131256953,
+      "grad_norm": 0.7844040069263457,
+      "learning_rate": 7.912420101050366e-07,
+      "loss": 0.6058,
       "step": 795
     },
     {
+      "epoch": 1.7797552836484982,
+      "grad_norm": 0.832757853518197,
+      "learning_rate": 7.171967241914224e-07,
+      "loss": 0.6168,
       "step": 800
     },
     {
+      "epoch": 1.7908787541713016,
+      "grad_norm": 0.7982807830933683,
+      "learning_rate": 6.466596233915601e-07,
+      "loss": 0.6111,
       "step": 805
     },
     {
+      "epoch": 1.8020022246941045,
+      "grad_norm": 0.8285138016892091,
+      "learning_rate": 5.796573653001091e-07,
+      "loss": 0.6206,
       "step": 810
     },
     {
+      "epoch": 1.8131256952169077,
+      "grad_norm": 0.8098593367246673,
+      "learning_rate": 5.162152716132662e-07,
+      "loss": 0.6301,
       "step": 815
     },
     {
+      "epoch": 1.8242491657397109,
+      "grad_norm": 0.8317063889098834,
+      "learning_rate": 4.563573185591219e-07,
+      "loss": 0.5913,
       "step": 820
     },
     {
+      "epoch": 1.8353726362625138,
+      "grad_norm": 0.7802676617619877,
+      "learning_rate": 4.0010612783648927e-07,
+      "loss": 0.6009,
       "step": 825
     },
     {
+      "epoch": 1.8464961067853172,
+      "grad_norm": 0.8359715597402506,
+      "learning_rate": 3.474829580656436e-07,
+      "loss": 0.6129,
       "step": 830
     },
     {
+      "epoch": 1.85761957730812,
+      "grad_norm": 0.7764499156414768,
+      "learning_rate": 2.9850769675419776e-07,
+      "loss": 0.6233,
       "step": 835
     },
     {
+      "epoch": 1.8687430478309233,
+      "grad_norm": 0.8028424415714934,
+      "learning_rate": 2.5319885278115907e-07,
+      "loss": 0.6079,
       "step": 840
     },
     {
+      "epoch": 1.8798665183537264,
+      "grad_norm": 0.8831031088714258,
+      "learning_rate": 2.115735494019966e-07,
+      "loss": 0.6258,
       "step": 845
     },
     {
+      "epoch": 1.8909899888765294,
+      "grad_norm": 0.7653050119042255,
+      "learning_rate": 1.7364751777736334e-07,
+      "loss": 0.6212,
       "step": 850
     },
     {
+      "epoch": 1.9021134593993327,
+      "grad_norm": 0.8479149432867373,
+      "learning_rate": 1.394350910279385e-07,
+      "loss": 0.6006,
       "step": 855
     },
     {
+      "epoch": 1.9132369299221357,
+      "grad_norm": 0.8537537714787563,
+      "learning_rate": 1.0894919881760168e-07,
+      "loss": 0.6291,
       "step": 860
     },
     {
+      "epoch": 1.9243604004449388,
+      "grad_norm": 0.8315410821072657,
+      "learning_rate": 8.220136246701926e-08,
+      "loss": 0.6226,
       "step": 865
     },
     {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.8500259667306754,
+      "learning_rate": 5.920169059947412e-08,
+      "loss": 0.6108,
       "step": 870
     },
     {
+      "epoch": 1.946607341490545,
+      "grad_norm": 0.8522681381543702,
+      "learning_rate": 3.99588753205804e-08,
+      "loss": 0.6239,
       "step": 875
     },
     {
+      "epoch": 1.9577308120133483,
+      "grad_norm": 0.7583572716472294,
+      "learning_rate": 2.4480188933336812e-08,
+      "loss": 0.6128,
       "step": 880
     },
     {
+      "epoch": 1.9688542825361512,
+      "grad_norm": 0.7629282401468074,
+      "learning_rate": 1.277148118975835e-08,
+      "loss": 0.6022,
       "step": 885
     },
     {
+      "epoch": 1.9799777530589544,
+      "grad_norm": 0.817692770966463,
+      "learning_rate": 4.837177080119215e-09,
+      "loss": 0.6154,
       "step": 890
     },
     {
+      "epoch": 1.9911012235817576,
+      "grad_norm": 0.774109128612781,
+      "learning_rate": 6.8027516064606e-10,
+      "loss": 0.616,
       "step": 895
     },
     {
+      "epoch": 1.9977753058954395,
+      "eval_loss": 0.7532592415809631,
+      "eval_runtime": 5.6688,
+      "eval_samples_per_second": 71.797,
+      "eval_steps_per_second": 2.293,
+      "step": 898
     },
     {
+      "epoch": 1.9977753058954395,
+      "step": 898,
+      "total_flos": 81428314521600.0,
+      "train_loss": 0.7065894536026868,
+      "train_runtime": 5871.8562,
+      "train_samples_per_second": 19.593,
       "train_steps_per_second": 0.153
     }
   ],
   "logging_steps": 5,
+  "max_steps": 898,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 100,
+  "total_flos": 81428314521600.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null