Upload 8 files

Browse files

Files changed (4) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +2964 -4

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63c707b72c3779662a4c5641912d3bd484e848cda99f1f5fa45be2dfd8a0fef8
 size 18494040

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ebc653e18935ef6e6d593d943659324be81a89c736dc6b33141d9a72bc9696c
 size 18494040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dadf442c9909d4e1c2b9e49f1d628a9826771fbfb353eea8aaebd90c70f08957
 size 37035002

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c16f2324ca710c73fffdab8ac0b51ca0937adca9d3ea12a4fcf7b6b75c642b3
 size 37035002

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7341b3083234687d0b9b4d7741daf02731dfc2e5ecfee8b661951c827d79431
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:caeb79da12fade882c795419ac73c6806820c6ccef19831ac9e9b66b6ca1212b
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.28651874218272183,
   "eval_steps": 500,
-  "global_step": 26000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1391,11 +1391,2971 @@
       "loss": 4.5421,
       "num_input_tokens_seen": 151536512,
       "step": 25950
     }
   ],
   "logging_steps": 150,
   "max_steps": 272232,
-  "num_input_tokens_seen": 151830560,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
@@ -1410,7 +4370,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2344361017958400.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8981260572266088,
   "eval_steps": 500,
+  "global_step": 81500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 4.5421,
       "num_input_tokens_seen": 151536512,
       "step": 25950
+    },
+    {
+      "epoch": 0.2876207373449631,
+      "grad_norm": 1.851283073425293,
+      "learning_rate": 0.0001446669703336909,
+      "loss": 4.5469,
+      "num_input_tokens_seen": 152395904,
+      "step": 26100
+    },
+    {
+      "epoch": 0.2892737300883249,
+      "grad_norm": 1.8593121767044067,
+      "learning_rate": 0.00014457880893956537,
+      "loss": 4.5536,
+      "num_input_tokens_seen": 153263904,
+      "step": 26250
+    },
+    {
+      "epoch": 0.29092672283168675,
+      "grad_norm": 1.8973345756530762,
+      "learning_rate": 0.00014449064754543987,
+      "loss": 4.5613,
+      "num_input_tokens_seen": 154143616,
+      "step": 26400
+    },
+    {
+      "epoch": 0.29257971557504864,
+      "grad_norm": 1.9224932193756104,
+      "learning_rate": 0.00014440307389394186,
+      "loss": 4.5513,
+      "num_input_tokens_seen": 155013568,
+      "step": 26550
+    },
+    {
+      "epoch": 0.2942327083184105,
+      "grad_norm": 1.8901547193527222,
+      "learning_rate": 0.00014431491249981634,
+      "loss": 4.5552,
+      "num_input_tokens_seen": 155889408,
+      "step": 26700
+    },
+    {
+      "epoch": 0.29588570106177237,
+      "grad_norm": 1.8522729873657227,
+      "learning_rate": 0.0001442267511056908,
+      "loss": 4.546,
+      "num_input_tokens_seen": 156769184,
+      "step": 26850
+    },
+    {
+      "epoch": 0.2975386938051342,
+      "grad_norm": 1.8729475736618042,
+      "learning_rate": 0.00014413858971156531,
+      "loss": 4.553,
+      "num_input_tokens_seen": 157648416,
+      "step": 27000
+    },
+    {
+      "epoch": 0.29919168654849604,
+      "grad_norm": 1.8859171867370605,
+      "learning_rate": 0.0001440504283174398,
+      "loss": 4.5468,
+      "num_input_tokens_seen": 158528480,
+      "step": 27150
+    },
+    {
+      "epoch": 0.30084467929185793,
+      "grad_norm": 1.8305902481079102,
+      "learning_rate": 0.0001439628546659418,
+      "loss": 4.554,
+      "num_input_tokens_seen": 159401376,
+      "step": 27300
+    },
+    {
+      "epoch": 0.30249767203521977,
+      "grad_norm": 1.7858612537384033,
+      "learning_rate": 0.00014387469327181628,
+      "loss": 4.5459,
+      "num_input_tokens_seen": 160297888,
+      "step": 27450
+    },
+    {
+      "epoch": 0.3041506647785816,
+      "grad_norm": 1.9333041906356812,
+      "learning_rate": 0.00014378653187769078,
+      "loss": 4.5488,
+      "num_input_tokens_seen": 161189632,
+      "step": 27600
+    },
+    {
+      "epoch": 0.3058036575219435,
+      "grad_norm": 1.904167652130127,
+      "learning_rate": 0.00014369837048356526,
+      "loss": 4.5457,
+      "num_input_tokens_seen": 162069728,
+      "step": 27750
+    },
+    {
+      "epoch": 0.30745665026530533,
+      "grad_norm": 1.8620493412017822,
+      "learning_rate": 0.00014361020908943976,
+      "loss": 4.543,
+      "num_input_tokens_seen": 162956000,
+      "step": 27900
+    },
+    {
+      "epoch": 0.30910964300866717,
+      "grad_norm": 1.9523295164108276,
+      "learning_rate": 0.00014352204769531424,
+      "loss": 4.5368,
+      "num_input_tokens_seen": 163850880,
+      "step": 28050
+    },
+    {
+      "epoch": 0.31076263575202906,
+      "grad_norm": 1.842017412185669,
+      "learning_rate": 0.00014343388630118874,
+      "loss": 4.5423,
+      "num_input_tokens_seen": 164723840,
+      "step": 28200
+    },
+    {
+      "epoch": 0.3124156284953909,
+      "grad_norm": 2.015977621078491,
+      "learning_rate": 0.0001433457249070632,
+      "loss": 4.5306,
+      "num_input_tokens_seen": 165582464,
+      "step": 28350
+    },
+    {
+      "epoch": 0.3140686212387528,
+      "grad_norm": 1.7622820138931274,
+      "learning_rate": 0.00014325756351293772,
+      "loss": 4.5336,
+      "num_input_tokens_seen": 166442496,
+      "step": 28500
+    },
+    {
+      "epoch": 0.3157216139821146,
+      "grad_norm": 1.8762463331222534,
+      "learning_rate": 0.0001431694021188122,
+      "loss": 4.5363,
+      "num_input_tokens_seen": 167318048,
+      "step": 28650
+    },
+    {
+      "epoch": 0.31737460672547646,
+      "grad_norm": 1.9524190425872803,
+      "learning_rate": 0.00014308124072468667,
+      "loss": 4.5498,
+      "num_input_tokens_seen": 168209312,
+      "step": 28800
+    },
+    {
+      "epoch": 0.31902759946883835,
+      "grad_norm": 1.8535164594650269,
+      "learning_rate": 0.00014299307933056117,
+      "loss": 4.5481,
+      "num_input_tokens_seen": 169096896,
+      "step": 28950
+    },
+    {
+      "epoch": 0.3206805922122002,
+      "grad_norm": 1.9309056997299194,
+      "learning_rate": 0.00014290491793643564,
+      "loss": 4.5416,
+      "num_input_tokens_seen": 169963008,
+      "step": 29100
+    },
+    {
+      "epoch": 0.322333584955562,
+      "grad_norm": 1.8341314792633057,
+      "learning_rate": 0.00014281675654231014,
+      "loss": 4.5439,
+      "num_input_tokens_seen": 170836736,
+      "step": 29250
+    },
+    {
+      "epoch": 0.3239865776989239,
+      "grad_norm": 1.8341432809829712,
+      "learning_rate": 0.00014272859514818462,
+      "loss": 4.5365,
+      "num_input_tokens_seen": 171728896,
+      "step": 29400
+    },
+    {
+      "epoch": 0.32563957044228575,
+      "grad_norm": 1.9161962270736694,
+      "learning_rate": 0.00014264043375405912,
+      "loss": 4.5428,
+      "num_input_tokens_seen": 172603008,
+      "step": 29550
+    },
+    {
+      "epoch": 0.3272925631856476,
+      "grad_norm": 1.8521162271499634,
+      "learning_rate": 0.0001425522723599336,
+      "loss": 4.5283,
+      "num_input_tokens_seen": 173475392,
+      "step": 29700
+    },
+    {
+      "epoch": 0.3289455559290095,
+      "grad_norm": 1.9026546478271484,
+      "learning_rate": 0.0001424641109658081,
+      "loss": 4.5306,
+      "num_input_tokens_seen": 174360832,
+      "step": 29850
+    },
+    {
+      "epoch": 0.3305985486723713,
+      "grad_norm": 1.9297667741775513,
+      "learning_rate": 0.00014237594957168257,
+      "loss": 4.5301,
+      "num_input_tokens_seen": 175244576,
+      "step": 30000
+    },
+    {
+      "epoch": 0.3322515414157332,
+      "grad_norm": 1.9747087955474854,
+      "learning_rate": 0.00014228778817755705,
+      "loss": 4.54,
+      "num_input_tokens_seen": 176108352,
+      "step": 30150
+    },
+    {
+      "epoch": 0.33390453415909505,
+      "grad_norm": 1.9235451221466064,
+      "learning_rate": 0.00014219962678343155,
+      "loss": 4.5438,
+      "num_input_tokens_seen": 176987808,
+      "step": 30300
+    },
+    {
+      "epoch": 0.3355575269024569,
+      "grad_norm": 1.8416277170181274,
+      "learning_rate": 0.00014211146538930603,
+      "loss": 4.5476,
+      "num_input_tokens_seen": 177875584,
+      "step": 30450
+    },
+    {
+      "epoch": 0.3372105196458188,
+      "grad_norm": 1.899798035621643,
+      "learning_rate": 0.00014202330399518053,
+      "loss": 4.5413,
+      "num_input_tokens_seen": 178752480,
+      "step": 30600
+    },
+    {
+      "epoch": 0.3388635123891806,
+      "grad_norm": 1.8849375247955322,
+      "learning_rate": 0.000141935142601055,
+      "loss": 4.5199,
+      "num_input_tokens_seen": 179634080,
+      "step": 30750
+    },
+    {
+      "epoch": 0.34051650513254245,
+      "grad_norm": 1.7944519519805908,
+      "learning_rate": 0.0001418469812069295,
+      "loss": 4.5268,
+      "num_input_tokens_seen": 180501472,
+      "step": 30900
+    },
+    {
+      "epoch": 0.34216949787590434,
+      "grad_norm": 1.8572932481765747,
+      "learning_rate": 0.00014175881981280398,
+      "loss": 4.5268,
+      "num_input_tokens_seen": 181388384,
+      "step": 31050
+    },
+    {
+      "epoch": 0.3438224906192662,
+      "grad_norm": 1.8637559413909912,
+      "learning_rate": 0.00014167065841867846,
+      "loss": 4.5245,
+      "num_input_tokens_seen": 182271040,
+      "step": 31200
+    },
+    {
+      "epoch": 0.345475483362628,
+      "grad_norm": 1.902794361114502,
+      "learning_rate": 0.00014158249702455296,
+      "loss": 4.5138,
+      "num_input_tokens_seen": 183160032,
+      "step": 31350
+    },
+    {
+      "epoch": 0.3471284761059899,
+      "grad_norm": 1.8915212154388428,
+      "learning_rate": 0.00014149433563042743,
+      "loss": 4.5296,
+      "num_input_tokens_seen": 184045856,
+      "step": 31500
+    },
+    {
+      "epoch": 0.34878146884935174,
+      "grad_norm": 1.9054772853851318,
+      "learning_rate": 0.00014140617423630193,
+      "loss": 4.5343,
+      "num_input_tokens_seen": 184935872,
+      "step": 31650
+    },
+    {
+      "epoch": 0.35043446159271363,
+      "grad_norm": 1.8381603956222534,
+      "learning_rate": 0.0001413180128421764,
+      "loss": 4.5241,
+      "num_input_tokens_seen": 185812160,
+      "step": 31800
+    },
+    {
+      "epoch": 0.35208745433607547,
+      "grad_norm": 1.8929849863052368,
+      "learning_rate": 0.0001412298514480509,
+      "loss": 4.5311,
+      "num_input_tokens_seen": 186698304,
+      "step": 31950
+    },
+    {
+      "epoch": 0.3537404470794373,
+      "grad_norm": 1.8554471731185913,
+      "learning_rate": 0.0001411422777965529,
+      "loss": 4.52,
+      "num_input_tokens_seen": 187570560,
+      "step": 32100
+    },
+    {
+      "epoch": 0.3553934398227992,
+      "grad_norm": 1.8524342775344849,
+      "learning_rate": 0.00014105411640242738,
+      "loss": 4.5231,
+      "num_input_tokens_seen": 188446880,
+      "step": 32250
+    },
+    {
+      "epoch": 0.35704643256616103,
+      "grad_norm": 1.8730753660202026,
+      "learning_rate": 0.00014096595500830188,
+      "loss": 4.5315,
+      "num_input_tokens_seen": 189329856,
+      "step": 32400
+    },
+    {
+      "epoch": 0.35869942530952287,
+      "grad_norm": 1.8252793550491333,
+      "learning_rate": 0.00014087779361417636,
+      "loss": 4.5165,
+      "num_input_tokens_seen": 190203872,
+      "step": 32550
+    },
+    {
+      "epoch": 0.36035241805288476,
+      "grad_norm": 1.8541933298110962,
+      "learning_rate": 0.00014078963222005086,
+      "loss": 4.5318,
+      "num_input_tokens_seen": 191086784,
+      "step": 32700
+    },
+    {
+      "epoch": 0.3620054107962466,
+      "grad_norm": 1.9790152311325073,
+      "learning_rate": 0.00014070147082592533,
+      "loss": 4.5202,
+      "num_input_tokens_seen": 191964288,
+      "step": 32850
+    },
+    {
+      "epoch": 0.3636584035396085,
+      "grad_norm": 1.980690836906433,
+      "learning_rate": 0.00014061330943179983,
+      "loss": 4.5282,
+      "num_input_tokens_seen": 192848672,
+      "step": 33000
+    },
+    {
+      "epoch": 0.3653113962829703,
+      "grad_norm": 1.8499431610107422,
+      "learning_rate": 0.0001405251480376743,
+      "loss": 4.5094,
+      "num_input_tokens_seen": 193723936,
+      "step": 33150
+    },
+    {
+      "epoch": 0.36696438902633216,
+      "grad_norm": 1.7975043058395386,
+      "learning_rate": 0.0001404369866435488,
+      "loss": 4.5296,
+      "num_input_tokens_seen": 194603072,
+      "step": 33300
+    },
+    {
+      "epoch": 0.36861738176969405,
+      "grad_norm": 1.8439886569976807,
+      "learning_rate": 0.0001403488252494233,
+      "loss": 4.5274,
+      "num_input_tokens_seen": 195468512,
+      "step": 33450
+    },
+    {
+      "epoch": 0.3702703745130559,
+      "grad_norm": 1.8969649076461792,
+      "learning_rate": 0.0001402606638552978,
+      "loss": 4.5195,
+      "num_input_tokens_seen": 196345888,
+      "step": 33600
+    },
+    {
+      "epoch": 0.3719233672564177,
+      "grad_norm": 1.8763043880462646,
+      "learning_rate": 0.00014017250246117226,
+      "loss": 4.5071,
+      "num_input_tokens_seen": 197239776,
+      "step": 33750
+    },
+    {
+      "epoch": 0.3735763599997796,
+      "grad_norm": 1.8754463195800781,
+      "learning_rate": 0.00014008434106704677,
+      "loss": 4.513,
+      "num_input_tokens_seen": 198122528,
+      "step": 33900
+    },
+    {
+      "epoch": 0.37522935274314145,
+      "grad_norm": 2.011179208755493,
+      "learning_rate": 0.00013999617967292124,
+      "loss": 4.5146,
+      "num_input_tokens_seen": 198998208,
+      "step": 34050
+    },
+    {
+      "epoch": 0.3768823454865033,
+      "grad_norm": 1.8127686977386475,
+      "learning_rate": 0.00013990801827879574,
+      "loss": 4.5103,
+      "num_input_tokens_seen": 199877440,
+      "step": 34200
+    },
+    {
+      "epoch": 0.3785353382298652,
+      "grad_norm": 1.792159080505371,
+      "learning_rate": 0.00013981985688467022,
+      "loss": 4.5139,
+      "num_input_tokens_seen": 200738880,
+      "step": 34350
+    },
+    {
+      "epoch": 0.380188330973227,
+      "grad_norm": 1.7812391519546509,
+      "learning_rate": 0.0001397322832331722,
+      "loss": 4.5151,
+      "num_input_tokens_seen": 201618880,
+      "step": 34500
+    },
+    {
+      "epoch": 0.3818413237165889,
+      "grad_norm": 1.8573509454727173,
+      "learning_rate": 0.00013964412183904668,
+      "loss": 4.5113,
+      "num_input_tokens_seen": 202481888,
+      "step": 34650
+    },
+    {
+      "epoch": 0.38349431645995075,
+      "grad_norm": 1.9190624952316284,
+      "learning_rate": 0.0001395559604449212,
+      "loss": 4.5118,
+      "num_input_tokens_seen": 203344320,
+      "step": 34800
+    },
+    {
+      "epoch": 0.3851473092033126,
+      "grad_norm": 1.8508821725845337,
+      "learning_rate": 0.00013946779905079566,
+      "loss": 4.5152,
+      "num_input_tokens_seen": 204227936,
+      "step": 34950
+    },
+    {
+      "epoch": 0.3868003019466745,
+      "grad_norm": 1.8276251554489136,
+      "learning_rate": 0.00013937963765667016,
+      "loss": 4.5182,
+      "num_input_tokens_seen": 205119008,
+      "step": 35100
+    },
+    {
+      "epoch": 0.3884532946900363,
+      "grad_norm": 1.773224949836731,
+      "learning_rate": 0.00013929147626254464,
+      "loss": 4.5091,
+      "num_input_tokens_seen": 205989696,
+      "step": 35250
+    },
+    {
+      "epoch": 0.39010628743339815,
+      "grad_norm": 1.889553189277649,
+      "learning_rate": 0.00013920331486841914,
+      "loss": 4.5111,
+      "num_input_tokens_seen": 206865088,
+      "step": 35400
+    },
+    {
+      "epoch": 0.39175928017676004,
+      "grad_norm": 1.844975233078003,
+      "learning_rate": 0.00013911515347429362,
+      "loss": 4.4982,
+      "num_input_tokens_seen": 207738880,
+      "step": 35550
+    },
+    {
+      "epoch": 0.3934122729201219,
+      "grad_norm": 1.8811978101730347,
+      "learning_rate": 0.0001390269920801681,
+      "loss": 4.5168,
+      "num_input_tokens_seen": 208626688,
+      "step": 35700
+    },
+    {
+      "epoch": 0.3950652656634837,
+      "grad_norm": 1.8564339876174927,
+      "learning_rate": 0.0001389388306860426,
+      "loss": 4.5122,
+      "num_input_tokens_seen": 209484800,
+      "step": 35850
+    },
+    {
+      "epoch": 0.3967182584068456,
+      "grad_norm": 1.8316396474838257,
+      "learning_rate": 0.00013885066929191707,
+      "loss": 4.5046,
+      "num_input_tokens_seen": 210369792,
+      "step": 36000
+    },
+    {
+      "epoch": 0.39837125115020744,
+      "grad_norm": 1.925075650215149,
+      "learning_rate": 0.00013876250789779157,
+      "loss": 4.5116,
+      "num_input_tokens_seen": 211250176,
+      "step": 36150
+    },
+    {
+      "epoch": 0.40002424389356933,
+      "grad_norm": 1.860660195350647,
+      "learning_rate": 0.00013867434650366605,
+      "loss": 4.4998,
+      "num_input_tokens_seen": 212136000,
+      "step": 36300
+    },
+    {
+      "epoch": 0.40167723663693117,
+      "grad_norm": 1.8505064249038696,
+      "learning_rate": 0.00013858618510954055,
+      "loss": 4.5124,
+      "num_input_tokens_seen": 213009056,
+      "step": 36450
+    },
+    {
+      "epoch": 0.403330229380293,
+      "grad_norm": 1.8910654783248901,
+      "learning_rate": 0.00013849802371541502,
+      "loss": 4.4966,
+      "num_input_tokens_seen": 213871744,
+      "step": 36600
+    },
+    {
+      "epoch": 0.4049832221236549,
+      "grad_norm": 1.883748173713684,
+      "learning_rate": 0.0001384098623212895,
+      "loss": 4.5074,
+      "num_input_tokens_seen": 214739520,
+      "step": 36750
+    },
+    {
+      "epoch": 0.40663621486701673,
+      "grad_norm": 1.8115665912628174,
+      "learning_rate": 0.000138321700927164,
+      "loss": 4.5187,
+      "num_input_tokens_seen": 215629472,
+      "step": 36900
+    },
+    {
+      "epoch": 0.40828920761037857,
+      "grad_norm": 1.9036102294921875,
+      "learning_rate": 0.000138234127275666,
+      "loss": 4.4892,
+      "num_input_tokens_seen": 216497184,
+      "step": 37050
+    },
+    {
+      "epoch": 0.40994220035374046,
+      "grad_norm": 1.8916597366333008,
+      "learning_rate": 0.0001381459658815405,
+      "loss": 4.5019,
+      "num_input_tokens_seen": 217381152,
+      "step": 37200
+    },
+    {
+      "epoch": 0.4115951930971023,
+      "grad_norm": 1.8847101926803589,
+      "learning_rate": 0.00013805780448741497,
+      "loss": 4.5064,
+      "num_input_tokens_seen": 218251456,
+      "step": 37350
+    },
+    {
+      "epoch": 0.41324818584046413,
+      "grad_norm": 1.730322241783142,
+      "learning_rate": 0.00013796964309328947,
+      "loss": 4.4988,
+      "num_input_tokens_seen": 219141056,
+      "step": 37500
+    },
+    {
+      "epoch": 0.414901178583826,
+      "grad_norm": 1.833764672279358,
+      "learning_rate": 0.00013788148169916395,
+      "loss": 4.5155,
+      "num_input_tokens_seen": 220036992,
+      "step": 37650
+    },
+    {
+      "epoch": 0.41655417132718786,
+      "grad_norm": 1.8188276290893555,
+      "learning_rate": 0.00013779332030503845,
+      "loss": 4.4984,
+      "num_input_tokens_seen": 220910208,
+      "step": 37800
+    },
+    {
+      "epoch": 0.41820716407054975,
+      "grad_norm": 1.7197022438049316,
+      "learning_rate": 0.00013770515891091292,
+      "loss": 4.5018,
+      "num_input_tokens_seen": 221803520,
+      "step": 37950
+    },
+    {
+      "epoch": 0.4198601568139116,
+      "grad_norm": 1.879470944404602,
+      "learning_rate": 0.00013761699751678742,
+      "loss": 4.497,
+      "num_input_tokens_seen": 222679392,
+      "step": 38100
+    },
+    {
+      "epoch": 0.4215131495572734,
+      "grad_norm": 1.716430902481079,
+      "learning_rate": 0.0001375288361226619,
+      "loss": 4.4979,
+      "num_input_tokens_seen": 223568224,
+      "step": 38250
+    },
+    {
+      "epoch": 0.4231661423006353,
+      "grad_norm": 1.8879536390304565,
+      "learning_rate": 0.0001374406747285364,
+      "loss": 4.4972,
+      "num_input_tokens_seen": 224460192,
+      "step": 38400
+    },
+    {
+      "epoch": 0.42481913504399715,
+      "grad_norm": 1.9361037015914917,
+      "learning_rate": 0.00013735251333441088,
+      "loss": 4.4968,
+      "num_input_tokens_seen": 225318816,
+      "step": 38550
+    },
+    {
+      "epoch": 0.426472127787359,
+      "grad_norm": 1.8587005138397217,
+      "learning_rate": 0.00013726435194028535,
+      "loss": 4.4982,
+      "num_input_tokens_seen": 226176704,
+      "step": 38700
+    },
+    {
+      "epoch": 0.4281251205307209,
+      "grad_norm": 1.8819633722305298,
+      "learning_rate": 0.00013717619054615985,
+      "loss": 4.4929,
+      "num_input_tokens_seen": 227049984,
+      "step": 38850
+    },
+    {
+      "epoch": 0.4297781132740827,
+      "grad_norm": 1.8268516063690186,
+      "learning_rate": 0.00013708802915203433,
+      "loss": 4.5063,
+      "num_input_tokens_seen": 227926784,
+      "step": 39000
+    },
+    {
+      "epoch": 0.4314311060174446,
+      "grad_norm": 1.8819466829299927,
+      "learning_rate": 0.00013699986775790883,
+      "loss": 4.5024,
+      "num_input_tokens_seen": 228823584,
+      "step": 39150
+    },
+    {
+      "epoch": 0.43308409876080645,
+      "grad_norm": 1.8801319599151611,
+      "learning_rate": 0.0001369117063637833,
+      "loss": 4.5043,
+      "num_input_tokens_seen": 229691904,
+      "step": 39300
+    },
+    {
+      "epoch": 0.4347370915041683,
+      "grad_norm": 1.8677760362625122,
+      "learning_rate": 0.0001368241327122853,
+      "loss": 4.5102,
+      "num_input_tokens_seen": 230569056,
+      "step": 39450
+    },
+    {
+      "epoch": 0.4363900842475302,
+      "grad_norm": 1.8280800580978394,
+      "learning_rate": 0.0001367359713181598,
+      "loss": 4.5014,
+      "num_input_tokens_seen": 231437792,
+      "step": 39600
+    },
+    {
+      "epoch": 0.438043076990892,
+      "grad_norm": 1.7932913303375244,
+      "learning_rate": 0.00013664780992403427,
+      "loss": 4.5082,
+      "num_input_tokens_seen": 232310848,
+      "step": 39750
+    },
+    {
+      "epoch": 0.43969606973425385,
+      "grad_norm": 1.7872642278671265,
+      "learning_rate": 0.00013655964852990878,
+      "loss": 4.5091,
+      "num_input_tokens_seen": 233190464,
+      "step": 39900
+    },
+    {
+      "epoch": 0.44134906247761574,
+      "grad_norm": 1.9207595586776733,
+      "learning_rate": 0.00013647148713578325,
+      "loss": 4.4932,
+      "num_input_tokens_seen": 234064256,
+      "step": 40050
+    },
+    {
+      "epoch": 0.4430020552209776,
+      "grad_norm": 1.9176338911056519,
+      "learning_rate": 0.00013638332574165773,
+      "loss": 4.4982,
+      "num_input_tokens_seen": 234931104,
+      "step": 40200
+    },
+    {
+      "epoch": 0.4446550479643394,
+      "grad_norm": 1.839328646659851,
+      "learning_rate": 0.00013629516434753223,
+      "loss": 4.5,
+      "num_input_tokens_seen": 235790176,
+      "step": 40350
+    },
+    {
+      "epoch": 0.4463080407077013,
+      "grad_norm": 1.8120410442352295,
+      "learning_rate": 0.0001362070029534067,
+      "loss": 4.4866,
+      "num_input_tokens_seen": 236663488,
+      "step": 40500
+    },
+    {
+      "epoch": 0.44796103345106314,
+      "grad_norm": 1.7365509271621704,
+      "learning_rate": 0.0001361188415592812,
+      "loss": 4.484,
+      "num_input_tokens_seen": 237550016,
+      "step": 40650
+    },
+    {
+      "epoch": 0.44961402619442503,
+      "grad_norm": 1.8573724031448364,
+      "learning_rate": 0.00013603068016515568,
+      "loss": 4.4949,
+      "num_input_tokens_seen": 238428800,
+      "step": 40800
+    },
+    {
+      "epoch": 0.45126701893778687,
+      "grad_norm": 1.8714196681976318,
+      "learning_rate": 0.00013594251877103018,
+      "loss": 4.4861,
+      "num_input_tokens_seen": 239301216,
+      "step": 40950
+    },
+    {
+      "epoch": 0.4529200116811487,
+      "grad_norm": 1.813636064529419,
+      "learning_rate": 0.00013585435737690466,
+      "loss": 4.4939,
+      "num_input_tokens_seen": 240172352,
+      "step": 41100
+    },
+    {
+      "epoch": 0.4545730044245106,
+      "grad_norm": 1.7828494310379028,
+      "learning_rate": 0.00013576619598277913,
+      "loss": 4.5073,
+      "num_input_tokens_seen": 241058368,
+      "step": 41250
+    },
+    {
+      "epoch": 0.45622599716787243,
+      "grad_norm": 1.9278478622436523,
+      "learning_rate": 0.00013567803458865363,
+      "loss": 4.4831,
+      "num_input_tokens_seen": 241944320,
+      "step": 41400
+    },
+    {
+      "epoch": 0.45787898991123427,
+      "grad_norm": 1.8244856595993042,
+      "learning_rate": 0.0001355898731945281,
+      "loss": 4.4889,
+      "num_input_tokens_seen": 242827808,
+      "step": 41550
+    },
+    {
+      "epoch": 0.45953198265459616,
+      "grad_norm": 1.9578852653503418,
+      "learning_rate": 0.0001355017118004026,
+      "loss": 4.4938,
+      "num_input_tokens_seen": 243697248,
+      "step": 41700
+    },
+    {
+      "epoch": 0.461184975397958,
+      "grad_norm": 1.8681639432907104,
+      "learning_rate": 0.0001354135504062771,
+      "loss": 4.493,
+      "num_input_tokens_seen": 244549632,
+      "step": 41850
+    },
+    {
+      "epoch": 0.46283796814131983,
+      "grad_norm": 1.9330469369888306,
+      "learning_rate": 0.0001353253890121516,
+      "loss": 4.4823,
+      "num_input_tokens_seen": 245429600,
+      "step": 42000
+    },
+    {
+      "epoch": 0.4644909608846817,
+      "grad_norm": 1.775819182395935,
+      "learning_rate": 0.00013523722761802606,
+      "loss": 4.4887,
+      "num_input_tokens_seen": 246307872,
+      "step": 42150
+    },
+    {
+      "epoch": 0.46614395362804356,
+      "grad_norm": 1.9359744787216187,
+      "learning_rate": 0.00013514906622390057,
+      "loss": 4.4813,
+      "num_input_tokens_seen": 247194432,
+      "step": 42300
+    },
+    {
+      "epoch": 0.46779694637140545,
+      "grad_norm": 1.8034732341766357,
+      "learning_rate": 0.00013506090482977504,
+      "loss": 4.4957,
+      "num_input_tokens_seen": 248049248,
+      "step": 42450
+    },
+    {
+      "epoch": 0.4694499391147673,
+      "grad_norm": 1.8069413900375366,
+      "learning_rate": 0.00013497274343564954,
+      "loss": 4.484,
+      "num_input_tokens_seen": 248930624,
+      "step": 42600
+    },
+    {
+      "epoch": 0.4711029318581291,
+      "grad_norm": 1.8796617984771729,
+      "learning_rate": 0.00013488458204152402,
+      "loss": 4.4887,
+      "num_input_tokens_seen": 249808512,
+      "step": 42750
+    },
+    {
+      "epoch": 0.472755924601491,
+      "grad_norm": 1.8367630243301392,
+      "learning_rate": 0.00013479642064739852,
+      "loss": 4.4779,
+      "num_input_tokens_seen": 250669088,
+      "step": 42900
+    },
+    {
+      "epoch": 0.47440891734485285,
+      "grad_norm": 1.9085215330123901,
+      "learning_rate": 0.0001347088469959005,
+      "loss": 4.489,
+      "num_input_tokens_seen": 251553792,
+      "step": 43050
+    },
+    {
+      "epoch": 0.4760619100882147,
+      "grad_norm": 1.8323450088500977,
+      "learning_rate": 0.000134620685601775,
+      "loss": 4.482,
+      "num_input_tokens_seen": 252440032,
+      "step": 43200
+    },
+    {
+      "epoch": 0.4777149028315766,
+      "grad_norm": 2.1364452838897705,
+      "learning_rate": 0.0001345325242076495,
+      "loss": 4.4873,
+      "num_input_tokens_seen": 253320576,
+      "step": 43350
+    },
+    {
+      "epoch": 0.4793678955749384,
+      "grad_norm": 1.8431365489959717,
+      "learning_rate": 0.00013444436281352396,
+      "loss": 4.4844,
+      "num_input_tokens_seen": 254203552,
+      "step": 43500
+    },
+    {
+      "epoch": 0.4810208883183003,
+      "grad_norm": 1.853715419769287,
+      "learning_rate": 0.00013435620141939847,
+      "loss": 4.4905,
+      "num_input_tokens_seen": 255078656,
+      "step": 43650
+    },
+    {
+      "epoch": 0.48267388106166215,
+      "grad_norm": 2.0351803302764893,
+      "learning_rate": 0.00013426804002527294,
+      "loss": 4.4854,
+      "num_input_tokens_seen": 255961792,
+      "step": 43800
+    },
+    {
+      "epoch": 0.484326873805024,
+      "grad_norm": 1.867595911026001,
+      "learning_rate": 0.00013417987863114744,
+      "loss": 4.4734,
+      "num_input_tokens_seen": 256823744,
+      "step": 43950
+    },
+    {
+      "epoch": 0.4859798665483859,
+      "grad_norm": 1.9231115579605103,
+      "learning_rate": 0.00013409171723702192,
+      "loss": 4.4982,
+      "num_input_tokens_seen": 257687488,
+      "step": 44100
+    },
+    {
+      "epoch": 0.4876328592917477,
+      "grad_norm": 1.9620647430419922,
+      "learning_rate": 0.00013400355584289642,
+      "loss": 4.4815,
+      "num_input_tokens_seen": 258561568,
+      "step": 44250
+    },
+    {
+      "epoch": 0.48928585203510955,
+      "grad_norm": 1.741739273071289,
+      "learning_rate": 0.0001339153944487709,
+      "loss": 4.4863,
+      "num_input_tokens_seen": 259449344,
+      "step": 44400
+    },
+    {
+      "epoch": 0.49093884477847144,
+      "grad_norm": 1.9869145154953003,
+      "learning_rate": 0.0001338272330546454,
+      "loss": 4.48,
+      "num_input_tokens_seen": 260317888,
+      "step": 44550
+    },
+    {
+      "epoch": 0.4925918375218333,
+      "grad_norm": 1.9364657402038574,
+      "learning_rate": 0.00013373907166051987,
+      "loss": 4.477,
+      "num_input_tokens_seen": 261198656,
+      "step": 44700
+    },
+    {
+      "epoch": 0.4942448302651951,
+      "grad_norm": 1.946509599685669,
+      "learning_rate": 0.00013365091026639437,
+      "loss": 4.4762,
+      "num_input_tokens_seen": 262082432,
+      "step": 44850
+    },
+    {
+      "epoch": 0.495897823008557,
+      "grad_norm": 1.7882816791534424,
+      "learning_rate": 0.00013356274887226885,
+      "loss": 4.478,
+      "num_input_tokens_seen": 262961504,
+      "step": 45000
+    },
+    {
+      "epoch": 0.49755081575191884,
+      "grad_norm": 1.8857409954071045,
+      "learning_rate": 0.00013347458747814332,
+      "loss": 4.48,
+      "num_input_tokens_seen": 263810336,
+      "step": 45150
+    },
+    {
+      "epoch": 0.49920380849528073,
+      "grad_norm": 1.8983428478240967,
+      "learning_rate": 0.00013338642608401783,
+      "loss": 4.4792,
+      "num_input_tokens_seen": 264684512,
+      "step": 45300
+    },
+    {
+      "epoch": 0.5008568012386425,
+      "grad_norm": 1.8649096488952637,
+      "learning_rate": 0.0001332982646898923,
+      "loss": 4.473,
+      "num_input_tokens_seen": 265553056,
+      "step": 45450
+    },
+    {
+      "epoch": 0.5025097939820045,
+      "grad_norm": 1.8233070373535156,
+      "learning_rate": 0.0001332101032957668,
+      "loss": 4.4854,
+      "num_input_tokens_seen": 266438976,
+      "step": 45600
+    },
+    {
+      "epoch": 0.5041627867253663,
+      "grad_norm": 1.8780871629714966,
+      "learning_rate": 0.00013312194190164128,
+      "loss": 4.4806,
+      "num_input_tokens_seen": 267305760,
+      "step": 45750
+    },
+    {
+      "epoch": 0.5058157794687281,
+      "grad_norm": 1.9368178844451904,
+      "learning_rate": 0.00013303378050751578,
+      "loss": 4.4805,
+      "num_input_tokens_seen": 268185792,
+      "step": 45900
+    },
+    {
+      "epoch": 0.50746877221209,
+      "grad_norm": 1.8207215070724487,
+      "learning_rate": 0.00013294561911339026,
+      "loss": 4.4839,
+      "num_input_tokens_seen": 269074432,
+      "step": 46050
+    },
+    {
+      "epoch": 0.5091217649554518,
+      "grad_norm": 1.9221956729888916,
+      "learning_rate": 0.00013285745771926473,
+      "loss": 4.4724,
+      "num_input_tokens_seen": 269945728,
+      "step": 46200
+    },
+    {
+      "epoch": 0.5107747576988138,
+      "grad_norm": 1.8592416048049927,
+      "learning_rate": 0.00013276929632513923,
+      "loss": 4.4801,
+      "num_input_tokens_seen": 270826912,
+      "step": 46350
+    },
+    {
+      "epoch": 0.5124277504421756,
+      "grad_norm": 1.8793606758117676,
+      "learning_rate": 0.0001326811349310137,
+      "loss": 4.4832,
+      "num_input_tokens_seen": 271696640,
+      "step": 46500
+    },
+    {
+      "epoch": 0.5140807431855374,
+      "grad_norm": 1.9293113946914673,
+      "learning_rate": 0.0001325929735368882,
+      "loss": 4.4703,
+      "num_input_tokens_seen": 272577280,
+      "step": 46650
+    },
+    {
+      "epoch": 0.5157337359288993,
+      "grad_norm": 1.8582684993743896,
+      "learning_rate": 0.00013250481214276269,
+      "loss": 4.4785,
+      "num_input_tokens_seen": 273448128,
+      "step": 46800
+    },
+    {
+      "epoch": 0.5173867286722611,
+      "grad_norm": 1.8803818225860596,
+      "learning_rate": 0.0001324166507486372,
+      "loss": 4.4851,
+      "num_input_tokens_seen": 274313472,
+      "step": 46950
+    },
+    {
+      "epoch": 0.5190397214156229,
+      "grad_norm": 1.989717721939087,
+      "learning_rate": 0.00013232907709713918,
+      "loss": 4.4814,
+      "num_input_tokens_seen": 275168416,
+      "step": 47100
+    },
+    {
+      "epoch": 0.5206927141589849,
+      "grad_norm": 1.9770921468734741,
+      "learning_rate": 0.00013224091570301365,
+      "loss": 4.4825,
+      "num_input_tokens_seen": 276035776,
+      "step": 47250
+    },
+    {
+      "epoch": 0.5223457069023467,
+      "grad_norm": 1.8764408826828003,
+      "learning_rate": 0.00013215275430888816,
+      "loss": 4.4788,
+      "num_input_tokens_seen": 276909952,
+      "step": 47400
+    },
+    {
+      "epoch": 0.5239986996457086,
+      "grad_norm": 1.860009789466858,
+      "learning_rate": 0.00013206459291476263,
+      "loss": 4.4834,
+      "num_input_tokens_seen": 277795232,
+      "step": 47550
+    },
+    {
+      "epoch": 0.5256516923890704,
+      "grad_norm": 1.949278473854065,
+      "learning_rate": 0.00013197643152063713,
+      "loss": 4.4752,
+      "num_input_tokens_seen": 278690720,
+      "step": 47700
+    },
+    {
+      "epoch": 0.5273046851324322,
+      "grad_norm": 1.868780255317688,
+      "learning_rate": 0.0001318882701265116,
+      "loss": 4.4797,
+      "num_input_tokens_seen": 279567232,
+      "step": 47850
+    },
+    {
+      "epoch": 0.5289576778757942,
+      "grad_norm": 1.7434320449829102,
+      "learning_rate": 0.0001318001087323861,
+      "loss": 4.4726,
+      "num_input_tokens_seen": 280424832,
+      "step": 48000
+    },
+    {
+      "epoch": 0.530610670619156,
+      "grad_norm": 1.8644661903381348,
+      "learning_rate": 0.00013171194733826059,
+      "loss": 4.4648,
+      "num_input_tokens_seen": 281294752,
+      "step": 48150
+    },
+    {
+      "epoch": 0.5322636633625178,
+      "grad_norm": 1.9029775857925415,
+      "learning_rate": 0.00013162378594413506,
+      "loss": 4.4791,
+      "num_input_tokens_seen": 282156544,
+      "step": 48300
+    },
+    {
+      "epoch": 0.5339166561058797,
+      "grad_norm": 1.7862669229507446,
+      "learning_rate": 0.00013153562455000956,
+      "loss": 4.4688,
+      "num_input_tokens_seen": 283033248,
+      "step": 48450
+    },
+    {
+      "epoch": 0.5355696488492415,
+      "grad_norm": 1.7603411674499512,
+      "learning_rate": 0.00013144746315588404,
+      "loss": 4.4807,
+      "num_input_tokens_seen": 283922048,
+      "step": 48600
+    },
+    {
+      "epoch": 0.5372226415926034,
+      "grad_norm": 1.868235468864441,
+      "learning_rate": 0.00013135930176175854,
+      "loss": 4.4702,
+      "num_input_tokens_seen": 284800416,
+      "step": 48750
+    },
+    {
+      "epoch": 0.5388756343359653,
+      "grad_norm": 1.864640474319458,
+      "learning_rate": 0.00013127114036763301,
+      "loss": 4.479,
+      "num_input_tokens_seen": 285673888,
+      "step": 48900
+    },
+    {
+      "epoch": 0.5405286270793271,
+      "grad_norm": 1.7705098390579224,
+      "learning_rate": 0.00013118297897350752,
+      "loss": 4.4782,
+      "num_input_tokens_seen": 286553856,
+      "step": 49050
+    },
+    {
+      "epoch": 0.542181619822689,
+      "grad_norm": 1.9763901233673096,
+      "learning_rate": 0.000131094817579382,
+      "loss": 4.4654,
+      "num_input_tokens_seen": 287436736,
+      "step": 49200
+    },
+    {
+      "epoch": 0.5438346125660508,
+      "grad_norm": 1.905661702156067,
+      "learning_rate": 0.0001310066561852565,
+      "loss": 4.4718,
+      "num_input_tokens_seen": 288306976,
+      "step": 49350
+    },
+    {
+      "epoch": 0.5454876053094126,
+      "grad_norm": 1.8861178159713745,
+      "learning_rate": 0.00013091849479113097,
+      "loss": 4.4618,
+      "num_input_tokens_seen": 289176352,
+      "step": 49500
+    },
+    {
+      "epoch": 0.5471405980527746,
+      "grad_norm": 1.8697651624679565,
+      "learning_rate": 0.00013083033339700547,
+      "loss": 4.4725,
+      "num_input_tokens_seen": 290061760,
+      "step": 49650
+    },
+    {
+      "epoch": 0.5487935907961364,
+      "grad_norm": 1.8051494359970093,
+      "learning_rate": 0.00013074217200287995,
+      "loss": 4.459,
+      "num_input_tokens_seen": 290924640,
+      "step": 49800
+    },
+    {
+      "epoch": 0.5504465835394983,
+      "grad_norm": 1.7766984701156616,
+      "learning_rate": 0.00013065401060875445,
+      "loss": 4.4729,
+      "num_input_tokens_seen": 291801280,
+      "step": 49950
+    },
+    {
+      "epoch": 0.5520995762828601,
+      "grad_norm": 1.7969352006912231,
+      "learning_rate": 0.00013056584921462892,
+      "loss": 4.4789,
+      "num_input_tokens_seen": 292673632,
+      "step": 50100
+    },
+    {
+      "epoch": 0.5537525690262219,
+      "grad_norm": 1.8939694166183472,
+      "learning_rate": 0.00013047768782050343,
+      "loss": 4.4674,
+      "num_input_tokens_seen": 293542176,
+      "step": 50250
+    },
+    {
+      "epoch": 0.5554055617695838,
+      "grad_norm": 1.8721749782562256,
+      "learning_rate": 0.0001303895264263779,
+      "loss": 4.4591,
+      "num_input_tokens_seen": 294415424,
+      "step": 50400
+    },
+    {
+      "epoch": 0.5570585545129457,
+      "grad_norm": 1.7810068130493164,
+      "learning_rate": 0.0001303013650322524,
+      "loss": 4.475,
+      "num_input_tokens_seen": 295292384,
+      "step": 50550
+    },
+    {
+      "epoch": 0.5587115472563076,
+      "grad_norm": 1.8184670209884644,
+      "learning_rate": 0.00013021320363812688,
+      "loss": 4.473,
+      "num_input_tokens_seen": 296168640,
+      "step": 50700
+    },
+    {
+      "epoch": 0.5603645399996694,
+      "grad_norm": 1.8167736530303955,
+      "learning_rate": 0.00013012504224400138,
+      "loss": 4.4604,
+      "num_input_tokens_seen": 297035904,
+      "step": 50850
+    },
+    {
+      "epoch": 0.5620175327430312,
+      "grad_norm": 1.902001142501831,
+      "learning_rate": 0.00013003688084987585,
+      "loss": 4.4653,
+      "num_input_tokens_seen": 297893248,
+      "step": 51000
+    },
+    {
+      "epoch": 0.5636705254863931,
+      "grad_norm": 1.7989624738693237,
+      "learning_rate": 0.00012994930719837785,
+      "loss": 4.4581,
+      "num_input_tokens_seen": 298773088,
+      "step": 51150
+    },
+    {
+      "epoch": 0.565323518229755,
+      "grad_norm": 1.9608672857284546,
+      "learning_rate": 0.00012986114580425232,
+      "loss": 4.4553,
+      "num_input_tokens_seen": 299639712,
+      "step": 51300
+    },
+    {
+      "epoch": 0.5669765109731169,
+      "grad_norm": 1.8063366413116455,
+      "learning_rate": 0.00012977298441012682,
+      "loss": 4.4748,
+      "num_input_tokens_seen": 300504576,
+      "step": 51450
+    },
+    {
+      "epoch": 0.5686295037164787,
+      "grad_norm": 1.7892522811889648,
+      "learning_rate": 0.0001296848230160013,
+      "loss": 4.4759,
+      "num_input_tokens_seen": 301381600,
+      "step": 51600
+    },
+    {
+      "epoch": 0.5702824964598405,
+      "grad_norm": 1.9009445905685425,
+      "learning_rate": 0.00012959666162187577,
+      "loss": 4.4643,
+      "num_input_tokens_seen": 302264064,
+      "step": 51750
+    },
+    {
+      "epoch": 0.5719354892032024,
+      "grad_norm": 1.8855173587799072,
+      "learning_rate": 0.00012950850022775027,
+      "loss": 4.4569,
+      "num_input_tokens_seen": 303131648,
+      "step": 51900
+    },
+    {
+      "epoch": 0.5735884819465642,
+      "grad_norm": 1.8198268413543701,
+      "learning_rate": 0.00012942033883362475,
+      "loss": 4.465,
+      "num_input_tokens_seen": 304010848,
+      "step": 52050
+    },
+    {
+      "epoch": 0.5752414746899261,
+      "grad_norm": 1.8278980255126953,
+      "learning_rate": 0.00012933217743949925,
+      "loss": 4.4674,
+      "num_input_tokens_seen": 304901952,
+      "step": 52200
+    },
+    {
+      "epoch": 0.576894467433288,
+      "grad_norm": 1.8281151056289673,
+      "learning_rate": 0.00012924401604537373,
+      "loss": 4.4718,
+      "num_input_tokens_seen": 305763424,
+      "step": 52350
+    },
+    {
+      "epoch": 0.5785474601766498,
+      "grad_norm": 1.8816980123519897,
+      "learning_rate": 0.00012915585465124823,
+      "loss": 4.4726,
+      "num_input_tokens_seen": 306641856,
+      "step": 52500
+    },
+    {
+      "epoch": 0.5802004529200117,
+      "grad_norm": 1.8755218982696533,
+      "learning_rate": 0.0001290676932571227,
+      "loss": 4.4744,
+      "num_input_tokens_seen": 307520288,
+      "step": 52650
+    },
+    {
+      "epoch": 0.5818534456633735,
+      "grad_norm": 1.8329659700393677,
+      "learning_rate": 0.0001289795318629972,
+      "loss": 4.4572,
+      "num_input_tokens_seen": 308410624,
+      "step": 52800
+    },
+    {
+      "epoch": 0.5835064384067354,
+      "grad_norm": 1.9654128551483154,
+      "learning_rate": 0.00012889137046887168,
+      "loss": 4.4671,
+      "num_input_tokens_seen": 309288736,
+      "step": 52950
+    },
+    {
+      "epoch": 0.5851594311500973,
+      "grad_norm": 1.8310860395431519,
+      "learning_rate": 0.00012880320907474618,
+      "loss": 4.4684,
+      "num_input_tokens_seen": 310165440,
+      "step": 53100
+    },
+    {
+      "epoch": 0.5868124238934591,
+      "grad_norm": 1.8104560375213623,
+      "learning_rate": 0.00012871563542324817,
+      "loss": 4.4546,
+      "num_input_tokens_seen": 311044352,
+      "step": 53250
+    },
+    {
+      "epoch": 0.588465416636821,
+      "grad_norm": 1.8414585590362549,
+      "learning_rate": 0.00012862747402912265,
+      "loss": 4.4625,
+      "num_input_tokens_seen": 311919424,
+      "step": 53400
+    },
+    {
+      "epoch": 0.5901184093801828,
+      "grad_norm": 1.724381685256958,
+      "learning_rate": 0.00012853931263499715,
+      "loss": 4.4632,
+      "num_input_tokens_seen": 312803712,
+      "step": 53550
+    },
+    {
+      "epoch": 0.5917714021235447,
+      "grad_norm": 1.7701301574707031,
+      "learning_rate": 0.00012845115124087163,
+      "loss": 4.4609,
+      "num_input_tokens_seen": 313672800,
+      "step": 53700
+    },
+    {
+      "epoch": 0.5934243948669066,
+      "grad_norm": 1.8755768537521362,
+      "learning_rate": 0.00012836298984674613,
+      "loss": 4.461,
+      "num_input_tokens_seen": 314543776,
+      "step": 53850
+    },
+    {
+      "epoch": 0.5950773876102684,
+      "grad_norm": 1.8842816352844238,
+      "learning_rate": 0.0001282748284526206,
+      "loss": 4.462,
+      "num_input_tokens_seen": 315413216,
+      "step": 54000
+    },
+    {
+      "epoch": 0.5967303803536302,
+      "grad_norm": 1.8173580169677734,
+      "learning_rate": 0.0001281866670584951,
+      "loss": 4.4595,
+      "num_input_tokens_seen": 316286592,
+      "step": 54150
+    },
+    {
+      "epoch": 0.5983833730969921,
+      "grad_norm": 1.8613582849502563,
+      "learning_rate": 0.00012809850566436958,
+      "loss": 4.4729,
+      "num_input_tokens_seen": 317171968,
+      "step": 54300
+    },
+    {
+      "epoch": 0.6000363658403539,
+      "grad_norm": 1.8345390558242798,
+      "learning_rate": 0.00012801034427024408,
+      "loss": 4.4558,
+      "num_input_tokens_seen": 318069504,
+      "step": 54450
+    },
+    {
+      "epoch": 0.6016893585837159,
+      "grad_norm": 1.9001188278198242,
+      "learning_rate": 0.00012792218287611856,
+      "loss": 4.4493,
+      "num_input_tokens_seen": 318929088,
+      "step": 54600
+    },
+    {
+      "epoch": 0.6033423513270777,
+      "grad_norm": 1.7820019721984863,
+      "learning_rate": 0.00012783402148199306,
+      "loss": 4.4529,
+      "num_input_tokens_seen": 319802400,
+      "step": 54750
+    },
+    {
+      "epoch": 0.6049953440704395,
+      "grad_norm": 1.8836514949798584,
+      "learning_rate": 0.00012774586008786754,
+      "loss": 4.4601,
+      "num_input_tokens_seen": 320667168,
+      "step": 54900
+    },
+    {
+      "epoch": 0.6066483368138014,
+      "grad_norm": 1.820078730583191,
+      "learning_rate": 0.00012765828643636953,
+      "loss": 4.4583,
+      "num_input_tokens_seen": 321544160,
+      "step": 55050
+    },
+    {
+      "epoch": 0.6083013295571632,
+      "grad_norm": 1.7549668550491333,
+      "learning_rate": 0.000127570125042244,
+      "loss": 4.4507,
+      "num_input_tokens_seen": 322413504,
+      "step": 55200
+    },
+    {
+      "epoch": 0.6099543223005252,
+      "grad_norm": 1.819643497467041,
+      "learning_rate": 0.0001274819636481185,
+      "loss": 4.4572,
+      "num_input_tokens_seen": 323301120,
+      "step": 55350
+    },
+    {
+      "epoch": 0.611607315043887,
+      "grad_norm": 1.8832948207855225,
+      "learning_rate": 0.00012739380225399298,
+      "loss": 4.4499,
+      "num_input_tokens_seen": 324179040,
+      "step": 55500
+    },
+    {
+      "epoch": 0.6132603077872488,
+      "grad_norm": 1.9329428672790527,
+      "learning_rate": 0.00012730564085986748,
+      "loss": 4.4598,
+      "num_input_tokens_seen": 325044704,
+      "step": 55650
+    },
+    {
+      "epoch": 0.6149133005306107,
+      "grad_norm": 1.8368948698043823,
+      "learning_rate": 0.00012721747946574196,
+      "loss": 4.4636,
+      "num_input_tokens_seen": 325903360,
+      "step": 55800
+    },
+    {
+      "epoch": 0.6165662932739725,
+      "grad_norm": 1.8610767126083374,
+      "learning_rate": 0.00012712931807161646,
+      "loss": 4.4602,
+      "num_input_tokens_seen": 326791648,
+      "step": 55950
+    },
+    {
+      "epoch": 0.6182192860173343,
+      "grad_norm": 1.853129506111145,
+      "learning_rate": 0.00012704115667749093,
+      "loss": 4.4581,
+      "num_input_tokens_seen": 327669216,
+      "step": 56100
+    },
+    {
+      "epoch": 0.6198722787606963,
+      "grad_norm": 1.8630894422531128,
+      "learning_rate": 0.0001269529952833654,
+      "loss": 4.4584,
+      "num_input_tokens_seen": 328547424,
+      "step": 56250
+    },
+    {
+      "epoch": 0.6215252715040581,
+      "grad_norm": 1.8581258058547974,
+      "learning_rate": 0.0001268648338892399,
+      "loss": 4.4632,
+      "num_input_tokens_seen": 329414400,
+      "step": 56400
+    },
+    {
+      "epoch": 0.62317826424742,
+      "grad_norm": 1.8294817209243774,
+      "learning_rate": 0.00012677667249511439,
+      "loss": 4.4634,
+      "num_input_tokens_seen": 330297376,
+      "step": 56550
+    },
+    {
+      "epoch": 0.6248312569907818,
+      "grad_norm": 1.9625203609466553,
+      "learning_rate": 0.0001266885111009889,
+      "loss": 4.4598,
+      "num_input_tokens_seen": 331181792,
+      "step": 56700
+    },
+    {
+      "epoch": 0.6264842497341436,
+      "grad_norm": 1.821718454360962,
+      "learning_rate": 0.00012660034970686336,
+      "loss": 4.4549,
+      "num_input_tokens_seen": 332056416,
+      "step": 56850
+    },
+    {
+      "epoch": 0.6281372424775056,
+      "grad_norm": 1.8366010189056396,
+      "learning_rate": 0.00012651218831273786,
+      "loss": 4.4418,
+      "num_input_tokens_seen": 332908864,
+      "step": 57000
+    },
+    {
+      "epoch": 0.6297902352208674,
+      "grad_norm": 1.858789086341858,
+      "learning_rate": 0.00012642402691861234,
+      "loss": 4.4592,
+      "num_input_tokens_seen": 333791520,
+      "step": 57150
+    },
+    {
+      "epoch": 0.6314432279642292,
+      "grad_norm": 1.9188382625579834,
+      "learning_rate": 0.00012633586552448684,
+      "loss": 4.4531,
+      "num_input_tokens_seen": 334675488,
+      "step": 57300
+    },
+    {
+      "epoch": 0.6330962207075911,
+      "grad_norm": 1.8480638265609741,
+      "learning_rate": 0.00012624770413036132,
+      "loss": 4.4557,
+      "num_input_tokens_seen": 335569664,
+      "step": 57450
+    },
+    {
+      "epoch": 0.6347492134509529,
+      "grad_norm": 1.8409630060195923,
+      "learning_rate": 0.00012615954273623582,
+      "loss": 4.454,
+      "num_input_tokens_seen": 336438752,
+      "step": 57600
+    },
+    {
+      "epoch": 0.6364022061943148,
+      "grad_norm": 1.7734564542770386,
+      "learning_rate": 0.0001260713813421103,
+      "loss": 4.4587,
+      "num_input_tokens_seen": 337318464,
+      "step": 57750
+    },
+    {
+      "epoch": 0.6380551989376767,
+      "grad_norm": 1.8258734941482544,
+      "learning_rate": 0.0001259832199479848,
+      "loss": 4.4501,
+      "num_input_tokens_seen": 338196416,
+      "step": 57900
+    },
+    {
+      "epoch": 0.6397081916810385,
+      "grad_norm": 1.8730100393295288,
+      "learning_rate": 0.00012589505855385927,
+      "loss": 4.4508,
+      "num_input_tokens_seen": 339066272,
+      "step": 58050
+    },
+    {
+      "epoch": 0.6413611844244004,
+      "grad_norm": 1.7968626022338867,
+      "learning_rate": 0.00012580689715973375,
+      "loss": 4.4465,
+      "num_input_tokens_seen": 339940576,
+      "step": 58200
+    },
+    {
+      "epoch": 0.6430141771677622,
+      "grad_norm": 1.8305721282958984,
+      "learning_rate": 0.00012571873576560825,
+      "loss": 4.4452,
+      "num_input_tokens_seen": 340827872,
+      "step": 58350
+    },
+    {
+      "epoch": 0.644667169911124,
+      "grad_norm": 1.8106398582458496,
+      "learning_rate": 0.00012563057437148272,
+      "loss": 4.4436,
+      "num_input_tokens_seen": 341710720,
+      "step": 58500
+    },
+    {
+      "epoch": 0.646320162654486,
+      "grad_norm": 1.8428856134414673,
+      "learning_rate": 0.00012554300071998474,
+      "loss": 4.4607,
+      "num_input_tokens_seen": 342592992,
+      "step": 58650
+    },
+    {
+      "epoch": 0.6479731553978478,
+      "grad_norm": 1.89970064163208,
+      "learning_rate": 0.00012545483932585922,
+      "loss": 4.446,
+      "num_input_tokens_seen": 343458496,
+      "step": 58800
+    },
+    {
+      "epoch": 0.6496261481412097,
+      "grad_norm": 1.887024998664856,
+      "learning_rate": 0.00012536667793173372,
+      "loss": 4.4438,
+      "num_input_tokens_seen": 344324192,
+      "step": 58950
+    },
+    {
+      "epoch": 0.6512791408845715,
+      "grad_norm": 1.751080870628357,
+      "learning_rate": 0.0001252785165376082,
+      "loss": 4.4439,
+      "num_input_tokens_seen": 345204320,
+      "step": 59100
+    },
+    {
+      "epoch": 0.6529321336279333,
+      "grad_norm": 1.8455328941345215,
+      "learning_rate": 0.0001251903551434827,
+      "loss": 4.4446,
+      "num_input_tokens_seen": 346100960,
+      "step": 59250
+    },
+    {
+      "epoch": 0.6545851263712952,
+      "grad_norm": 1.9079509973526,
+      "learning_rate": 0.00012510219374935717,
+      "loss": 4.4441,
+      "num_input_tokens_seen": 346981376,
+      "step": 59400
+    },
+    {
+      "epoch": 0.6562381191146571,
+      "grad_norm": 1.8034120798110962,
+      "learning_rate": 0.00012501403235523167,
+      "loss": 4.4555,
+      "num_input_tokens_seen": 347855584,
+      "step": 59550
+    },
+    {
+      "epoch": 0.657891111858019,
+      "grad_norm": 1.7936707735061646,
+      "learning_rate": 0.00012492587096110615,
+      "loss": 4.4493,
+      "num_input_tokens_seen": 348733664,
+      "step": 59700
+    },
+    {
+      "epoch": 0.6595441046013808,
+      "grad_norm": 1.80596923828125,
+      "learning_rate": 0.00012483770956698065,
+      "loss": 4.4445,
+      "num_input_tokens_seen": 349592128,
+      "step": 59850
+    },
+    {
+      "epoch": 0.6611970973447426,
+      "grad_norm": 1.7837984561920166,
+      "learning_rate": 0.00012474954817285512,
+      "loss": 4.4472,
+      "num_input_tokens_seen": 350464672,
+      "step": 60000
+    },
+    {
+      "epoch": 0.6628500900881045,
+      "grad_norm": 1.8550629615783691,
+      "learning_rate": 0.0001246613867787296,
+      "loss": 4.4436,
+      "num_input_tokens_seen": 351360576,
+      "step": 60150
+    },
+    {
+      "epoch": 0.6645030828314664,
+      "grad_norm": 1.8099464178085327,
+      "learning_rate": 0.0001245738131272316,
+      "loss": 4.4439,
+      "num_input_tokens_seen": 352250944,
+      "step": 60300
+    },
+    {
+      "epoch": 0.6661560755748283,
+      "grad_norm": 1.869233250617981,
+      "learning_rate": 0.0001244856517331061,
+      "loss": 4.45,
+      "num_input_tokens_seen": 353120608,
+      "step": 60450
+    },
+    {
+      "epoch": 0.6678090683181901,
+      "grad_norm": 1.8628960847854614,
+      "learning_rate": 0.00012439749033898057,
+      "loss": 4.4446,
+      "num_input_tokens_seen": 353986944,
+      "step": 60600
+    },
+    {
+      "epoch": 0.6694620610615519,
+      "grad_norm": 1.7935791015625,
+      "learning_rate": 0.00012430932894485504,
+      "loss": 4.4481,
+      "num_input_tokens_seen": 354851456,
+      "step": 60750
+    },
+    {
+      "epoch": 0.6711150538049138,
+      "grad_norm": 1.919735074043274,
+      "learning_rate": 0.00012422116755072955,
+      "loss": 4.4491,
+      "num_input_tokens_seen": 355735616,
+      "step": 60900
+    },
+    {
+      "epoch": 0.6727680465482756,
+      "grad_norm": 1.9296785593032837,
+      "learning_rate": 0.00012413300615660402,
+      "loss": 4.4384,
+      "num_input_tokens_seen": 356613408,
+      "step": 61050
+    },
+    {
+      "epoch": 0.6744210392916375,
+      "grad_norm": 1.8167061805725098,
+      "learning_rate": 0.00012404484476247852,
+      "loss": 4.4326,
+      "num_input_tokens_seen": 357463840,
+      "step": 61200
+    },
+    {
+      "epoch": 0.6760740320349994,
+      "grad_norm": 1.86695396900177,
+      "learning_rate": 0.000123956683368353,
+      "loss": 4.4501,
+      "num_input_tokens_seen": 358354464,
+      "step": 61350
+    },
+    {
+      "epoch": 0.6777270247783612,
+      "grad_norm": 1.8627629280090332,
+      "learning_rate": 0.0001238685219742275,
+      "loss": 4.4496,
+      "num_input_tokens_seen": 359222016,
+      "step": 61500
+    },
+    {
+      "epoch": 0.6793800175217231,
+      "grad_norm": 1.8496758937835693,
+      "learning_rate": 0.00012378036058010197,
+      "loss": 4.4505,
+      "num_input_tokens_seen": 360112096,
+      "step": 61650
+    },
+    {
+      "epoch": 0.6810330102650849,
+      "grad_norm": 1.8193156719207764,
+      "learning_rate": 0.00012369219918597645,
+      "loss": 4.452,
+      "num_input_tokens_seen": 360995520,
+      "step": 61800
+    },
+    {
+      "epoch": 0.6826860030084468,
+      "grad_norm": 1.7519707679748535,
+      "learning_rate": 0.00012360403779185095,
+      "loss": 4.4439,
+      "num_input_tokens_seen": 361873184,
+      "step": 61950
+    },
+    {
+      "epoch": 0.6843389957518087,
+      "grad_norm": 1.9227124452590942,
+      "learning_rate": 0.00012351587639772543,
+      "loss": 4.4416,
+      "num_input_tokens_seen": 362749312,
+      "step": 62100
+    },
+    {
+      "epoch": 0.6859919884951705,
+      "grad_norm": 1.8492848873138428,
+      "learning_rate": 0.00012342771500359993,
+      "loss": 4.4541,
+      "num_input_tokens_seen": 363635936,
+      "step": 62250
+    },
+    {
+      "epoch": 0.6876449812385323,
+      "grad_norm": 1.946057677268982,
+      "learning_rate": 0.0001233395536094744,
+      "loss": 4.435,
+      "num_input_tokens_seen": 364500576,
+      "step": 62400
+    },
+    {
+      "epoch": 0.6892979739818942,
+      "grad_norm": 1.8880736827850342,
+      "learning_rate": 0.0001232513922153489,
+      "loss": 4.4442,
+      "num_input_tokens_seen": 365363744,
+      "step": 62550
+    },
+    {
+      "epoch": 0.690950966725256,
+      "grad_norm": 1.864534854888916,
+      "learning_rate": 0.00012316323082122338,
+      "loss": 4.4398,
+      "num_input_tokens_seen": 366253600,
+      "step": 62700
+    },
+    {
+      "epoch": 0.692603959468618,
+      "grad_norm": 1.8077435493469238,
+      "learning_rate": 0.00012307506942709788,
+      "loss": 4.4462,
+      "num_input_tokens_seen": 367119136,
+      "step": 62850
+    },
+    {
+      "epoch": 0.6942569522119798,
+      "grad_norm": 1.8797168731689453,
+      "learning_rate": 0.00012298690803297236,
+      "loss": 4.4535,
+      "num_input_tokens_seen": 367998656,
+      "step": 63000
+    },
+    {
+      "epoch": 0.6959099449553416,
+      "grad_norm": 1.9124201536178589,
+      "learning_rate": 0.00012289874663884686,
+      "loss": 4.4314,
+      "num_input_tokens_seen": 368873888,
+      "step": 63150
+    },
+    {
+      "epoch": 0.6975629376987035,
+      "grad_norm": 1.919708013534546,
+      "learning_rate": 0.00012281058524472134,
+      "loss": 4.4524,
+      "num_input_tokens_seen": 369761216,
+      "step": 63300
+    },
+    {
+      "epoch": 0.6992159304420653,
+      "grad_norm": 1.8248168230056763,
+      "learning_rate": 0.00012272242385059584,
+      "loss": 4.4422,
+      "num_input_tokens_seen": 370638688,
+      "step": 63450
+    },
+    {
+      "epoch": 0.7008689231854273,
+      "grad_norm": 1.810051441192627,
+      "learning_rate": 0.0001226342624564703,
+      "loss": 4.4313,
+      "num_input_tokens_seen": 371541344,
+      "step": 63600
+    },
+    {
+      "epoch": 0.7025219159287891,
+      "grad_norm": 1.8361635208129883,
+      "learning_rate": 0.00012254610106234481,
+      "loss": 4.436,
+      "num_input_tokens_seen": 372415168,
+      "step": 63750
+    },
+    {
+      "epoch": 0.7041749086721509,
+      "grad_norm": 1.8005433082580566,
+      "learning_rate": 0.0001224579396682193,
+      "loss": 4.4353,
+      "num_input_tokens_seen": 373283872,
+      "step": 63900
+    },
+    {
+      "epoch": 0.7058279014155128,
+      "grad_norm": 1.8291569948196411,
+      "learning_rate": 0.0001223697782740938,
+      "loss": 4.4486,
+      "num_input_tokens_seen": 374156960,
+      "step": 64050
+    },
+    {
+      "epoch": 0.7074808941588746,
+      "grad_norm": 1.6987590789794922,
+      "learning_rate": 0.00012228161687996827,
+      "loss": 4.4402,
+      "num_input_tokens_seen": 375045632,
+      "step": 64200
+    },
+    {
+      "epoch": 0.7091338869022366,
+      "grad_norm": 1.8456915616989136,
+      "learning_rate": 0.00012219345548584277,
+      "loss": 4.4502,
+      "num_input_tokens_seen": 375936576,
+      "step": 64350
+    },
+    {
+      "epoch": 0.7107868796455984,
+      "grad_norm": 1.9141839742660522,
+      "learning_rate": 0.00012210529409171724,
+      "loss": 4.4521,
+      "num_input_tokens_seen": 376816512,
+      "step": 64500
+    },
+    {
+      "epoch": 0.7124398723889602,
+      "grad_norm": 1.8822457790374756,
+      "learning_rate": 0.00012201713269759175,
+      "loss": 4.4347,
+      "num_input_tokens_seen": 377684448,
+      "step": 64650
+    },
+    {
+      "epoch": 0.7140928651323221,
+      "grad_norm": 1.8143234252929688,
+      "learning_rate": 0.00012192897130346622,
+      "loss": 4.4336,
+      "num_input_tokens_seen": 378553120,
+      "step": 64800
+    },
+    {
+      "epoch": 0.7157458578756839,
+      "grad_norm": 1.8877683877944946,
+      "learning_rate": 0.00012184080990934071,
+      "loss": 4.4425,
+      "num_input_tokens_seen": 379413888,
+      "step": 64950
+    },
+    {
+      "epoch": 0.7173988506190457,
+      "grad_norm": 1.8746610879898071,
+      "learning_rate": 0.0001217526485152152,
+      "loss": 4.4417,
+      "num_input_tokens_seen": 380290304,
+      "step": 65100
+    },
+    {
+      "epoch": 0.7190518433624077,
+      "grad_norm": 2.0395500659942627,
+      "learning_rate": 0.00012166448712108969,
+      "loss": 4.4423,
+      "num_input_tokens_seen": 381185920,
+      "step": 65250
+    },
+    {
+      "epoch": 0.7207048361057695,
+      "grad_norm": 1.992492914199829,
+      "learning_rate": 0.00012157632572696418,
+      "loss": 4.4484,
+      "num_input_tokens_seen": 382075808,
+      "step": 65400
+    },
+    {
+      "epoch": 0.7223578288491314,
+      "grad_norm": 1.8621459007263184,
+      "learning_rate": 0.00012148816433283866,
+      "loss": 4.4274,
+      "num_input_tokens_seen": 382955232,
+      "step": 65550
+    },
+    {
+      "epoch": 0.7240108215924932,
+      "grad_norm": 1.8787345886230469,
+      "learning_rate": 0.00012140000293871315,
+      "loss": 4.4378,
+      "num_input_tokens_seen": 383834592,
+      "step": 65700
+    },
+    {
+      "epoch": 0.725663814335855,
+      "grad_norm": 1.8640894889831543,
+      "learning_rate": 0.00012131184154458764,
+      "loss": 4.4557,
+      "num_input_tokens_seen": 384710016,
+      "step": 65850
+    },
+    {
+      "epoch": 0.727316807079217,
+      "grad_norm": 1.918143630027771,
+      "learning_rate": 0.00012122368015046212,
+      "loss": 4.4467,
+      "num_input_tokens_seen": 385593120,
+      "step": 66000
+    },
+    {
+      "epoch": 0.7289697998225788,
+      "grad_norm": 1.8295505046844482,
+      "learning_rate": 0.00012113551875633662,
+      "loss": 4.4257,
+      "num_input_tokens_seen": 386460160,
+      "step": 66150
+    },
+    {
+      "epoch": 0.7306227925659406,
+      "grad_norm": 1.880216360092163,
+      "learning_rate": 0.00012104794510483861,
+      "loss": 4.4312,
+      "num_input_tokens_seen": 387328000,
+      "step": 66300
+    },
+    {
+      "epoch": 0.7322757853093025,
+      "grad_norm": 1.818788766860962,
+      "learning_rate": 0.00012095978371071308,
+      "loss": 4.4402,
+      "num_input_tokens_seen": 388200192,
+      "step": 66450
+    },
+    {
+      "epoch": 0.7339287780526643,
+      "grad_norm": 1.82147216796875,
+      "learning_rate": 0.00012087162231658759,
+      "loss": 4.4468,
+      "num_input_tokens_seen": 389079264,
+      "step": 66600
+    },
+    {
+      "epoch": 0.7355817707960262,
+      "grad_norm": 1.8930702209472656,
+      "learning_rate": 0.00012078346092246206,
+      "loss": 4.4362,
+      "num_input_tokens_seen": 389974112,
+      "step": 66750
+    },
+    {
+      "epoch": 0.7372347635393881,
+      "grad_norm": 1.8484946489334106,
+      "learning_rate": 0.00012069529952833656,
+      "loss": 4.4409,
+      "num_input_tokens_seen": 390875168,
+      "step": 66900
+    },
+    {
+      "epoch": 0.7388877562827499,
+      "grad_norm": 1.894093632698059,
+      "learning_rate": 0.00012060713813421104,
+      "loss": 4.4197,
+      "num_input_tokens_seen": 391736384,
+      "step": 67050
+    },
+    {
+      "epoch": 0.7405407490261118,
+      "grad_norm": 1.918149471282959,
+      "learning_rate": 0.00012051897674008553,
+      "loss": 4.4487,
+      "num_input_tokens_seen": 392626688,
+      "step": 67200
+    },
+    {
+      "epoch": 0.7421937417694736,
+      "grad_norm": 1.8563427925109863,
+      "learning_rate": 0.00012043081534596002,
+      "loss": 4.4375,
+      "num_input_tokens_seen": 393508640,
+      "step": 67350
+    },
+    {
+      "epoch": 0.7438467345128355,
+      "grad_norm": 1.8275529146194458,
+      "learning_rate": 0.0001203426539518345,
+      "loss": 4.4333,
+      "num_input_tokens_seen": 394397120,
+      "step": 67500
+    },
+    {
+      "epoch": 0.7454997272561974,
+      "grad_norm": 1.824823260307312,
+      "learning_rate": 0.00012025449255770899,
+      "loss": 4.4213,
+      "num_input_tokens_seen": 395273408,
+      "step": 67650
+    },
+    {
+      "epoch": 0.7471527199995592,
+      "grad_norm": 1.7815489768981934,
+      "learning_rate": 0.00012016633116358348,
+      "loss": 4.4295,
+      "num_input_tokens_seen": 396151584,
+      "step": 67800
+    },
+    {
+      "epoch": 0.7488057127429211,
+      "grad_norm": 1.9288073778152466,
+      "learning_rate": 0.00012007816976945797,
+      "loss": 4.4348,
+      "num_input_tokens_seen": 397006880,
+      "step": 67950
+    },
+    {
+      "epoch": 0.7504587054862829,
+      "grad_norm": 1.866746425628662,
+      "learning_rate": 0.00011999000837533245,
+      "loss": 4.4306,
+      "num_input_tokens_seen": 397879072,
+      "step": 68100
+    },
+    {
+      "epoch": 0.7521116982296447,
+      "grad_norm": 1.8168858289718628,
+      "learning_rate": 0.00011990184698120693,
+      "loss": 4.4321,
+      "num_input_tokens_seen": 398772672,
+      "step": 68250
+    },
+    {
+      "epoch": 0.7537646909730066,
+      "grad_norm": 1.7801350355148315,
+      "learning_rate": 0.00011981368558708142,
+      "loss": 4.4358,
+      "num_input_tokens_seen": 399663136,
+      "step": 68400
+    },
+    {
+      "epoch": 0.7554176837163685,
+      "grad_norm": 1.9442716836929321,
+      "learning_rate": 0.00011972611193558343,
+      "loss": 4.4357,
+      "num_input_tokens_seen": 400543936,
+      "step": 68550
+    },
+    {
+      "epoch": 0.7570706764597304,
+      "grad_norm": 1.8754234313964844,
+      "learning_rate": 0.0001196379505414579,
+      "loss": 4.4279,
+      "num_input_tokens_seen": 401411136,
+      "step": 68700
+    },
+    {
+      "epoch": 0.7587236692030922,
+      "grad_norm": 1.8986996412277222,
+      "learning_rate": 0.0001195497891473324,
+      "loss": 4.4345,
+      "num_input_tokens_seen": 402290464,
+      "step": 68850
+    },
+    {
+      "epoch": 0.760376661946454,
+      "grad_norm": 1.8807158470153809,
+      "learning_rate": 0.00011946162775320688,
+      "loss": 4.4329,
+      "num_input_tokens_seen": 403176768,
+      "step": 69000
+    },
+    {
+      "epoch": 0.7620296546898159,
+      "grad_norm": 1.8661843538284302,
+      "learning_rate": 0.00011937346635908138,
+      "loss": 4.4327,
+      "num_input_tokens_seen": 404053888,
+      "step": 69150
+    },
+    {
+      "epoch": 0.7636826474331778,
+      "grad_norm": 1.9022386074066162,
+      "learning_rate": 0.00011928530496495586,
+      "loss": 4.4304,
+      "num_input_tokens_seen": 404951328,
+      "step": 69300
+    },
+    {
+      "epoch": 0.7653356401765397,
+      "grad_norm": 1.9497708082199097,
+      "learning_rate": 0.00011919714357083035,
+      "loss": 4.4319,
+      "num_input_tokens_seen": 405824128,
+      "step": 69450
+    },
+    {
+      "epoch": 0.7669886329199015,
+      "grad_norm": 1.7283419370651245,
+      "learning_rate": 0.00011910898217670483,
+      "loss": 4.4222,
+      "num_input_tokens_seen": 406694592,
+      "step": 69600
+    },
+    {
+      "epoch": 0.7686416256632633,
+      "grad_norm": 1.8692352771759033,
+      "learning_rate": 0.00011902082078257931,
+      "loss": 4.4257,
+      "num_input_tokens_seen": 407577856,
+      "step": 69750
+    },
+    {
+      "epoch": 0.7702946184066252,
+      "grad_norm": 1.918215036392212,
+      "learning_rate": 0.00011893265938845381,
+      "loss": 4.4275,
+      "num_input_tokens_seen": 408455424,
+      "step": 69900
+    },
+    {
+      "epoch": 0.771947611149987,
+      "grad_norm": 1.8184279203414917,
+      "learning_rate": 0.00011884449799432829,
+      "loss": 4.4287,
+      "num_input_tokens_seen": 409330752,
+      "step": 70050
+    },
+    {
+      "epoch": 0.773600603893349,
+      "grad_norm": 1.846740961074829,
+      "learning_rate": 0.00011875633660020279,
+      "loss": 4.4244,
+      "num_input_tokens_seen": 410215104,
+      "step": 70200
+    },
+    {
+      "epoch": 0.7752535966367108,
+      "grad_norm": 1.9468152523040771,
+      "learning_rate": 0.00011866817520607726,
+      "loss": 4.4223,
+      "num_input_tokens_seen": 411089696,
+      "step": 70350
+    },
+    {
+      "epoch": 0.7769065893800726,
+      "grad_norm": 1.87180495262146,
+      "learning_rate": 0.00011858001381195175,
+      "loss": 4.4511,
+      "num_input_tokens_seen": 411988000,
+      "step": 70500
+    },
+    {
+      "epoch": 0.7785595821234345,
+      "grad_norm": 1.8375773429870605,
+      "learning_rate": 0.00011849185241782624,
+      "loss": 4.4361,
+      "num_input_tokens_seen": 412876544,
+      "step": 70650
+    },
+    {
+      "epoch": 0.7802125748667963,
+      "grad_norm": 1.7592004537582397,
+      "learning_rate": 0.00011840369102370073,
+      "loss": 4.4272,
+      "num_input_tokens_seen": 413737824,
+      "step": 70800
+    },
+    {
+      "epoch": 0.7818655676101582,
+      "grad_norm": 1.9243676662445068,
+      "learning_rate": 0.00011831552962957522,
+      "loss": 4.4343,
+      "num_input_tokens_seen": 414613184,
+      "step": 70950
+    },
+    {
+      "epoch": 0.7835185603535201,
+      "grad_norm": 1.9014674425125122,
+      "learning_rate": 0.0001182273682354497,
+      "loss": 4.4217,
+      "num_input_tokens_seen": 415494144,
+      "step": 71100
+    },
+    {
+      "epoch": 0.7851715530968819,
+      "grad_norm": 1.8528156280517578,
+      "learning_rate": 0.0001181397945839517,
+      "loss": 4.4323,
+      "num_input_tokens_seen": 416354240,
+      "step": 71250
+    },
+    {
+      "epoch": 0.7868245458402437,
+      "grad_norm": 1.7702356576919556,
+      "learning_rate": 0.0001180516331898262,
+      "loss": 4.4335,
+      "num_input_tokens_seen": 417214944,
+      "step": 71400
+    },
+    {
+      "epoch": 0.7884775385836056,
+      "grad_norm": 1.893778920173645,
+      "learning_rate": 0.00011796347179570067,
+      "loss": 4.4288,
+      "num_input_tokens_seen": 418073984,
+      "step": 71550
+    },
+    {
+      "epoch": 0.7901305313269674,
+      "grad_norm": 1.8179432153701782,
+      "learning_rate": 0.00011787531040157515,
+      "loss": 4.4161,
+      "num_input_tokens_seen": 418956256,
+      "step": 71700
+    },
+    {
+      "epoch": 0.7917835240703294,
+      "grad_norm": 1.8786159753799438,
+      "learning_rate": 0.00011778714900744965,
+      "loss": 4.4224,
+      "num_input_tokens_seen": 419832544,
+      "step": 71850
+    },
+    {
+      "epoch": 0.7934365168136912,
+      "grad_norm": 1.864493727684021,
+      "learning_rate": 0.00011769898761332413,
+      "loss": 4.4294,
+      "num_input_tokens_seen": 420706176,
+      "step": 72000
+    },
+    {
+      "epoch": 0.795089509557053,
+      "grad_norm": 1.7827798128128052,
+      "learning_rate": 0.00011761082621919863,
+      "loss": 4.4265,
+      "num_input_tokens_seen": 421594880,
+      "step": 72150
+    },
+    {
+      "epoch": 0.7967425023004149,
+      "grad_norm": 1.8714325428009033,
+      "learning_rate": 0.0001175226648250731,
+      "loss": 4.4428,
+      "num_input_tokens_seen": 422456256,
+      "step": 72300
+    },
+    {
+      "epoch": 0.7983954950437767,
+      "grad_norm": 1.8954764604568481,
+      "learning_rate": 0.0001174345034309476,
+      "loss": 4.4198,
+      "num_input_tokens_seen": 423334208,
+      "step": 72450
+    },
+    {
+      "epoch": 0.8000484877871387,
+      "grad_norm": 1.9334732294082642,
+      "learning_rate": 0.00011734634203682208,
+      "loss": 4.4285,
+      "num_input_tokens_seen": 424227104,
+      "step": 72600
+    },
+    {
+      "epoch": 0.8017014805305005,
+      "grad_norm": 1.8234983682632446,
+      "learning_rate": 0.00011725818064269657,
+      "loss": 4.438,
+      "num_input_tokens_seen": 425093536,
+      "step": 72750
+    },
+    {
+      "epoch": 0.8033544732738623,
+      "grad_norm": 1.8719639778137207,
+      "learning_rate": 0.00011717001924857106,
+      "loss": 4.432,
+      "num_input_tokens_seen": 425967904,
+      "step": 72900
+    },
+    {
+      "epoch": 0.8050074660172242,
+      "grad_norm": 1.879062533378601,
+      "learning_rate": 0.00011708185785444555,
+      "loss": 4.4157,
+      "num_input_tokens_seen": 426848192,
+      "step": 73050
+    },
+    {
+      "epoch": 0.806660458760586,
+      "grad_norm": 1.8409887552261353,
+      "learning_rate": 0.00011699369646032003,
+      "loss": 4.4173,
+      "num_input_tokens_seen": 427730528,
+      "step": 73200
+    },
+    {
+      "epoch": 0.8083134515039478,
+      "grad_norm": 1.9242078065872192,
+      "learning_rate": 0.00011690553506619452,
+      "loss": 4.4296,
+      "num_input_tokens_seen": 428621792,
+      "step": 73350
+    },
+    {
+      "epoch": 0.8099664442473098,
+      "grad_norm": 1.8767496347427368,
+      "learning_rate": 0.00011681737367206901,
+      "loss": 4.4245,
+      "num_input_tokens_seen": 429494624,
+      "step": 73500
+    },
+    {
+      "epoch": 0.8116194369906716,
+      "grad_norm": 1.8519647121429443,
+      "learning_rate": 0.0001167292122779435,
+      "loss": 4.4254,
+      "num_input_tokens_seen": 430360704,
+      "step": 73650
+    },
+    {
+      "epoch": 0.8132724297340335,
+      "grad_norm": 1.9251487255096436,
+      "learning_rate": 0.00011664105088381798,
+      "loss": 4.4362,
+      "num_input_tokens_seen": 431239616,
+      "step": 73800
+    },
+    {
+      "epoch": 0.8149254224773953,
+      "grad_norm": 1.8970694541931152,
+      "learning_rate": 0.00011655288948969248,
+      "loss": 4.4261,
+      "num_input_tokens_seen": 432109120,
+      "step": 73950
+    },
+    {
+      "epoch": 0.8165784152207571,
+      "grad_norm": 1.8284028768539429,
+      "learning_rate": 0.00011646472809556695,
+      "loss": 4.4406,
+      "num_input_tokens_seen": 433005440,
+      "step": 74100
+    },
+    {
+      "epoch": 0.8182314079641191,
+      "grad_norm": 1.7933986186981201,
+      "learning_rate": 0.00011637656670144145,
+      "loss": 4.4333,
+      "num_input_tokens_seen": 433891456,
+      "step": 74250
+    },
+    {
+      "epoch": 0.8198844007074809,
+      "grad_norm": 1.802509069442749,
+      "learning_rate": 0.00011628840530731593,
+      "loss": 4.4201,
+      "num_input_tokens_seen": 434769856,
+      "step": 74400
+    },
+    {
+      "epoch": 0.8215373934508428,
+      "grad_norm": 1.7515144348144531,
+      "learning_rate": 0.00011620024391319043,
+      "loss": 4.4225,
+      "num_input_tokens_seen": 435665920,
+      "step": 74550
+    },
+    {
+      "epoch": 0.8231903861942046,
+      "grad_norm": 1.8373006582260132,
+      "learning_rate": 0.00011611208251906491,
+      "loss": 4.4265,
+      "num_input_tokens_seen": 436549984,
+      "step": 74700
+    },
+    {
+      "epoch": 0.8248433789375664,
+      "grad_norm": 1.8570173978805542,
+      "learning_rate": 0.00011602392112493941,
+      "loss": 4.4196,
+      "num_input_tokens_seen": 437427456,
+      "step": 74850
+    },
+    {
+      "epoch": 0.8264963716809283,
+      "grad_norm": 1.9485052824020386,
+      "learning_rate": 0.00011593575973081388,
+      "loss": 4.4235,
+      "num_input_tokens_seen": 438316576,
+      "step": 75000
+    },
+    {
+      "epoch": 0.8281493644242902,
+      "grad_norm": 1.8972394466400146,
+      "learning_rate": 0.00011584818607931588,
+      "loss": 4.4231,
+      "num_input_tokens_seen": 439211648,
+      "step": 75150
+    },
+    {
+      "epoch": 0.829802357167652,
+      "grad_norm": 1.778745412826538,
+      "learning_rate": 0.00011576002468519036,
+      "loss": 4.423,
+      "num_input_tokens_seen": 440086912,
+      "step": 75300
+    },
+    {
+      "epoch": 0.8314553499110139,
+      "grad_norm": 1.923743486404419,
+      "learning_rate": 0.00011567245103369236,
+      "loss": 4.4112,
+      "num_input_tokens_seen": 440976736,
+      "step": 75450
+    },
+    {
+      "epoch": 0.8331083426543757,
+      "grad_norm": 1.8902959823608398,
+      "learning_rate": 0.00011558428963956683,
+      "loss": 4.4171,
+      "num_input_tokens_seen": 441827264,
+      "step": 75600
+    },
+    {
+      "epoch": 0.8347613353977376,
+      "grad_norm": 1.882279396057129,
+      "learning_rate": 0.00011549612824544133,
+      "loss": 4.4386,
+      "num_input_tokens_seen": 442687328,
+      "step": 75750
+    },
+    {
+      "epoch": 0.8364143281410995,
+      "grad_norm": 1.8508954048156738,
+      "learning_rate": 0.00011540796685131581,
+      "loss": 4.4261,
+      "num_input_tokens_seen": 443558176,
+      "step": 75900
+    },
+    {
+      "epoch": 0.8380673208844613,
+      "grad_norm": 1.8582794666290283,
+      "learning_rate": 0.00011531980545719031,
+      "loss": 4.4214,
+      "num_input_tokens_seen": 444448512,
+      "step": 76050
+    },
+    {
+      "epoch": 0.8397203136278232,
+      "grad_norm": 1.8337671756744385,
+      "learning_rate": 0.00011523164406306478,
+      "loss": 4.4257,
+      "num_input_tokens_seen": 445311808,
+      "step": 76200
+    },
+    {
+      "epoch": 0.841373306371185,
+      "grad_norm": 1.8980998992919922,
+      "learning_rate": 0.00011514348266893929,
+      "loss": 4.4294,
+      "num_input_tokens_seen": 446200832,
+      "step": 76350
+    },
+    {
+      "epoch": 0.8430262991145469,
+      "grad_norm": 1.8506239652633667,
+      "learning_rate": 0.00011505532127481376,
+      "loss": 4.4205,
+      "num_input_tokens_seen": 447081376,
+      "step": 76500
+    },
+    {
+      "epoch": 0.8446792918579088,
+      "grad_norm": 1.8824795484542847,
+      "learning_rate": 0.00011496715988068826,
+      "loss": 4.4213,
+      "num_input_tokens_seen": 447960352,
+      "step": 76650
+    },
+    {
+      "epoch": 0.8463322846012706,
+      "grad_norm": 1.8223339319229126,
+      "learning_rate": 0.00011487899848656274,
+      "loss": 4.4267,
+      "num_input_tokens_seen": 448832096,
+      "step": 76800
+    },
+    {
+      "epoch": 0.8479852773446325,
+      "grad_norm": 1.8224749565124512,
+      "learning_rate": 0.00011479083709243724,
+      "loss": 4.4181,
+      "num_input_tokens_seen": 449706720,
+      "step": 76950
+    },
+    {
+      "epoch": 0.8496382700879943,
+      "grad_norm": 1.903432011604309,
+      "learning_rate": 0.00011470267569831172,
+      "loss": 4.4309,
+      "num_input_tokens_seen": 450578752,
+      "step": 77100
+    },
+    {
+      "epoch": 0.8512912628313561,
+      "grad_norm": 1.8261497020721436,
+      "learning_rate": 0.0001146145143041862,
+      "loss": 4.4195,
+      "num_input_tokens_seen": 451441120,
+      "step": 77250
+    },
+    {
+      "epoch": 0.852944255574718,
+      "grad_norm": 1.8583135604858398,
+      "learning_rate": 0.00011452635291006069,
+      "loss": 4.4198,
+      "num_input_tokens_seen": 452318560,
+      "step": 77400
+    },
+    {
+      "epoch": 0.8545972483180799,
+      "grad_norm": 1.8936694860458374,
+      "learning_rate": 0.00011443819151593518,
+      "loss": 4.4287,
+      "num_input_tokens_seen": 453195136,
+      "step": 77550
+    },
+    {
+      "epoch": 0.8562502410614418,
+      "grad_norm": 1.9256082773208618,
+      "learning_rate": 0.00011435003012180967,
+      "loss": 4.4156,
+      "num_input_tokens_seen": 454055456,
+      "step": 77700
+    },
+    {
+      "epoch": 0.8579032338048036,
+      "grad_norm": 1.8237937688827515,
+      "learning_rate": 0.00011426186872768416,
+      "loss": 4.4348,
+      "num_input_tokens_seen": 454932800,
+      "step": 77850
+    },
+    {
+      "epoch": 0.8595562265481654,
+      "grad_norm": 1.8298827409744263,
+      "learning_rate": 0.00011417370733355865,
+      "loss": 4.4178,
+      "num_input_tokens_seen": 455826208,
+      "step": 78000
+    },
+    {
+      "epoch": 0.8612092192915273,
+      "grad_norm": 1.895670771598816,
+      "learning_rate": 0.00011408554593943314,
+      "loss": 4.4164,
+      "num_input_tokens_seen": 456726848,
+      "step": 78150
+    },
+    {
+      "epoch": 0.8628622120348892,
+      "grad_norm": 1.750807523727417,
+      "learning_rate": 0.00011399738454530761,
+      "loss": 4.4051,
+      "num_input_tokens_seen": 457606464,
+      "step": 78300
+    },
+    {
+      "epoch": 0.8645152047782511,
+      "grad_norm": 1.8419345617294312,
+      "learning_rate": 0.00011390922315118211,
+      "loss": 4.4249,
+      "num_input_tokens_seen": 458484896,
+      "step": 78450
+    },
+    {
+      "epoch": 0.8661681975216129,
+      "grad_norm": 2.033911943435669,
+      "learning_rate": 0.00011382106175705659,
+      "loss": 4.421,
+      "num_input_tokens_seen": 459353824,
+      "step": 78600
+    },
+    {
+      "epoch": 0.8678211902649747,
+      "grad_norm": 1.9020805358886719,
+      "learning_rate": 0.00011373290036293109,
+      "loss": 4.4016,
+      "num_input_tokens_seen": 460221184,
+      "step": 78750
+    },
+    {
+      "epoch": 0.8694741830083366,
+      "grad_norm": 1.91862952709198,
+      "learning_rate": 0.00011364473896880557,
+      "loss": 4.4093,
+      "num_input_tokens_seen": 461087744,
+      "step": 78900
+    },
+    {
+      "epoch": 0.8711271757516984,
+      "grad_norm": 1.7994396686553955,
+      "learning_rate": 0.00011355657757468007,
+      "loss": 4.4281,
+      "num_input_tokens_seen": 461960160,
+      "step": 79050
+    },
+    {
+      "epoch": 0.8727801684950603,
+      "grad_norm": 1.7911181449890137,
+      "learning_rate": 0.00011346841618055454,
+      "loss": 4.4229,
+      "num_input_tokens_seen": 462838144,
+      "step": 79200
+    },
+    {
+      "epoch": 0.8744331612384222,
+      "grad_norm": 1.923474907875061,
+      "learning_rate": 0.00011338025478642904,
+      "loss": 4.4103,
+      "num_input_tokens_seen": 463703328,
+      "step": 79350
+    },
+    {
+      "epoch": 0.876086153981784,
+      "grad_norm": 1.994814157485962,
+      "learning_rate": 0.00011329268113493102,
+      "loss": 4.4128,
+      "num_input_tokens_seen": 464568896,
+      "step": 79500
+    },
+    {
+      "epoch": 0.8777391467251459,
+      "grad_norm": 1.875200867652893,
+      "learning_rate": 0.00011320451974080551,
+      "loss": 4.4224,
+      "num_input_tokens_seen": 465434144,
+      "step": 79650
+    },
+    {
+      "epoch": 0.8793921394685077,
+      "grad_norm": 1.8729829788208008,
+      "learning_rate": 0.00011311635834668,
+      "loss": 4.4274,
+      "num_input_tokens_seen": 466293984,
+      "step": 79800
+    },
+    {
+      "epoch": 0.8810451322118696,
+      "grad_norm": 1.772687315940857,
+      "learning_rate": 0.00011302819695255449,
+      "loss": 4.4178,
+      "num_input_tokens_seen": 467169280,
+      "step": 79950
+    },
+    {
+      "epoch": 0.8826981249552315,
+      "grad_norm": 1.8293451070785522,
+      "learning_rate": 0.00011294003555842898,
+      "loss": 4.412,
+      "num_input_tokens_seen": 468023552,
+      "step": 80100
+    },
+    {
+      "epoch": 0.8843511176985933,
+      "grad_norm": 1.9000316858291626,
+      "learning_rate": 0.00011285187416430346,
+      "loss": 4.4114,
+      "num_input_tokens_seen": 468883168,
+      "step": 80250
+    },
+    {
+      "epoch": 0.8860041104419552,
+      "grad_norm": 1.8056668043136597,
+      "learning_rate": 0.00011276371277017795,
+      "loss": 4.4225,
+      "num_input_tokens_seen": 469761120,
+      "step": 80400
+    },
+    {
+      "epoch": 0.887657103185317,
+      "grad_norm": 1.7813293933868408,
+      "learning_rate": 0.00011267555137605243,
+      "loss": 4.4176,
+      "num_input_tokens_seen": 470629344,
+      "step": 80550
+    },
+    {
+      "epoch": 0.8893100959286788,
+      "grad_norm": 1.8244847059249878,
+      "learning_rate": 0.00011258738998192693,
+      "loss": 4.4082,
+      "num_input_tokens_seen": 471489280,
+      "step": 80700
+    },
+    {
+      "epoch": 0.8909630886720408,
+      "grad_norm": 1.8946529626846313,
+      "learning_rate": 0.00011249981633042892,
+      "loss": 4.4162,
+      "num_input_tokens_seen": 472365504,
+      "step": 80850
+    },
+    {
+      "epoch": 0.8926160814154026,
+      "grad_norm": 1.870685338973999,
+      "learning_rate": 0.0001124116549363034,
+      "loss": 4.4009,
+      "num_input_tokens_seen": 473238752,
+      "step": 81000
+    },
+    {
+      "epoch": 0.8942690741587644,
+      "grad_norm": 1.9169375896453857,
+      "learning_rate": 0.0001123234935421779,
+      "loss": 4.4176,
+      "num_input_tokens_seen": 474122880,
+      "step": 81150
+    },
+    {
+      "epoch": 0.8959220669021263,
+      "grad_norm": 1.9780856370925903,
+      "learning_rate": 0.00011223533214805237,
+      "loss": 4.401,
+      "num_input_tokens_seen": 475002240,
+      "step": 81300
+    },
+    {
+      "epoch": 0.8975750596454881,
+      "grad_norm": 1.8493030071258545,
+      "learning_rate": 0.00011214717075392688,
+      "loss": 4.4091,
+      "num_input_tokens_seen": 475882624,
+      "step": 81450
     }
   ],
   "logging_steps": 150,
   "max_steps": 272232,
+  "num_input_tokens_seen": 476177504,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 7352485415362560.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null