Upload 8 files

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +964 -4

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ebc653e18935ef6e6d593d943659324be81a89c736dc6b33141d9a72bc9696c
 size 18494040

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fe830f215593241d5a06be7b7382d26df2df95fa5877818c55602cc0aaaec7c
 size 18494040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c16f2324ca710c73fffdab8ac0b51ca0937adca9d3ea12a4fcf7b6b75c642b3
 size 37035002

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ffc9e9ba9737e7047e65caa20e5526ed8da4c213c4ce3f2cca848b1ac8ecdbd
 size 37035002

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ff264f99d31b522cc7e2a4eac9d38606d0c58a34c0adc74d71e0ca8b371dc36
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:caeb79da12fade882c795419ac73c6806820c6ccef19831ac9e9b66b6ca1212b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c4c29cdd3791b07f27eccf7f1e479362eae64a2df7b8ed21d32b1b0f2e78f0d
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8981260572266088,
   "eval_steps": 500,
-  "global_step": 81500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4351,11 +4351,971 @@
       "loss": 4.4091,
       "num_input_tokens_seen": 475882624,
       "step": 81450
     }
   ],
   "logging_steps": 150,
   "max_steps": 272232,
-  "num_input_tokens_seen": 476177504,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
@@ -4370,7 +5330,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7352485415362560.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0964851864300316,
   "eval_steps": 500,
+  "global_step": 99500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 4.4091,
       "num_input_tokens_seen": 475882624,
       "step": 81450
+    },
+    {
+      "epoch": 0.8992280523888501,
+      "grad_norm": 1.8798983097076416,
+      "learning_rate": 0.00011205900935980135,
+      "loss": 4.4113,
+      "num_input_tokens_seen": 476749664,
+      "step": 81600
+    },
+    {
+      "epoch": 0.9008810451322119,
+      "grad_norm": 1.8249197006225586,
+      "learning_rate": 0.00011197084796567584,
+      "loss": 4.4059,
+      "num_input_tokens_seen": 477650784,
+      "step": 81750
+    },
+    {
+      "epoch": 0.9025340378755737,
+      "grad_norm": 1.9157739877700806,
+      "learning_rate": 0.00011188268657155033,
+      "loss": 4.4109,
+      "num_input_tokens_seen": 478523840,
+      "step": 81900
+    },
+    {
+      "epoch": 0.9041870306189356,
+      "grad_norm": 1.9503858089447021,
+      "learning_rate": 0.00011179452517742482,
+      "loss": 4.4139,
+      "num_input_tokens_seen": 479399296,
+      "step": 82050
+    },
+    {
+      "epoch": 0.9058400233622974,
+      "grad_norm": 1.8298823833465576,
+      "learning_rate": 0.0001117063637832993,
+      "loss": 4.4123,
+      "num_input_tokens_seen": 480262240,
+      "step": 82200
+    },
+    {
+      "epoch": 0.9074930161056592,
+      "grad_norm": 1.9161386489868164,
+      "learning_rate": 0.0001116182023891738,
+      "loss": 4.4058,
+      "num_input_tokens_seen": 481141056,
+      "step": 82350
+    },
+    {
+      "epoch": 0.9091460088490212,
+      "grad_norm": 1.872722864151001,
+      "learning_rate": 0.00011153004099504828,
+      "loss": 4.4279,
+      "num_input_tokens_seen": 482014112,
+      "step": 82500
+    },
+    {
+      "epoch": 0.910799001592383,
+      "grad_norm": 1.8831090927124023,
+      "learning_rate": 0.00011144187960092277,
+      "loss": 4.4121,
+      "num_input_tokens_seen": 482898336,
+      "step": 82650
+    },
+    {
+      "epoch": 0.9124519943357449,
+      "grad_norm": 1.8128923177719116,
+      "learning_rate": 0.00011135371820679725,
+      "loss": 4.4105,
+      "num_input_tokens_seen": 483773760,
+      "step": 82800
+    },
+    {
+      "epoch": 0.9141049870791067,
+      "grad_norm": 1.8982397317886353,
+      "learning_rate": 0.00011126555681267175,
+      "loss": 4.4234,
+      "num_input_tokens_seen": 484671008,
+      "step": 82950
+    },
+    {
+      "epoch": 0.9157579798224685,
+      "grad_norm": 1.8295831680297852,
+      "learning_rate": 0.00011117739541854622,
+      "loss": 4.4227,
+      "num_input_tokens_seen": 485553984,
+      "step": 83100
+    },
+    {
+      "epoch": 0.9174109725658305,
+      "grad_norm": 1.8975720405578613,
+      "learning_rate": 0.00011108923402442071,
+      "loss": 4.4176,
+      "num_input_tokens_seen": 486416672,
+      "step": 83250
+    },
+    {
+      "epoch": 0.9190639653091923,
+      "grad_norm": 1.8207321166992188,
+      "learning_rate": 0.0001110010726302952,
+      "loss": 4.424,
+      "num_input_tokens_seen": 487286816,
+      "step": 83400
+    },
+    {
+      "epoch": 0.9207169580525542,
+      "grad_norm": 1.9241523742675781,
+      "learning_rate": 0.00011091291123616969,
+      "loss": 4.4129,
+      "num_input_tokens_seen": 488157088,
+      "step": 83550
+    },
+    {
+      "epoch": 0.922369950795916,
+      "grad_norm": 1.8391443490982056,
+      "learning_rate": 0.00011082474984204418,
+      "loss": 4.4036,
+      "num_input_tokens_seen": 489008320,
+      "step": 83700
+    },
+    {
+      "epoch": 0.9240229435392778,
+      "grad_norm": 1.9244701862335205,
+      "learning_rate": 0.00011073658844791865,
+      "loss": 4.4215,
+      "num_input_tokens_seen": 489887328,
+      "step": 83850
+    },
+    {
+      "epoch": 0.9256759362826397,
+      "grad_norm": 1.8949611186981201,
+      "learning_rate": 0.00011064842705379315,
+      "loss": 4.4205,
+      "num_input_tokens_seen": 490765504,
+      "step": 84000
+    },
+    {
+      "epoch": 0.9273289290260016,
+      "grad_norm": 1.810594081878662,
+      "learning_rate": 0.00011056026565966763,
+      "loss": 4.4149,
+      "num_input_tokens_seen": 491650144,
+      "step": 84150
+    },
+    {
+      "epoch": 0.9289819217693635,
+      "grad_norm": 1.8556066751480103,
+      "learning_rate": 0.00011047210426554213,
+      "loss": 4.4102,
+      "num_input_tokens_seen": 492539968,
+      "step": 84300
+    },
+    {
+      "epoch": 0.9306349145127253,
+      "grad_norm": 1.8486409187316895,
+      "learning_rate": 0.00011038394287141661,
+      "loss": 4.4231,
+      "num_input_tokens_seen": 493424352,
+      "step": 84450
+    },
+    {
+      "epoch": 0.9322879072560871,
+      "grad_norm": 1.8193395137786865,
+      "learning_rate": 0.00011029578147729111,
+      "loss": 4.4195,
+      "num_input_tokens_seen": 494301152,
+      "step": 84600
+    },
+    {
+      "epoch": 0.933940899999449,
+      "grad_norm": 1.8344619274139404,
+      "learning_rate": 0.00011020762008316558,
+      "loss": 4.4075,
+      "num_input_tokens_seen": 495177600,
+      "step": 84750
+    },
+    {
+      "epoch": 0.9355938927428109,
+      "grad_norm": 1.781654953956604,
+      "learning_rate": 0.00011012004643166758,
+      "loss": 4.4075,
+      "num_input_tokens_seen": 496047680,
+      "step": 84900
+    },
+    {
+      "epoch": 0.9372468854861727,
+      "grad_norm": 1.935810923576355,
+      "learning_rate": 0.00011003188503754206,
+      "loss": 4.408,
+      "num_input_tokens_seen": 496919488,
+      "step": 85050
+    },
+    {
+      "epoch": 0.9388998782295346,
+      "grad_norm": 1.8130574226379395,
+      "learning_rate": 0.00010994372364341655,
+      "loss": 4.4152,
+      "num_input_tokens_seen": 497821280,
+      "step": 85200
+    },
+    {
+      "epoch": 0.9405528709728964,
+      "grad_norm": 1.9481176137924194,
+      "learning_rate": 0.00010985556224929104,
+      "loss": 4.4115,
+      "num_input_tokens_seen": 498694560,
+      "step": 85350
+    },
+    {
+      "epoch": 0.9422058637162583,
+      "grad_norm": 1.8938475847244263,
+      "learning_rate": 0.00010976740085516553,
+      "loss": 4.4077,
+      "num_input_tokens_seen": 499570016,
+      "step": 85500
+    },
+    {
+      "epoch": 0.9438588564596201,
+      "grad_norm": 1.8449296951293945,
+      "learning_rate": 0.00010967923946104002,
+      "loss": 4.4043,
+      "num_input_tokens_seen": 500436288,
+      "step": 85650
+    },
+    {
+      "epoch": 0.945511849202982,
+      "grad_norm": 1.775891661643982,
+      "learning_rate": 0.00010959166580954201,
+      "loss": 4.4112,
+      "num_input_tokens_seen": 501298944,
+      "step": 85800
+    },
+    {
+      "epoch": 0.9471648419463439,
+      "grad_norm": 1.827708125114441,
+      "learning_rate": 0.00010950350441541651,
+      "loss": 4.4088,
+      "num_input_tokens_seen": 502206976,
+      "step": 85950
+    },
+    {
+      "epoch": 0.9488178346897057,
+      "grad_norm": 1.8833259344100952,
+      "learning_rate": 0.00010941534302129099,
+      "loss": 4.4107,
+      "num_input_tokens_seen": 503083488,
+      "step": 86100
+    },
+    {
+      "epoch": 0.9504708274330675,
+      "grad_norm": 1.8116602897644043,
+      "learning_rate": 0.00010932718162716549,
+      "loss": 4.4109,
+      "num_input_tokens_seen": 503978240,
+      "step": 86250
+    },
+    {
+      "epoch": 0.9521238201764294,
+      "grad_norm": 1.8248368501663208,
+      "learning_rate": 0.00010923902023303996,
+      "loss": 4.4041,
+      "num_input_tokens_seen": 504859744,
+      "step": 86400
+    },
+    {
+      "epoch": 0.9537768129197913,
+      "grad_norm": 1.862371802330017,
+      "learning_rate": 0.00010915085883891444,
+      "loss": 4.4221,
+      "num_input_tokens_seen": 505740576,
+      "step": 86550
+    },
+    {
+      "epoch": 0.9554298056631532,
+      "grad_norm": 1.8358848094940186,
+      "learning_rate": 0.00010906269744478894,
+      "loss": 4.4051,
+      "num_input_tokens_seen": 506615680,
+      "step": 86700
+    },
+    {
+      "epoch": 0.957082798406515,
+      "grad_norm": 1.8686786890029907,
+      "learning_rate": 0.00010897453605066342,
+      "loss": 4.41,
+      "num_input_tokens_seen": 507477824,
+      "step": 86850
+    },
+    {
+      "epoch": 0.9587357911498768,
+      "grad_norm": 1.833525538444519,
+      "learning_rate": 0.00010888637465653792,
+      "loss": 4.4188,
+      "num_input_tokens_seen": 508371904,
+      "step": 87000
+    },
+    {
+      "epoch": 0.9603887838932387,
+      "grad_norm": 1.9611468315124512,
+      "learning_rate": 0.00010879821326241239,
+      "loss": 4.4034,
+      "num_input_tokens_seen": 509250272,
+      "step": 87150
+    },
+    {
+      "epoch": 0.9620417766366006,
+      "grad_norm": 1.6934946775436401,
+      "learning_rate": 0.00010871005186828688,
+      "loss": 4.4067,
+      "num_input_tokens_seen": 510129568,
+      "step": 87300
+    },
+    {
+      "epoch": 0.9636947693799625,
+      "grad_norm": 1.8400757312774658,
+      "learning_rate": 0.00010862189047416137,
+      "loss": 4.4,
+      "num_input_tokens_seen": 510995328,
+      "step": 87450
+    },
+    {
+      "epoch": 0.9653477621233243,
+      "grad_norm": 1.8682547807693481,
+      "learning_rate": 0.00010853372908003586,
+      "loss": 4.4026,
+      "num_input_tokens_seen": 511880416,
+      "step": 87600
+    },
+    {
+      "epoch": 0.9670007548666861,
+      "grad_norm": 1.8408825397491455,
+      "learning_rate": 0.00010844556768591035,
+      "loss": 4.4019,
+      "num_input_tokens_seen": 512759072,
+      "step": 87750
+    },
+    {
+      "epoch": 0.968653747610048,
+      "grad_norm": 1.9082870483398438,
+      "learning_rate": 0.00010835740629178484,
+      "loss": 4.4076,
+      "num_input_tokens_seen": 513640896,
+      "step": 87900
+    },
+    {
+      "epoch": 0.9703067403534098,
+      "grad_norm": 1.9512287378311157,
+      "learning_rate": 0.00010826983264028683,
+      "loss": 4.4217,
+      "num_input_tokens_seen": 514532256,
+      "step": 88050
+    },
+    {
+      "epoch": 0.9719597330967717,
+      "grad_norm": 1.9278032779693604,
+      "learning_rate": 0.0001081816712461613,
+      "loss": 4.4217,
+      "num_input_tokens_seen": 515412864,
+      "step": 88200
+    },
+    {
+      "epoch": 0.9736127258401336,
+      "grad_norm": 1.814817190170288,
+      "learning_rate": 0.0001080935098520358,
+      "loss": 4.4178,
+      "num_input_tokens_seen": 516301408,
+      "step": 88350
+    },
+    {
+      "epoch": 0.9752657185834954,
+      "grad_norm": 2.0495548248291016,
+      "learning_rate": 0.00010800534845791028,
+      "loss": 4.4101,
+      "num_input_tokens_seen": 517179648,
+      "step": 88500
+    },
+    {
+      "epoch": 0.9769187113268573,
+      "grad_norm": 1.8378854990005493,
+      "learning_rate": 0.00010791718706378478,
+      "loss": 4.4031,
+      "num_input_tokens_seen": 518064288,
+      "step": 88650
+    },
+    {
+      "epoch": 0.9785717040702191,
+      "grad_norm": 1.8407827615737915,
+      "learning_rate": 0.00010782902566965926,
+      "loss": 4.4135,
+      "num_input_tokens_seen": 518947776,
+      "step": 88800
+    },
+    {
+      "epoch": 0.980224696813581,
+      "grad_norm": 1.845199704170227,
+      "learning_rate": 0.00010774086427553376,
+      "loss": 4.4,
+      "num_input_tokens_seen": 519822560,
+      "step": 88950
+    },
+    {
+      "epoch": 0.9818776895569429,
+      "grad_norm": 1.8627071380615234,
+      "learning_rate": 0.00010765270288140823,
+      "loss": 4.4125,
+      "num_input_tokens_seen": 520709888,
+      "step": 89100
+    },
+    {
+      "epoch": 0.9835306823003047,
+      "grad_norm": 1.826648235321045,
+      "learning_rate": 0.00010756454148728274,
+      "loss": 4.4006,
+      "num_input_tokens_seen": 521586080,
+      "step": 89250
+    },
+    {
+      "epoch": 0.9851836750436666,
+      "grad_norm": 1.9315438270568848,
+      "learning_rate": 0.00010747638009315721,
+      "loss": 4.4104,
+      "num_input_tokens_seen": 522450944,
+      "step": 89400
+    },
+    {
+      "epoch": 0.9868366677870284,
+      "grad_norm": 1.8507201671600342,
+      "learning_rate": 0.0001073882186990317,
+      "loss": 4.412,
+      "num_input_tokens_seen": 523335744,
+      "step": 89550
+    },
+    {
+      "epoch": 0.9884896605303902,
+      "grad_norm": 1.8950568437576294,
+      "learning_rate": 0.00010730005730490619,
+      "loss": 4.4106,
+      "num_input_tokens_seen": 524216960,
+      "step": 89700
+    },
+    {
+      "epoch": 0.9901426532737522,
+      "grad_norm": 1.92140531539917,
+      "learning_rate": 0.00010721189591078068,
+      "loss": 4.4001,
+      "num_input_tokens_seen": 525081088,
+      "step": 89850
+    },
+    {
+      "epoch": 0.991795646017114,
+      "grad_norm": 1.9179210662841797,
+      "learning_rate": 0.00010712373451665516,
+      "loss": 4.4044,
+      "num_input_tokens_seen": 525964384,
+      "step": 90000
+    },
+    {
+      "epoch": 0.9934486387604758,
+      "grad_norm": 1.8168158531188965,
+      "learning_rate": 0.00010703557312252965,
+      "loss": 4.4082,
+      "num_input_tokens_seen": 526852256,
+      "step": 90150
+    },
+    {
+      "epoch": 0.9951016315038377,
+      "grad_norm": 2.0058753490448,
+      "learning_rate": 0.00010694741172840414,
+      "loss": 4.4061,
+      "num_input_tokens_seen": 527721152,
+      "step": 90300
+    },
+    {
+      "epoch": 0.9967546242471995,
+      "grad_norm": 2.0036473274230957,
+      "learning_rate": 0.00010685925033427863,
+      "loss": 4.4013,
+      "num_input_tokens_seen": 528601472,
+      "step": 90450
+    },
+    {
+      "epoch": 0.9984076169905615,
+      "grad_norm": 1.8912723064422607,
+      "learning_rate": 0.0001067710889401531,
+      "loss": 4.408,
+      "num_input_tokens_seen": 529485344,
+      "step": 90600
+    },
+    {
+      "epoch": 1.0000606097339233,
+      "grad_norm": 1.8539482355117798,
+      "learning_rate": 0.00010668292754602761,
+      "loss": 4.4072,
+      "num_input_tokens_seen": 530388834,
+      "step": 90750
+    },
+    {
+      "epoch": 1.001713602477285,
+      "grad_norm": 1.9648711681365967,
+      "learning_rate": 0.00010659476615190208,
+      "loss": 4.4023,
+      "num_input_tokens_seen": 531261986,
+      "step": 90900
+    },
+    {
+      "epoch": 1.003366595220647,
+      "grad_norm": 1.8683501482009888,
+      "learning_rate": 0.00010650660475777658,
+      "loss": 4.3953,
+      "num_input_tokens_seen": 532138626,
+      "step": 91050
+    },
+    {
+      "epoch": 1.005019587964009,
+      "grad_norm": 1.9149645566940308,
+      "learning_rate": 0.00010641844336365106,
+      "loss": 4.3907,
+      "num_input_tokens_seen": 533008418,
+      "step": 91200
+    },
+    {
+      "epoch": 1.0066725807073706,
+      "grad_norm": 1.804408073425293,
+      "learning_rate": 0.00010633028196952556,
+      "loss": 4.4053,
+      "num_input_tokens_seen": 533881122,
+      "step": 91350
+    },
+    {
+      "epoch": 1.0083255734507326,
+      "grad_norm": 1.8145511150360107,
+      "learning_rate": 0.00010624212057540004,
+      "loss": 4.3993,
+      "num_input_tokens_seen": 534752738,
+      "step": 91500
+    },
+    {
+      "epoch": 1.0099785661940943,
+      "grad_norm": 1.8206557035446167,
+      "learning_rate": 0.00010615395918127454,
+      "loss": 4.3954,
+      "num_input_tokens_seen": 535622338,
+      "step": 91650
+    },
+    {
+      "epoch": 1.0116315589374563,
+      "grad_norm": 1.880231261253357,
+      "learning_rate": 0.00010606579778714901,
+      "loss": 4.4002,
+      "num_input_tokens_seen": 536488386,
+      "step": 91800
+    },
+    {
+      "epoch": 1.0132845516808182,
+      "grad_norm": 1.8914505243301392,
+      "learning_rate": 0.00010597763639302352,
+      "loss": 4.3961,
+      "num_input_tokens_seen": 537374658,
+      "step": 91950
+    },
+    {
+      "epoch": 1.01493754442418,
+      "grad_norm": 1.9163919687271118,
+      "learning_rate": 0.0001058900627415255,
+      "loss": 4.3973,
+      "num_input_tokens_seen": 538244194,
+      "step": 92100
+    },
+    {
+      "epoch": 1.0165905371675419,
+      "grad_norm": 1.9003725051879883,
+      "learning_rate": 0.00010580190134739998,
+      "loss": 4.3957,
+      "num_input_tokens_seen": 539130914,
+      "step": 92250
+    },
+    {
+      "epoch": 1.0182435299109036,
+      "grad_norm": 1.838493824005127,
+      "learning_rate": 0.00010571373995327447,
+      "loss": 4.3878,
+      "num_input_tokens_seen": 540022850,
+      "step": 92400
+    },
+    {
+      "epoch": 1.0198965226542656,
+      "grad_norm": 1.9080275297164917,
+      "learning_rate": 0.00010562557855914896,
+      "loss": 4.3917,
+      "num_input_tokens_seen": 540895874,
+      "step": 92550
+    },
+    {
+      "epoch": 1.0215495153976275,
+      "grad_norm": 1.8060060739517212,
+      "learning_rate": 0.00010553741716502345,
+      "loss": 4.3953,
+      "num_input_tokens_seen": 541762658,
+      "step": 92700
+    },
+    {
+      "epoch": 1.0232025081409892,
+      "grad_norm": 1.903151273727417,
+      "learning_rate": 0.00010544925577089792,
+      "loss": 4.3952,
+      "num_input_tokens_seen": 542643138,
+      "step": 92850
+    },
+    {
+      "epoch": 1.0248555008843512,
+      "grad_norm": 1.9957008361816406,
+      "learning_rate": 0.00010536109437677243,
+      "loss": 4.3952,
+      "num_input_tokens_seen": 543505570,
+      "step": 93000
+    },
+    {
+      "epoch": 1.026508493627713,
+      "grad_norm": 1.8897976875305176,
+      "learning_rate": 0.0001052729329826469,
+      "loss": 4.395,
+      "num_input_tokens_seen": 544378466,
+      "step": 93150
+    },
+    {
+      "epoch": 1.0281614863710749,
+      "grad_norm": 1.895654320716858,
+      "learning_rate": 0.0001051847715885214,
+      "loss": 4.4016,
+      "num_input_tokens_seen": 545256738,
+      "step": 93300
+    },
+    {
+      "epoch": 1.0298144791144366,
+      "grad_norm": 1.9977262020111084,
+      "learning_rate": 0.00010509661019439588,
+      "loss": 4.3994,
+      "num_input_tokens_seen": 546150498,
+      "step": 93450
+    },
+    {
+      "epoch": 1.0314674718577985,
+      "grad_norm": 1.82341468334198,
+      "learning_rate": 0.00010500844880027038,
+      "loss": 4.4003,
+      "num_input_tokens_seen": 547021922,
+      "step": 93600
+    },
+    {
+      "epoch": 1.0331204646011605,
+      "grad_norm": 1.7573907375335693,
+      "learning_rate": 0.00010492028740614485,
+      "loss": 4.3936,
+      "num_input_tokens_seen": 547888450,
+      "step": 93750
+    },
+    {
+      "epoch": 1.0347734573445222,
+      "grad_norm": 2.011516571044922,
+      "learning_rate": 0.00010483212601201936,
+      "loss": 4.3861,
+      "num_input_tokens_seen": 548752514,
+      "step": 93900
+    },
+    {
+      "epoch": 1.0364264500878841,
+      "grad_norm": 1.8368171453475952,
+      "learning_rate": 0.00010474396461789383,
+      "loss": 4.3975,
+      "num_input_tokens_seen": 549641218,
+      "step": 94050
+    },
+    {
+      "epoch": 1.0380794428312459,
+      "grad_norm": 2.0658929347991943,
+      "learning_rate": 0.00010465639096639582,
+      "loss": 4.4042,
+      "num_input_tokens_seen": 550521378,
+      "step": 94200
+    },
+    {
+      "epoch": 1.0397324355746078,
+      "grad_norm": 1.8516744375228882,
+      "learning_rate": 0.00010456822957227031,
+      "loss": 4.3937,
+      "num_input_tokens_seen": 551403138,
+      "step": 94350
+    },
+    {
+      "epoch": 1.0413854283179698,
+      "grad_norm": 1.9704523086547852,
+      "learning_rate": 0.0001044800681781448,
+      "loss": 4.3892,
+      "num_input_tokens_seen": 552268866,
+      "step": 94500
+    },
+    {
+      "epoch": 1.0430384210613315,
+      "grad_norm": 1.8856583833694458,
+      "learning_rate": 0.00010439190678401929,
+      "loss": 4.3969,
+      "num_input_tokens_seen": 553139522,
+      "step": 94650
+    },
+    {
+      "epoch": 1.0446914138046934,
+      "grad_norm": 1.9823240041732788,
+      "learning_rate": 0.00010430374538989378,
+      "loss": 4.3937,
+      "num_input_tokens_seen": 554009858,
+      "step": 94800
+    },
+    {
+      "epoch": 1.0463444065480552,
+      "grad_norm": 1.8391404151916504,
+      "learning_rate": 0.00010421558399576827,
+      "loss": 4.3891,
+      "num_input_tokens_seen": 554896962,
+      "step": 94950
+    },
+    {
+      "epoch": 1.047997399291417,
+      "grad_norm": 1.829777717590332,
+      "learning_rate": 0.00010412742260164274,
+      "loss": 4.3996,
+      "num_input_tokens_seen": 555778274,
+      "step": 95100
+    },
+    {
+      "epoch": 1.049650392034779,
+      "grad_norm": 1.884190320968628,
+      "learning_rate": 0.00010403926120751724,
+      "loss": 4.3899,
+      "num_input_tokens_seen": 556658210,
+      "step": 95250
+    },
+    {
+      "epoch": 1.0513033847781408,
+      "grad_norm": 1.8368123769760132,
+      "learning_rate": 0.00010395109981339172,
+      "loss": 4.3989,
+      "num_input_tokens_seen": 557549442,
+      "step": 95400
+    },
+    {
+      "epoch": 1.0529563775215027,
+      "grad_norm": 1.7985849380493164,
+      "learning_rate": 0.00010386293841926622,
+      "loss": 4.3868,
+      "num_input_tokens_seen": 558417634,
+      "step": 95550
+    },
+    {
+      "epoch": 1.0546093702648645,
+      "grad_norm": 1.8913172483444214,
+      "learning_rate": 0.0001037747770251407,
+      "loss": 4.4031,
+      "num_input_tokens_seen": 559314882,
+      "step": 95700
+    },
+    {
+      "epoch": 1.0562623630082264,
+      "grad_norm": 1.9179192781448364,
+      "learning_rate": 0.0001036866156310152,
+      "loss": 4.3812,
+      "num_input_tokens_seen": 560207298,
+      "step": 95850
+    },
+    {
+      "epoch": 1.0579153557515883,
+      "grad_norm": 1.8890949487686157,
+      "learning_rate": 0.00010359845423688967,
+      "loss": 4.3916,
+      "num_input_tokens_seen": 561097570,
+      "step": 96000
+    },
+    {
+      "epoch": 1.05956834849495,
+      "grad_norm": 1.7995752096176147,
+      "learning_rate": 0.00010351088058539166,
+      "loss": 4.3933,
+      "num_input_tokens_seen": 561973218,
+      "step": 96150
+    },
+    {
+      "epoch": 1.061221341238312,
+      "grad_norm": 1.928031086921692,
+      "learning_rate": 0.00010342330693389365,
+      "loss": 4.3914,
+      "num_input_tokens_seen": 562851074,
+      "step": 96300
+    },
+    {
+      "epoch": 1.0628743339816737,
+      "grad_norm": 1.94650137424469,
+      "learning_rate": 0.00010333514553976814,
+      "loss": 4.3766,
+      "num_input_tokens_seen": 563725506,
+      "step": 96450
+    },
+    {
+      "epoch": 1.0645273267250357,
+      "grad_norm": 1.8535209894180298,
+      "learning_rate": 0.00010324698414564263,
+      "loss": 4.3916,
+      "num_input_tokens_seen": 564576034,
+      "step": 96600
+    },
+    {
+      "epoch": 1.0661803194683976,
+      "grad_norm": 1.9456048011779785,
+      "learning_rate": 0.00010315882275151712,
+      "loss": 4.3975,
+      "num_input_tokens_seen": 565446626,
+      "step": 96750
+    },
+    {
+      "epoch": 1.0678333122117594,
+      "grad_norm": 1.8319114446640015,
+      "learning_rate": 0.0001030706613573916,
+      "loss": 4.3977,
+      "num_input_tokens_seen": 566321378,
+      "step": 96900
+    },
+    {
+      "epoch": 1.0694863049551213,
+      "grad_norm": 2.1267592906951904,
+      "learning_rate": 0.0001029824999632661,
+      "loss": 4.3896,
+      "num_input_tokens_seen": 567203778,
+      "step": 97050
+    },
+    {
+      "epoch": 1.071139297698483,
+      "grad_norm": 1.8523855209350586,
+      "learning_rate": 0.00010289433856914057,
+      "loss": 4.3868,
+      "num_input_tokens_seen": 568083906,
+      "step": 97200
+    },
+    {
+      "epoch": 1.072792290441845,
+      "grad_norm": 1.882645606994629,
+      "learning_rate": 0.00010280617717501507,
+      "loss": 4.3976,
+      "num_input_tokens_seen": 568970690,
+      "step": 97350
+    },
+    {
+      "epoch": 1.0744452831852067,
+      "grad_norm": 1.9347394704818726,
+      "learning_rate": 0.00010271801578088955,
+      "loss": 4.3905,
+      "num_input_tokens_seen": 569844482,
+      "step": 97500
+    },
+    {
+      "epoch": 1.0760982759285687,
+      "grad_norm": 1.855491280555725,
+      "learning_rate": 0.00010262985438676405,
+      "loss": 4.3886,
+      "num_input_tokens_seen": 570717602,
+      "step": 97650
+    },
+    {
+      "epoch": 1.0777512686719306,
+      "grad_norm": 1.8031153678894043,
+      "learning_rate": 0.00010254169299263853,
+      "loss": 4.3807,
+      "num_input_tokens_seen": 571591586,
+      "step": 97800
+    },
+    {
+      "epoch": 1.0794042614152923,
+      "grad_norm": 1.9792248010635376,
+      "learning_rate": 0.00010245353159851303,
+      "loss": 4.389,
+      "num_input_tokens_seen": 572476162,
+      "step": 97950
+    },
+    {
+      "epoch": 1.0810572541586543,
+      "grad_norm": 1.9110472202301025,
+      "learning_rate": 0.0001023653702043875,
+      "loss": 4.3889,
+      "num_input_tokens_seen": 573353346,
+      "step": 98100
+    },
+    {
+      "epoch": 1.082710246902016,
+      "grad_norm": 1.9655945301055908,
+      "learning_rate": 0.000102277208810262,
+      "loss": 4.3808,
+      "num_input_tokens_seen": 574237986,
+      "step": 98250
+    },
+    {
+      "epoch": 1.084363239645378,
+      "grad_norm": 1.806372880935669,
+      "learning_rate": 0.00010218904741613648,
+      "loss": 4.389,
+      "num_input_tokens_seen": 575113346,
+      "step": 98400
+    },
+    {
+      "epoch": 1.08601623238874,
+      "grad_norm": 1.9266657829284668,
+      "learning_rate": 0.00010210147376463847,
+      "loss": 4.3957,
+      "num_input_tokens_seen": 576010818,
+      "step": 98550
+    },
+    {
+      "epoch": 1.0876692251321016,
+      "grad_norm": 1.8409209251403809,
+      "learning_rate": 0.00010201331237051296,
+      "loss": 4.3949,
+      "num_input_tokens_seen": 576872610,
+      "step": 98700
+    },
+    {
+      "epoch": 1.0893222178754636,
+      "grad_norm": 1.7804383039474487,
+      "learning_rate": 0.00010192515097638745,
+      "loss": 4.3835,
+      "num_input_tokens_seen": 577737090,
+      "step": 98850
+    },
+    {
+      "epoch": 1.0909752106188253,
+      "grad_norm": 1.8269861936569214,
+      "learning_rate": 0.00010183698958226194,
+      "loss": 4.3967,
+      "num_input_tokens_seen": 578610178,
+      "step": 99000
+    },
+    {
+      "epoch": 1.0926282033621872,
+      "grad_norm": 1.9065062999725342,
+      "learning_rate": 0.00010174882818813641,
+      "loss": 4.395,
+      "num_input_tokens_seen": 579483074,
+      "step": 99150
+    },
+    {
+      "epoch": 1.0942811961055492,
+      "grad_norm": 1.8511546850204468,
+      "learning_rate": 0.00010166066679401092,
+      "loss": 4.3847,
+      "num_input_tokens_seen": 580339138,
+      "step": 99300
+    },
+    {
+      "epoch": 1.095934188848911,
+      "grad_norm": 1.9003854990005493,
+      "learning_rate": 0.00010157250539988539,
+      "loss": 4.3878,
+      "num_input_tokens_seen": 581214146,
+      "step": 99450
     }
   ],
   "logging_steps": 150,
   "max_steps": 272232,
+  "num_input_tokens_seen": 581503010,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 8978778636326400.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null