End of training

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +16 -0
eval_results.json +10 -0
train_results.json +10 -0
trainer_state.json +1345 -0

README.md CHANGED Viewed

@@ -18,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [EleutherAI/pythia-410m](https://huggingface.co/EleutherAI/pythia-410m) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.6227
-- Accuracy: 0.2170
-- Num Input Tokens Seen: 5734400
 ## Model description

 This model is a fine-tuned version of [EleutherAI/pythia-410m](https://huggingface.co/EleutherAI/pythia-410m) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6151
+- Accuracy: 0.2123
+- Num Input Tokens Seen: 5873664
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.21226415094339623,
+    "eval_loss": 1.615054726600647,
+    "eval_runtime": 1.7054,
+    "eval_samples": 212,
+    "eval_samples_per_second": 124.312,
+    "eval_steps_per_second": 15.832,
+    "num_input_tokens_seen": 5873664,
+    "total_flos": 1.0654234806583296e+16,
+    "train_loss": 1.7262512909318612,
+    "train_runtime": 402.0358,
+    "train_samples": 1905,
+    "train_samples_per_second": 14.215,
+    "train_steps_per_second": 1.783
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.21226415094339623,
+    "eval_loss": 1.615054726600647,
+    "eval_runtime": 1.7054,
+    "eval_samples": 212,
+    "eval_samples_per_second": 124.312,
+    "eval_steps_per_second": 15.832,
+    "num_input_tokens_seen": 5873664
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 3.0,
+    "num_input_tokens_seen": 5873664,
+    "total_flos": 1.0654234806583296e+16,
+    "train_loss": 1.7262512909318612,
+    "train_runtime": 402.0358,
+    "train_samples": 1905,
+    "train_samples_per_second": 14.215,
+    "train_steps_per_second": 1.783
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1345 @@

+{
+  "best_metric": 1.615054726600647,
+  "best_model_checkpoint": "/data/user_data/gonilude/oop_and_text_pythia_410m/checkpoint-500",
+  "epoch": 3.0,
+  "eval_steps": 50,
+  "global_step": 717,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.20754716981132076,
+      "eval_loss": 3.0230751037597656,
+      "eval_runtime": 1.9283,
+      "eval_samples_per_second": 109.944,
+      "eval_steps_per_second": 14.002,
+      "num_input_tokens_seen": 0,
+      "step": 0
+    },
+    {
+      "epoch": 0.0041841004184100415,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 2.7406,
+      "num_input_tokens_seen": 8192,
+      "step": 1
+    },
+    {
+      "epoch": 0.02092050209205021,
+      "grad_norm": 246.1937255859375,
+      "learning_rate": 9.090909090909091e-07,
+      "loss": 2.8031,
+      "num_input_tokens_seen": 40960,
+      "step": 5
+    },
+    {
+      "epoch": 0.04184100418410042,
+      "grad_norm": Infinity,
+      "learning_rate": 3.6363636363636366e-06,
+      "loss": 3.2837,
+      "num_input_tokens_seen": 81920,
+      "step": 10
+    },
+    {
+      "epoch": 0.06276150627615062,
+      "grad_norm": 205.18572998046875,
+      "learning_rate": 8.181818181818183e-06,
+      "loss": 2.9171,
+      "num_input_tokens_seen": 122880,
+      "step": 15
+    },
+    {
+      "epoch": 0.08368200836820083,
+      "grad_norm": 221.2069549560547,
+      "learning_rate": 1.2727272727272728e-05,
+      "loss": 2.6217,
+      "num_input_tokens_seen": 163840,
+      "step": 20
+    },
+    {
+      "epoch": 0.10460251046025104,
+      "grad_norm": 126.98030090332031,
+      "learning_rate": 1.7272727272727274e-05,
+      "loss": 2.2064,
+      "num_input_tokens_seen": 204800,
+      "step": 25
+    },
+    {
+      "epoch": 0.12552301255230125,
+      "grad_norm": 69.57221984863281,
+      "learning_rate": 1.9999591344664163e-05,
+      "loss": 2.1854,
+      "num_input_tokens_seen": 245760,
+      "step": 30
+    },
+    {
+      "epoch": 0.14644351464435146,
+      "grad_norm": 40.90021896362305,
+      "learning_rate": 1.999499435570359e-05,
+      "loss": 1.8907,
+      "num_input_tokens_seen": 286720,
+      "step": 35
+    },
+    {
+      "epoch": 0.16736401673640167,
+      "grad_norm": 40.66322326660156,
+      "learning_rate": 1.998529191458689e-05,
+      "loss": 2.0112,
+      "num_input_tokens_seen": 327680,
+      "step": 40
+    },
+    {
+      "epoch": 0.18828451882845187,
+      "grad_norm": 53.441314697265625,
+      "learning_rate": 1.9970488977329757e-05,
+      "loss": 2.1832,
+      "num_input_tokens_seen": 368640,
+      "step": 45
+    },
+    {
+      "epoch": 0.20920502092050208,
+      "grad_norm": 42.00421142578125,
+      "learning_rate": 1.9950593105285927e-05,
+      "loss": 1.8656,
+      "num_input_tokens_seen": 409600,
+      "step": 50
+    },
+    {
+      "epoch": 0.20920502092050208,
+      "eval_accuracy": 0.2358490566037736,
+      "eval_loss": 2.0404305458068848,
+      "eval_runtime": 1.7411,
+      "eval_samples_per_second": 121.76,
+      "eval_steps_per_second": 15.507,
+      "num_input_tokens_seen": 409600,
+      "step": 50
+    },
+    {
+      "epoch": 0.2301255230125523,
+      "grad_norm": 13.718694686889648,
+      "learning_rate": 1.992561446128484e-05,
+      "loss": 1.9829,
+      "num_input_tokens_seen": 450560,
+      "step": 55
+    },
+    {
+      "epoch": 0.2510460251046025,
+      "grad_norm": 53.16058349609375,
+      "learning_rate": 1.9895565804440435e-05,
+      "loss": 1.8415,
+      "num_input_tokens_seen": 491520,
+      "step": 60
+    },
+    {
+      "epoch": 0.2719665271966527,
+      "grad_norm": 39.195396423339844,
+      "learning_rate": 1.986046248363381e-05,
+      "loss": 2.4103,
+      "num_input_tokens_seen": 532480,
+      "step": 65
+    },
+    {
+      "epoch": 0.2928870292887029,
+      "grad_norm": 30.37375259399414,
+      "learning_rate": 1.9820322429672978e-05,
+      "loss": 2.0039,
+      "num_input_tokens_seen": 573440,
+      "step": 70
+    },
+    {
+      "epoch": 0.3138075313807531,
+      "grad_norm": 34.187950134277344,
+      "learning_rate": 1.97751661461338e-05,
+      "loss": 1.901,
+      "num_input_tokens_seen": 614400,
+      "step": 75
+    },
+    {
+      "epoch": 0.33472803347280333,
+      "grad_norm": 26.08450698852539,
+      "learning_rate": 1.9725016698886748e-05,
+      "loss": 1.7461,
+      "num_input_tokens_seen": 655360,
+      "step": 80
+    },
+    {
+      "epoch": 0.35564853556485354,
+      "grad_norm": 22.850889205932617,
+      "learning_rate": 1.9669899704314828e-05,
+      "loss": 1.8595,
+      "num_input_tokens_seen": 696320,
+      "step": 85
+    },
+    {
+      "epoch": 0.37656903765690375,
+      "grad_norm": 30.59270668029785,
+      "learning_rate": 1.960984331622872e-05,
+      "loss": 1.9209,
+      "num_input_tokens_seen": 737280,
+      "step": 90
+    },
+    {
+      "epoch": 0.39748953974895396,
+      "grad_norm": 38.62232971191406,
+      "learning_rate": 1.9544878211485763e-05,
+      "loss": 1.7399,
+      "num_input_tokens_seen": 778240,
+      "step": 95
+    },
+    {
+      "epoch": 0.41841004184100417,
+      "grad_norm": 11.531844139099121,
+      "learning_rate": 1.9475037574320217e-05,
+      "loss": 1.8788,
+      "num_input_tokens_seen": 819200,
+      "step": 100
+    },
+    {
+      "epoch": 0.41841004184100417,
+      "eval_accuracy": 0.2169811320754717,
+      "eval_loss": 1.8193060159683228,
+      "eval_runtime": 1.7516,
+      "eval_samples_per_second": 121.029,
+      "eval_steps_per_second": 15.414,
+      "num_input_tokens_seen": 819200,
+      "step": 100
+    },
+    {
+      "epoch": 0.4393305439330544,
+      "grad_norm": 20.226055145263672,
+      "learning_rate": 1.9400357079392714e-05,
+      "loss": 1.8651,
+      "num_input_tokens_seen": 860160,
+      "step": 105
+    },
+    {
+      "epoch": 0.4602510460251046,
+      "grad_norm": 19.466136932373047,
+      "learning_rate": 1.9320874873567598e-05,
+      "loss": 1.8928,
+      "num_input_tokens_seen": 901120,
+      "step": 110
+    },
+    {
+      "epoch": 0.4811715481171548,
+      "grad_norm": 9.3947114944458,
+      "learning_rate": 1.923663155642748e-05,
+      "loss": 1.6679,
+      "num_input_tokens_seen": 942080,
+      "step": 115
+    },
+    {
+      "epoch": 0.502092050209205,
+      "grad_norm": 24.72301483154297,
+      "learning_rate": 1.9147670159534953e-05,
+      "loss": 1.9847,
+      "num_input_tokens_seen": 983040,
+      "step": 120
+    },
+    {
+      "epoch": 0.5230125523012552,
+      "grad_norm": 30.969099044799805,
+      "learning_rate": 1.9054036124452e-05,
+      "loss": 1.683,
+      "num_input_tokens_seen": 1024000,
+      "step": 125
+    },
+    {
+      "epoch": 0.5439330543933054,
+      "grad_norm": 16.989919662475586,
+      "learning_rate": 1.8955777279528414e-05,
+      "loss": 1.9693,
+      "num_input_tokens_seen": 1064960,
+      "step": 130
+    },
+    {
+      "epoch": 0.5648535564853556,
+      "grad_norm": 31.935850143432617,
+      "learning_rate": 1.8852943815471058e-05,
+      "loss": 1.7894,
+      "num_input_tokens_seen": 1105920,
+      "step": 135
+    },
+    {
+      "epoch": 0.5857740585774058,
+      "grad_norm": 21.976633071899414,
+      "learning_rate": 1.8745588259706366e-05,
+      "loss": 1.7507,
+      "num_input_tokens_seen": 1146880,
+      "step": 140
+    },
+    {
+      "epoch": 0.606694560669456,
+      "grad_norm": 24.684856414794922,
+      "learning_rate": 1.863376544954931e-05,
+      "loss": 1.768,
+      "num_input_tokens_seen": 1187840,
+      "step": 145
+    },
+    {
+      "epoch": 0.6276150627615062,
+      "grad_norm": 34.6214599609375,
+      "learning_rate": 1.8517532504192456e-05,
+      "loss": 1.7635,
+      "num_input_tokens_seen": 1228800,
+      "step": 150
+    },
+    {
+      "epoch": 0.6276150627615062,
+      "eval_accuracy": 0.18867924528301888,
+      "eval_loss": 1.6324992179870605,
+      "eval_runtime": 1.7594,
+      "eval_samples_per_second": 120.495,
+      "eval_steps_per_second": 15.346,
+      "num_input_tokens_seen": 1228800,
+      "step": 150
+    },
+    {
+      "epoch": 0.6485355648535565,
+      "grad_norm": 33.269325256347656,
+      "learning_rate": 1.8396948795529405e-05,
+      "loss": 1.6621,
+      "num_input_tokens_seen": 1269760,
+      "step": 155
+    },
+    {
+      "epoch": 0.6694560669456067,
+      "grad_norm": 18.24401092529297,
+      "learning_rate": 1.8272075917827597e-05,
+      "loss": 1.7442,
+      "num_input_tokens_seen": 1310720,
+      "step": 160
+    },
+    {
+      "epoch": 0.6903765690376569,
+      "grad_norm": 22.88331413269043,
+      "learning_rate": 1.814297765626589e-05,
+      "loss": 1.8839,
+      "num_input_tokens_seen": 1351680,
+      "step": 165
+    },
+    {
+      "epoch": 0.7112970711297071,
+      "grad_norm": 42.35792922973633,
+      "learning_rate": 1.800971995435305e-05,
+      "loss": 1.8275,
+      "num_input_tokens_seen": 1392640,
+      "step": 170
+    },
+    {
+      "epoch": 0.7322175732217573,
+      "grad_norm": 16.296783447265625,
+      "learning_rate": 1.787237088024372e-05,
+      "loss": 1.6375,
+      "num_input_tokens_seen": 1433600,
+      "step": 175
+    },
+    {
+      "epoch": 0.7531380753138075,
+      "grad_norm": 32.96072769165039,
+      "learning_rate": 1.7731000591969182e-05,
+      "loss": 1.771,
+      "num_input_tokens_seen": 1474560,
+      "step": 180
+    },
+    {
+      "epoch": 0.7740585774058577,
+      "grad_norm": 25.586259841918945,
+      "learning_rate": 1.758568130160053e-05,
+      "loss": 1.7087,
+      "num_input_tokens_seen": 1515520,
+      "step": 185
+    },
+    {
+      "epoch": 0.7949790794979079,
+      "grad_norm": 14.068694114685059,
+      "learning_rate": 1.743648723836271e-05,
+      "loss": 1.5889,
+      "num_input_tokens_seen": 1556480,
+      "step": 190
+    },
+    {
+      "epoch": 0.8158995815899581,
+      "grad_norm": 18.822080612182617,
+      "learning_rate": 1.7283494610718153e-05,
+      "loss": 1.7154,
+      "num_input_tokens_seen": 1597440,
+      "step": 195
+    },
+    {
+      "epoch": 0.8368200836820083,
+      "grad_norm": 8.740741729736328,
+      "learning_rate": 1.7126781567439418e-05,
+      "loss": 1.6773,
+      "num_input_tokens_seen": 1638400,
+      "step": 200
+    },
+    {
+      "epoch": 0.8368200836820083,
+      "eval_accuracy": 0.18867924528301888,
+      "eval_loss": 1.6925463676452637,
+      "eval_runtime": 1.7108,
+      "eval_samples_per_second": 123.919,
+      "eval_steps_per_second": 15.782,
+      "num_input_tokens_seen": 1638400,
+      "step": 200
+    },
+    {
+      "epoch": 0.8577405857740585,
+      "grad_norm": 13.948569297790527,
+      "learning_rate": 1.696642815769075e-05,
+      "loss": 1.6262,
+      "num_input_tokens_seen": 1679360,
+      "step": 205
+    },
+    {
+      "epoch": 0.8786610878661087,
+      "grad_norm": 28.07710075378418,
+      "learning_rate": 1.680251629013885e-05,
+      "loss": 1.8119,
+      "num_input_tokens_seen": 1720320,
+      "step": 210
+    },
+    {
+      "epoch": 0.899581589958159,
+      "grad_norm": 26.009183883666992,
+      "learning_rate": 1.663512969111392e-05,
+      "loss": 1.723,
+      "num_input_tokens_seen": 1761280,
+      "step": 215
+    },
+    {
+      "epoch": 0.9205020920502092,
+      "grad_norm": 30.979652404785156,
+      "learning_rate": 1.6464353861842115e-05,
+      "loss": 1.7091,
+      "num_input_tokens_seen": 1802240,
+      "step": 220
+    },
+    {
+      "epoch": 0.9414225941422594,
+      "grad_norm": 29.44756317138672,
+      "learning_rate": 1.629027603477147e-05,
+      "loss": 1.6767,
+      "num_input_tokens_seen": 1843200,
+      "step": 225
+    },
+    {
+      "epoch": 0.9623430962343096,
+      "grad_norm": 27.677940368652344,
+      "learning_rate": 1.611298512901349e-05,
+      "loss": 1.7475,
+      "num_input_tokens_seen": 1884160,
+      "step": 230
+    },
+    {
+      "epoch": 0.9832635983263598,
+      "grad_norm": 23.408004760742188,
+      "learning_rate": 1.5932571704923168e-05,
+      "loss": 1.6768,
+      "num_input_tokens_seen": 1925120,
+      "step": 235
+    },
+    {
+      "epoch": 1.00418410041841,
+      "grad_norm": 36.993404388427734,
+      "learning_rate": 1.57491279178407e-05,
+      "loss": 1.6803,
+      "num_input_tokens_seen": 1966080,
+      "step": 240
+    },
+    {
+      "epoch": 1.0251046025104602,
+      "grad_norm": 40.108795166015625,
+      "learning_rate": 1.5562747471018415e-05,
+      "loss": 1.7311,
+      "num_input_tokens_seen": 2007040,
+      "step": 245
+    },
+    {
+      "epoch": 1.0460251046025104,
+      "grad_norm": 25.31317901611328,
+      "learning_rate": 1.5373525567757124e-05,
+      "loss": 1.6309,
+      "num_input_tokens_seen": 2048000,
+      "step": 250
+    },
+    {
+      "epoch": 1.0460251046025104,
+      "eval_accuracy": 0.19339622641509435,
+      "eval_loss": 1.6848835945129395,
+      "eval_runtime": 1.763,
+      "eval_samples_per_second": 120.249,
+      "eval_steps_per_second": 15.315,
+      "num_input_tokens_seen": 2048000,
+      "step": 250
+    },
+    {
+      "epoch": 1.0669456066945606,
+      "grad_norm": 31.694902420043945,
+      "learning_rate": 1.518155886277613e-05,
+      "loss": 1.655,
+      "num_input_tokens_seen": 2088960,
+      "step": 255
+    },
+    {
+      "epoch": 1.0878661087866108,
+      "grad_norm": 24.42173194885254,
+      "learning_rate": 1.498694541284195e-05,
+      "loss": 1.7565,
+      "num_input_tokens_seen": 2129920,
+      "step": 260
+    },
+    {
+      "epoch": 1.108786610878661,
+      "grad_norm": 30.931346893310547,
+      "learning_rate": 1.4789784626680819e-05,
+      "loss": 1.6379,
+      "num_input_tokens_seen": 2170880,
+      "step": 265
+    },
+    {
+      "epoch": 1.1297071129707112,
+      "grad_norm": 29.633745193481445,
+      "learning_rate": 1.4590177214200609e-05,
+      "loss": 1.6454,
+      "num_input_tokens_seen": 2211840,
+      "step": 270
+    },
+    {
+      "epoch": 1.1506276150627615,
+      "grad_norm": 9.598276138305664,
+      "learning_rate": 1.4388225135048137e-05,
+      "loss": 1.7242,
+      "num_input_tokens_seen": 2252800,
+      "step": 275
+    },
+    {
+      "epoch": 1.1715481171548117,
+      "grad_norm": 16.58527374267578,
+      "learning_rate": 1.4184031546528077e-05,
+      "loss": 1.646,
+      "num_input_tokens_seen": 2293760,
+      "step": 280
+    },
+    {
+      "epoch": 1.1924686192468619,
+      "grad_norm": 37.41482162475586,
+      "learning_rate": 1.3977700750910112e-05,
+      "loss": 1.7451,
+      "num_input_tokens_seen": 2334720,
+      "step": 285
+    },
+    {
+      "epoch": 1.213389121338912,
+      "grad_norm": 21.555646896362305,
+      "learning_rate": 1.3769338142151245e-05,
+      "loss": 1.7345,
+      "num_input_tokens_seen": 2375680,
+      "step": 290
+    },
+    {
+      "epoch": 1.2343096234309623,
+      "grad_norm": 31.439435958862305,
+      "learning_rate": 1.3559050152060465e-05,
+      "loss": 1.6293,
+      "num_input_tokens_seen": 2416640,
+      "step": 295
+    },
+    {
+      "epoch": 1.2552301255230125,
+      "grad_norm": 19.446046829223633,
+      "learning_rate": 1.3346944195933294e-05,
+      "loss": 1.5824,
+      "num_input_tokens_seen": 2457600,
+      "step": 300
+    },
+    {
+      "epoch": 1.2552301255230125,
+      "eval_accuracy": 0.18396226415094338,
+      "eval_loss": 1.8486742973327637,
+      "eval_runtime": 1.7646,
+      "eval_samples_per_second": 120.141,
+      "eval_steps_per_second": 15.301,
+      "num_input_tokens_seen": 2457600,
+      "step": 300
+    },
+    {
+      "epoch": 1.2761506276150627,
+      "grad_norm": 24.764543533325195,
+      "learning_rate": 1.313312861768394e-05,
+      "loss": 1.8709,
+      "num_input_tokens_seen": 2498560,
+      "step": 305
+    },
+    {
+      "epoch": 1.297071129707113,
+      "grad_norm": 27.600025177001953,
+      "learning_rate": 1.2917712634503148e-05,
+      "loss": 1.6984,
+      "num_input_tokens_seen": 2539520,
+      "step": 310
+    },
+    {
+      "epoch": 1.3179916317991631,
+      "grad_norm": 19.41140365600586,
+      "learning_rate": 1.2700806281069942e-05,
+      "loss": 1.6789,
+      "num_input_tokens_seen": 2580480,
+      "step": 315
+    },
+    {
+      "epoch": 1.3389121338912133,
+      "grad_norm": 15.373785018920898,
+      "learning_rate": 1.2482520353345819e-05,
+      "loss": 1.6207,
+      "num_input_tokens_seen": 2621440,
+      "step": 320
+    },
+    {
+      "epoch": 1.3598326359832635,
+      "grad_norm": 33.88786315917969,
+      "learning_rate": 1.2262966351980075e-05,
+      "loss": 1.6183,
+      "num_input_tokens_seen": 2662400,
+      "step": 325
+    },
+    {
+      "epoch": 1.3807531380753137,
+      "grad_norm": 28.47850799560547,
+      "learning_rate": 1.2042256425355165e-05,
+      "loss": 1.6355,
+      "num_input_tokens_seen": 2703360,
+      "step": 330
+    },
+    {
+      "epoch": 1.401673640167364,
+      "grad_norm": 23.044967651367188,
+      "learning_rate": 1.1820503312301218e-05,
+      "loss": 1.6644,
+      "num_input_tokens_seen": 2744320,
+      "step": 335
+    },
+    {
+      "epoch": 1.4225941422594142,
+      "grad_norm": 23.657499313354492,
+      "learning_rate": 1.1597820284508927e-05,
+      "loss": 1.6313,
+      "num_input_tokens_seen": 2785280,
+      "step": 340
+    },
+    {
+      "epoch": 1.4435146443514644,
+      "grad_norm": 40.53915023803711,
+      "learning_rate": 1.1374321088670277e-05,
+      "loss": 1.6638,
+      "num_input_tokens_seen": 2826240,
+      "step": 345
+    },
+    {
+      "epoch": 1.4644351464435146,
+      "grad_norm": 29.33917808532715,
+      "learning_rate": 1.1150119888376631e-05,
+      "loss": 1.8204,
+      "num_input_tokens_seen": 2867200,
+      "step": 350
+    },
+    {
+      "epoch": 1.4644351464435146,
+      "eval_accuracy": 0.18867924528301888,
+      "eval_loss": 1.6929585933685303,
+      "eval_runtime": 1.7722,
+      "eval_samples_per_second": 119.624,
+      "eval_steps_per_second": 15.235,
+      "num_input_tokens_seen": 2867200,
+      "step": 350
+    },
+    {
+      "epoch": 1.4853556485355648,
+      "grad_norm": 13.35934829711914,
+      "learning_rate": 1.0925331205803861e-05,
+      "loss": 1.7131,
+      "num_input_tokens_seen": 2908160,
+      "step": 355
+    },
+    {
+      "epoch": 1.506276150627615,
+      "grad_norm": 31.252412796020508,
+      "learning_rate": 1.0700069863214317e-05,
+      "loss": 1.591,
+      "num_input_tokens_seen": 2949120,
+      "step": 360
+    },
+    {
+      "epoch": 1.5271966527196654,
+      "grad_norm": 31.35171890258789,
+      "learning_rate": 1.047445092430552e-05,
+      "loss": 1.8913,
+      "num_input_tokens_seen": 2990080,
+      "step": 365
+    },
+    {
+      "epoch": 1.5481171548117154,
+      "grad_norm": 29.04215431213379,
+      "learning_rate": 1.0248589635435505e-05,
+      "loss": 1.6869,
+      "num_input_tokens_seen": 3031040,
+      "step": 370
+    },
+    {
+      "epoch": 1.5690376569037658,
+      "grad_norm": 26.4223575592041,
+      "learning_rate": 1.0022601366754889e-05,
+      "loss": 1.6154,
+      "num_input_tokens_seen": 3072000,
+      "step": 375
+    },
+    {
+      "epoch": 1.5899581589958158,
+      "grad_norm": 19.447614669799805,
+      "learning_rate": 9.796601553275697e-06,
+      "loss": 1.6481,
+      "num_input_tokens_seen": 3112960,
+      "step": 380
+    },
+    {
+      "epoch": 1.6108786610878663,
+      "grad_norm": 17.78988265991211,
+      "learning_rate": 9.570705635907038e-06,
+      "loss": 1.7014,
+      "num_input_tokens_seen": 3153920,
+      "step": 385
+    },
+    {
+      "epoch": 1.6317991631799162,
+      "grad_norm": 16.625778198242188,
+      "learning_rate": 9.3450290024878e-06,
+      "loss": 1.6126,
+      "num_input_tokens_seen": 3194880,
+      "step": 390
+    },
+    {
+      "epoch": 1.6527196652719667,
+      "grad_norm": 8.680732727050781,
+      "learning_rate": 9.119686928846437e-06,
+      "loss": 1.5989,
+      "num_input_tokens_seen": 3235840,
+      "step": 395
+    },
+    {
+      "epoch": 1.6736401673640167,
+      "grad_norm": 27.154508590698242,
+      "learning_rate": 8.894794519917947e-06,
+      "loss": 1.6639,
+      "num_input_tokens_seen": 3276800,
+      "step": 400
+    },
+    {
+      "epoch": 1.6736401673640167,
+      "eval_accuracy": 0.21226415094339623,
+      "eval_loss": 1.6967244148254395,
+      "eval_runtime": 1.7729,
+      "eval_samples_per_second": 119.581,
+      "eval_steps_per_second": 15.23,
+      "num_input_tokens_seen": 3276800,
+      "step": 400
+    },
+    {
+      "epoch": 1.694560669456067,
+      "grad_norm": 19.39278793334961,
+      "learning_rate": 8.670466650948208e-06,
+      "loss": 1.6022,
+      "num_input_tokens_seen": 3317760,
+      "step": 405
+    },
+    {
+      "epoch": 1.715481171548117,
+      "grad_norm": 24.7038516998291,
+      "learning_rate": 8.446817908815566e-06,
+      "loss": 1.6768,
+      "num_input_tokens_seen": 3358720,
+      "step": 410
+    },
+    {
+      "epoch": 1.7364016736401675,
+      "grad_norm": 28.1064395904541,
+      "learning_rate": 8.223962533499757e-06,
+      "loss": 1.666,
+      "num_input_tokens_seen": 3399680,
+      "step": 415
+    },
+    {
+      "epoch": 1.7573221757322175,
+      "grad_norm": 22.78620147705078,
+      "learning_rate": 8.002014359728046e-06,
+      "loss": 1.6043,
+      "num_input_tokens_seen": 3440640,
+      "step": 420
+    },
+    {
+      "epoch": 1.778242677824268,
+      "grad_norm": 20.595088958740234,
+      "learning_rate": 7.781086758828314e-06,
+      "loss": 1.589,
+      "num_input_tokens_seen": 3481600,
+      "step": 425
+    },
+    {
+      "epoch": 1.799163179916318,
+      "grad_norm": 27.415950775146484,
+      "learning_rate": 7.561292580818906e-06,
+      "loss": 1.746,
+      "num_input_tokens_seen": 3522560,
+      "step": 430
+    },
+    {
+      "epoch": 1.8200836820083683,
+      "grad_norm": 18.025171279907227,
+      "learning_rate": 7.342744096764727e-06,
+      "loss": 1.5013,
+      "num_input_tokens_seen": 3563520,
+      "step": 435
+    },
+    {
+      "epoch": 1.8410041841004183,
+      "grad_norm": 30.85523223876953,
+      "learning_rate": 7.125552941429077e-06,
+      "loss": 1.9142,
+      "num_input_tokens_seen": 3604480,
+      "step": 440
+    },
+    {
+      "epoch": 1.8619246861924688,
+      "grad_norm": 24.6289005279541,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 1.7215,
+      "num_input_tokens_seen": 3645440,
+      "step": 445
+    },
+    {
+      "epoch": 1.8828451882845187,
+      "grad_norm": 19.287546157836914,
+      "learning_rate": 6.695685632673919e-06,
+      "loss": 1.5446,
+      "num_input_tokens_seen": 3686400,
+      "step": 450
+    },
+    {
+      "epoch": 1.8828451882845187,
+      "eval_accuracy": 0.22169811320754718,
+      "eval_loss": 1.656185507774353,
+      "eval_runtime": 1.7255,
+      "eval_samples_per_second": 122.861,
+      "eval_steps_per_second": 15.647,
+      "num_input_tokens_seen": 3686400,
+      "step": 450
+    },
+    {
+      "epoch": 1.9037656903765692,
+      "grad_norm": 10.62146282196045,
+      "learning_rate": 6.48322905586449e-06,
+      "loss": 1.6482,
+      "num_input_tokens_seen": 3727360,
+      "step": 455
+    },
+    {
+      "epoch": 1.9246861924686192,
+      "grad_norm": 31.397525787353516,
+      "learning_rate": 6.272568848833809e-06,
+      "loss": 1.6448,
+      "num_input_tokens_seen": 3768320,
+      "step": 460
+    },
+    {
+      "epoch": 1.9456066945606696,
+      "grad_norm": 22.08171844482422,
+      "learning_rate": 6.06381261700614e-06,
+      "loss": 1.6913,
+      "num_input_tokens_seen": 3809280,
+      "step": 465
+    },
+    {
+      "epoch": 1.9665271966527196,
+      "grad_norm": 9.43496322631836,
+      "learning_rate": 5.857066993253501e-06,
+      "loss": 1.5766,
+      "num_input_tokens_seen": 3850240,
+      "step": 470
+    },
+    {
+      "epoch": 1.98744769874477,
+      "grad_norm": 31.67534065246582,
+      "learning_rate": 5.652437583427478e-06,
+      "loss": 1.7616,
+      "num_input_tokens_seen": 3891200,
+      "step": 475
+    },
+    {
+      "epoch": 2.00836820083682,
+      "grad_norm": 22.396835327148438,
+      "learning_rate": 5.450028912415672e-06,
+      "loss": 1.6519,
+      "num_input_tokens_seen": 3932160,
+      "step": 480
+    },
+    {
+      "epoch": 2.0292887029288704,
+      "grad_norm": 17.868091583251953,
+      "learning_rate": 5.249944370750293e-06,
+      "loss": 1.5843,
+      "num_input_tokens_seen": 3973120,
+      "step": 485
+    },
+    {
+      "epoch": 2.0502092050209204,
+      "grad_norm": 26.96571159362793,
+      "learning_rate": 5.0522861617961694e-06,
+      "loss": 1.5715,
+      "num_input_tokens_seen": 4014080,
+      "step": 490
+    },
+    {
+      "epoch": 2.071129707112971,
+      "grad_norm": 10.547337532043457,
+      "learning_rate": 4.857155249545197e-06,
+      "loss": 1.6168,
+      "num_input_tokens_seen": 4055040,
+      "step": 495
+    },
+    {
+      "epoch": 2.092050209205021,
+      "grad_norm": 33.86396408081055,
+      "learning_rate": 4.66465130704382e-06,
+      "loss": 1.569,
+      "num_input_tokens_seen": 4096000,
+      "step": 500
+    },
+    {
+      "epoch": 2.092050209205021,
+      "eval_accuracy": 0.21226415094339623,
+      "eval_loss": 1.615054726600647,
+      "eval_runtime": 1.7232,
+      "eval_samples_per_second": 123.027,
+      "eval_steps_per_second": 15.669,
+      "num_input_tokens_seen": 4096000,
+      "step": 500
+    },
+    {
+      "epoch": 2.1129707112970713,
+      "grad_norm": 27.13317108154297,
+      "learning_rate": 4.474872665479974e-06,
+      "loss": 1.5502,
+      "num_input_tokens_seen": 4136960,
+      "step": 505
+    },
+    {
+      "epoch": 2.1338912133891212,
+      "grad_norm": 31.335521697998047,
+      "learning_rate": 4.2879162639553925e-06,
+      "loss": 1.6434,
+      "num_input_tokens_seen": 4177920,
+      "step": 510
+    },
+    {
+      "epoch": 2.1548117154811717,
+      "grad_norm": 24.757951736450195,
+      "learning_rate": 4.103877599969056e-06,
+      "loss": 1.6334,
+      "num_input_tokens_seen": 4218880,
+      "step": 515
+    },
+    {
+      "epoch": 2.1757322175732217,
+      "grad_norm": 23.463459014892578,
+      "learning_rate": 3.922850680636968e-06,
+      "loss": 1.6167,
+      "num_input_tokens_seen": 4259840,
+      "step": 520
+    },
+    {
+      "epoch": 2.196652719665272,
+      "grad_norm": 22.036346435546875,
+      "learning_rate": 3.744927974673237e-06,
+      "loss": 1.6218,
+      "num_input_tokens_seen": 4300800,
+      "step": 525
+    },
+    {
+      "epoch": 2.217573221757322,
+      "grad_norm": 26.18072509765625,
+      "learning_rate": 3.5702003651569883e-06,
+      "loss": 1.5746,
+      "num_input_tokens_seen": 4341760,
+      "step": 530
+    },
+    {
+      "epoch": 2.2384937238493725,
+      "grad_norm": 15.42270565032959,
+      "learning_rate": 3.3987571031091735e-06,
+      "loss": 1.5657,
+      "num_input_tokens_seen": 4382720,
+      "step": 535
+    },
+    {
+      "epoch": 2.2594142259414225,
+      "grad_norm": 18.54688262939453,
+      "learning_rate": 3.230685761903094e-06,
+      "loss": 1.5928,
+      "num_input_tokens_seen": 4423680,
+      "step": 540
+    },
+    {
+      "epoch": 2.280334728033473,
+      "grad_norm": 27.211170196533203,
+      "learning_rate": 3.0660721925318483e-06,
+      "loss": 1.5975,
+      "num_input_tokens_seen": 4464640,
+      "step": 545
+    },
+    {
+      "epoch": 2.301255230125523,
+      "grad_norm": 26.673534393310547,
+      "learning_rate": 2.905000479755531e-06,
+      "loss": 1.5797,
+      "num_input_tokens_seen": 4505600,
+      "step": 550
+    },
+    {
+      "epoch": 2.301255230125523,
+      "eval_accuracy": 0.23113207547169812,
+      "eval_loss": 1.6243550777435303,
+      "eval_runtime": 1.7276,
+      "eval_samples_per_second": 122.712,
+      "eval_steps_per_second": 15.628,
+      "num_input_tokens_seen": 4505600,
+      "step": 550
+    },
+    {
+      "epoch": 2.3221757322175733,
+      "grad_norm": 26.736270904541016,
+      "learning_rate": 2.7475528991507106e-06,
+      "loss": 1.6087,
+      "num_input_tokens_seen": 4546560,
+      "step": 555
+    },
+    {
+      "epoch": 2.3430962343096233,
+      "grad_norm": 10.619952201843262,
+      "learning_rate": 2.5938098750839414e-06,
+      "loss": 1.5212,
+      "num_input_tokens_seen": 4587520,
+      "step": 560
+    },
+    {
+      "epoch": 2.3640167364016738,
+      "grad_norm": 30.245092391967773,
+      "learning_rate": 2.443849939630959e-06,
+      "loss": 1.538,
+      "num_input_tokens_seen": 4628480,
+      "step": 565
+    },
+    {
+      "epoch": 2.3849372384937237,
+      "grad_norm": 17.95905113220215,
+      "learning_rate": 2.2977496924624223e-06,
+      "loss": 1.5952,
+      "num_input_tokens_seen": 4669440,
+      "step": 570
+    },
+    {
+      "epoch": 2.405857740585774,
+      "grad_norm": 18.98442840576172,
+      "learning_rate": 2.155583761716703e-06,
+      "loss": 1.6038,
+      "num_input_tokens_seen": 4710400,
+      "step": 575
+    },
+    {
+      "epoch": 2.426778242677824,
+      "grad_norm": 23.98601722717285,
+      "learning_rate": 2.0174247658798054e-06,
+      "loss": 1.6029,
+      "num_input_tokens_seen": 4751360,
+      "step": 580
+    },
+    {
+      "epoch": 2.4476987447698746,
+      "grad_norm": 28.006078720092773,
+      "learning_rate": 1.8833432766917514e-06,
+      "loss": 1.659,
+      "num_input_tokens_seen": 4792320,
+      "step": 585
+    },
+    {
+      "epoch": 2.4686192468619246,
+      "grad_norm": 34.81071090698242,
+      "learning_rate": 1.7534077830984697e-06,
+      "loss": 1.5578,
+      "num_input_tokens_seen": 4833280,
+      "step": 590
+    },
+    {
+      "epoch": 2.489539748953975,
+      "grad_norm": 27.956401824951172,
+      "learning_rate": 1.6276846562676085e-06,
+      "loss": 1.5686,
+      "num_input_tokens_seen": 4874240,
+      "step": 595
+    },
+    {
+      "epoch": 2.510460251046025,
+      "grad_norm": 16.93408203125,
+      "learning_rate": 1.506238115686044e-06,
+      "loss": 1.5543,
+      "num_input_tokens_seen": 4915200,
+      "step": 600
+    },
+    {
+      "epoch": 2.510460251046025,
+      "eval_accuracy": 0.2028301886792453,
+      "eval_loss": 1.6461066007614136,
+      "eval_runtime": 1.7336,
+      "eval_samples_per_second": 122.287,
+      "eval_steps_per_second": 15.574,
+      "num_input_tokens_seen": 4915200,
+      "step": 600
+    },
+    {
+      "epoch": 2.5313807531380754,
+      "grad_norm": 20.968040466308594,
+      "learning_rate": 1.3891301963565473e-06,
+      "loss": 1.6177,
+      "num_input_tokens_seen": 4956160,
+      "step": 605
+    },
+    {
+      "epoch": 2.5523012552301254,
+      "grad_norm": 24.227895736694336,
+      "learning_rate": 1.2764207171102206e-06,
+      "loss": 1.6219,
+      "num_input_tokens_seen": 4997120,
+      "step": 610
+    },
+    {
+      "epoch": 2.573221757322176,
+      "grad_norm": 18.555587768554688,
+      "learning_rate": 1.1681672500509866e-06,
+      "loss": 1.5723,
+      "num_input_tokens_seen": 5038080,
+      "step": 615
+    },
+    {
+      "epoch": 2.594142259414226,
+      "grad_norm": 32.787696838378906,
+      "learning_rate": 1.0644250911477306e-06,
+      "loss": 1.5555,
+      "num_input_tokens_seen": 5079040,
+      "step": 620
+    },
+    {
+      "epoch": 2.6150627615062763,
+      "grad_norm": 30.15579605102539,
+      "learning_rate": 9.652472319890372e-07,
+      "loss": 1.5715,
+      "num_input_tokens_seen": 5120000,
+      "step": 625
+    },
+    {
+      "epoch": 2.6359832635983262,
+      "grad_norm": 27.77329444885254,
+      "learning_rate": 8.706843327150605e-07,
+      "loss": 1.5831,
+      "num_input_tokens_seen": 5160960,
+      "step": 630
+    },
+    {
+      "epoch": 2.6569037656903767,
+      "grad_norm": 21.68170928955078,
+      "learning_rate": 7.807846961402699e-07,
+      "loss": 1.5731,
+      "num_input_tokens_seen": 5201920,
+      "step": 635
+    },
+    {
+      "epoch": 2.6778242677824267,
+      "grad_norm": 14.29506778717041,
+      "learning_rate": 6.955942430803298e-07,
+      "loss": 1.6046,
+      "num_input_tokens_seen": 5242880,
+      "step": 640
+    },
+    {
+      "epoch": 2.698744769874477,
+      "grad_norm": 26.25128746032715,
+      "learning_rate": 6.151564888957084e-07,
+      "loss": 1.5819,
+      "num_input_tokens_seen": 5283840,
+      "step": 645
+    },
+    {
+      "epoch": 2.719665271966527,
+      "grad_norm": 20.036659240722656,
+      "learning_rate": 5.395125212639895e-07,
+      "loss": 1.5691,
+      "num_input_tokens_seen": 5324800,
+      "step": 650
+    },
+    {
+      "epoch": 2.719665271966527,
+      "eval_accuracy": 0.20754716981132076,
+      "eval_loss": 1.6239819526672363,
+      "eval_runtime": 1.7176,
+      "eval_samples_per_second": 123.431,
+      "eval_steps_per_second": 15.72,
+      "num_input_tokens_seen": 5324800,
+      "step": 650
+    },
+    {
+      "epoch": 2.7405857740585775,
+      "grad_norm": 24.415496826171875,
+      "learning_rate": 4.6870097919224923e-07,
+      "loss": 1.6025,
+      "num_input_tokens_seen": 5365760,
+      "step": 655
+    },
+    {
+      "epoch": 2.7615062761506275,
+      "grad_norm": 28.49026870727539,
+      "learning_rate": 4.0275803328021946e-07,
+      "loss": 1.6376,
+      "num_input_tokens_seen": 5406720,
+      "step": 660
+    },
+    {
+      "epoch": 2.782426778242678,
+      "grad_norm": 27.395978927612305,
+      "learning_rate": 3.417173672443075e-07,
+      "loss": 1.5553,
+      "num_input_tokens_seen": 5447680,
+      "step": 665
+    },
+    {
+      "epoch": 2.803347280334728,
+      "grad_norm": 20.28337287902832,
+      "learning_rate": 2.8561016071192884e-07,
+      "loss": 1.5418,
+      "num_input_tokens_seen": 5488640,
+      "step": 670
+    },
+    {
+      "epoch": 2.8242677824267783,
+      "grad_norm": 10.513223648071289,
+      "learning_rate": 2.3446507329492274e-07,
+      "loss": 1.5828,
+      "num_input_tokens_seen": 5529600,
+      "step": 675
+    },
+    {
+      "epoch": 2.8451882845188283,
+      "grad_norm": 21.558700561523438,
+      "learning_rate": 1.8830822995019593e-07,
+      "loss": 1.5803,
+      "num_input_tokens_seen": 5570560,
+      "step": 680
+    },
+    {
+      "epoch": 2.8661087866108788,
+      "grad_norm": 33.30543518066406,
+      "learning_rate": 1.4716320763507152e-07,
+      "loss": 1.5931,
+      "num_input_tokens_seen": 5611520,
+      "step": 685
+    },
+    {
+      "epoch": 2.8870292887029287,
+      "grad_norm": 32.0794792175293,
+      "learning_rate": 1.1105102326415929e-07,
+      "loss": 1.5912,
+      "num_input_tokens_seen": 5652480,
+      "step": 690
+    },
+    {
+      "epoch": 2.907949790794979,
+      "grad_norm": 17.398990631103516,
+      "learning_rate": 7.999012297389419e-08,
+      "loss": 1.5175,
+      "num_input_tokens_seen": 5693440,
+      "step": 695
+    },
+    {
+      "epoch": 2.928870292887029,
+      "grad_norm": 27.844022750854492,
+      "learning_rate": 5.399637270023683e-08,
+      "loss": 1.5852,
+      "num_input_tokens_seen": 5734400,
+      "step": 700
+    },
+    {
+      "epoch": 2.928870292887029,
+      "eval_accuracy": 0.2169811320754717,
+      "eval_loss": 1.622738242149353,
+      "eval_runtime": 1.7709,
+      "eval_samples_per_second": 119.711,
+      "eval_steps_per_second": 15.246,
+      "num_input_tokens_seen": 5734400,
+      "step": 700
+    },
+    {
+      "epoch": 2.9497907949790796,
+      "grad_norm": 20.81698226928711,
+      "learning_rate": 3.308305007433399e-08,
+      "loss": 1.5199,
+      "num_input_tokens_seen": 5775360,
+      "step": 705
+    },
+    {
+      "epoch": 2.9707112970711296,
+      "grad_norm": 21.446496963500977,
+      "learning_rate": 1.726083764029607e-08,
+      "loss": 1.5656,
+      "num_input_tokens_seen": 5816320,
+      "step": 710
+    },
+    {
+      "epoch": 2.99163179916318,
+      "grad_norm": 15.635223388671875,
+      "learning_rate": 6.5378173985441994e-09,
+      "loss": 1.545,
+      "num_input_tokens_seen": 5857280,
+      "step": 715
+    },
+    {
+      "epoch": 3.0,
+      "num_input_tokens_seen": 5873664,
+      "step": 717,
+      "total_flos": 1.0654234806583296e+16,
+      "train_loss": 1.7262512909318612,
+      "train_runtime": 402.0358,
+      "train_samples_per_second": 14.215,
+      "train_steps_per_second": 1.783
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 717,
+  "num_input_tokens_seen": 5873664,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0654234806583296e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}