End of training

Browse files

Files changed (6) hide show

README.md +1 -0
all_results.json +11 -11
eval_results.json +6 -6
runs/May15_02-14-13_cs-Precision-7960-Tower/events.out.tfevents.1747290290.cs-Precision-7960-Tower.144472.1 +3 -0
train_results.json +6 -6
trainer_state.json +583 -188

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
 - generated_from_trainer
 datasets:
 - superb

 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
+- audio-classification
 - generated_from_trainer
 datasets:
 - superb

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.8245072080023537,
-    "eval_loss": 0.8822575807571411,
-    "eval_runtime": 5.2627,
-    "eval_samples_per_second": 1291.738,
-    "eval_steps_per_second": 40.474,
-    "total_flos": 2.36283432911232e+18,
-    "train_loss": 1.447761106491089,
-    "train_runtime": 310.8685,
-    "train_samples_per_second": 821.794,
-    "train_steps_per_second": 1.608
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.9811709326272433,
+    "eval_loss": 0.12430207431316376,
+    "eval_runtime": 5.1204,
+    "eval_samples_per_second": 1327.629,
+    "eval_steps_per_second": 41.598,
+    "total_flos": 4.72566865822464e+18,
+    "train_loss": 0.7669839228391647,
+    "train_runtime": 622.4352,
+    "train_samples_per_second": 820.873,
+    "train_steps_per_second": 1.607
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.8245072080023537,
-    "eval_loss": 0.8822575807571411,
-    "eval_runtime": 5.2627,
-    "eval_samples_per_second": 1291.738,
-    "eval_steps_per_second": 40.474
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.9811709326272433,
+    "eval_loss": 0.12430207431316376,
+    "eval_runtime": 5.1204,
+    "eval_samples_per_second": 1327.629,
+    "eval_steps_per_second": 41.598
 }

runs/May15_02-14-13_cs-Precision-7960-Tower/events.out.tfevents.1747290290.cs-Precision-7960-Tower.144472.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a16f5e2a677686cdcb452c51b6c90e642b53a7f3a7461695fde291d5e68a59e3
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "total_flos": 2.36283432911232e+18,
-    "train_loss": 1.447761106491089,
-    "train_runtime": 310.8685,
-    "train_samples_per_second": 821.794,
-    "train_steps_per_second": 1.608
 }

 {
+    "epoch": 10.0,
+    "total_flos": 4.72566865822464e+18,
+    "train_loss": 0.7669839228391647,
+    "train_runtime": 622.4352,
+    "train_samples_per_second": 820.873,
+    "train_steps_per_second": 1.607
 }

trainer_state.json CHANGED Viewed

@@ -1,422 +1,817 @@
 {
-  "best_metric": 0.8245072080023537,
-  "best_model_checkpoint": "wav2vec2-base-ft-keyword-spotting/checkpoint-500",
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
-      "grad_norm": 3.1108202934265137,
-      "learning_rate": 6e-06,
-      "loss": 4.1853,
       "step": 10
     },
     {
       "epoch": 0.2,
-      "grad_norm": 3.643692970275879,
-      "learning_rate": 1.2e-05,
-      "loss": 4.0071,
       "step": 20
     },
     {
       "epoch": 0.3,
-      "grad_norm": 6.08334493637085,
-      "learning_rate": 1.8e-05,
-      "loss": 3.4541,
       "step": 30
     },
     {
       "epoch": 0.4,
-      "grad_norm": 5.621030330657959,
-      "learning_rate": 2.4e-05,
-      "loss": 2.6872,
       "step": 40
     },
     {
       "epoch": 0.5,
-      "grad_norm": 4.663188457489014,
-      "learning_rate": 3e-05,
-      "loss": 2.25,
       "step": 50
     },
     {
       "epoch": 0.6,
-      "grad_norm": 2.963801383972168,
-      "learning_rate": 2.9333333333333333e-05,
-      "loss": 2.0037,
       "step": 60
     },
     {
       "epoch": 0.7,
-      "grad_norm": 2.0093071460723877,
-      "learning_rate": 2.8666666666666668e-05,
-      "loss": 1.8419,
       "step": 70
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.7109726071357727,
-      "learning_rate": 2.8e-05,
-      "loss": 1.8088,
       "step": 80
     },
     {
       "epoch": 0.9,
-      "grad_norm": 0.4631745219230652,
-      "learning_rate": 2.7333333333333335e-05,
-      "loss": 1.7483,
       "step": 90
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.49370667338371277,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 1.7728,
       "step": 100
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.6209179170344219,
-      "eval_loss": 1.7270870208740234,
-      "eval_runtime": 5.1768,
-      "eval_samples_per_second": 1313.173,
-      "eval_steps_per_second": 41.145,
       "step": 100
     },
     {
       "epoch": 1.1,
-      "grad_norm": 1.3470516204833984,
-      "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.7404,
       "step": 110
     },
     {
       "epoch": 1.2,
-      "grad_norm": 2.36470627784729,
-      "learning_rate": 2.5333333333333334e-05,
-      "loss": 1.6391,
       "step": 120
     },
     {
       "epoch": 1.3,
-      "grad_norm": 3.1936564445495605,
-      "learning_rate": 2.4666666666666665e-05,
-      "loss": 1.5966,
       "step": 130
     },
     {
       "epoch": 1.4,
-      "grad_norm": 6.025561332702637,
-      "learning_rate": 2.4e-05,
-      "loss": 1.5888,
       "step": 140
     },
     {
       "epoch": 1.5,
-      "grad_norm": 3.4104502201080322,
-      "learning_rate": 2.3333333333333336e-05,
-      "loss": 1.4921,
       "step": 150
     },
     {
       "epoch": 1.6,
-      "grad_norm": 4.1762871742248535,
-      "learning_rate": 2.2666666666666668e-05,
-      "loss": 1.5404,
       "step": 160
     },
     {
       "epoch": 1.7,
-      "grad_norm": 2.305497646331787,
-      "learning_rate": 2.2e-05,
-      "loss": 1.4838,
       "step": 170
     },
     {
       "epoch": 1.8,
-      "grad_norm": 1.8129342794418335,
-      "learning_rate": 2.1333333333333335e-05,
-      "loss": 1.4184,
       "step": 180
     },
     {
       "epoch": 1.9,
-      "grad_norm": 4.611838340759277,
-      "learning_rate": 2.0666666666666666e-05,
-      "loss": 1.3657,
       "step": 190
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.684983730316162,
-      "learning_rate": 1.9999999999999998e-05,
-      "loss": 1.3042,
       "step": 200
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6493086201824065,
-      "eval_loss": 1.2064741849899292,
-      "eval_runtime": 4.8721,
-      "eval_samples_per_second": 1395.278,
-      "eval_steps_per_second": 43.718,
       "step": 200
     },
     {
       "epoch": 2.1,
-      "grad_norm": 3.525785446166992,
-      "learning_rate": 1.9333333333333333e-05,
-      "loss": 1.3191,
       "step": 210
     },
     {
       "epoch": 2.2,
-      "grad_norm": 3.760420322418213,
-      "learning_rate": 1.866666666666667e-05,
-      "loss": 1.2842,
       "step": 220
     },
     {
       "epoch": 2.3,
-      "grad_norm": 5.203872203826904,
-      "learning_rate": 1.8e-05,
-      "loss": 1.2544,
       "step": 230
     },
     {
       "epoch": 2.4,
-      "grad_norm": 4.353450298309326,
-      "learning_rate": 1.7333333333333332e-05,
-      "loss": 1.2532,
       "step": 240
     },
     {
       "epoch": 2.5,
-      "grad_norm": 4.413931846618652,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 1.1657,
       "step": 250
     },
     {
       "epoch": 2.6,
-      "grad_norm": 2.3682613372802734,
-      "learning_rate": 1.6e-05,
-      "loss": 1.1996,
       "step": 260
     },
     {
       "epoch": 2.7,
-      "grad_norm": 3.3464930057525635,
-      "learning_rate": 1.533333333333333e-05,
-      "loss": 1.1394,
       "step": 270
     },
     {
       "epoch": 2.8,
-      "grad_norm": 3.987032890319824,
-      "learning_rate": 1.4666666666666666e-05,
-      "loss": 1.12,
       "step": 280
     },
     {
       "epoch": 2.9,
-      "grad_norm": 2.3071091175079346,
-      "learning_rate": 1.4e-05,
-      "loss": 1.1157,
       "step": 290
     },
     {
       "epoch": 3.0,
-      "grad_norm": 7.341511249542236,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 1.1086,
       "step": 300
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6935863489261548,
-      "eval_loss": 0.9966975450515747,
-      "eval_runtime": 4.846,
-      "eval_samples_per_second": 1402.813,
-      "eval_steps_per_second": 43.954,
       "step": 300
     },
     {
       "epoch": 3.1,
-      "grad_norm": 3.0323097705841064,
-      "learning_rate": 1.2666666666666667e-05,
-      "loss": 1.0664,
       "step": 310
     },
     {
       "epoch": 3.2,
-      "grad_norm": 3.4883832931518555,
-      "learning_rate": 1.2e-05,
-      "loss": 1.0835,
       "step": 320
     },
     {
       "epoch": 3.3,
-      "grad_norm": 4.886635780334473,
-      "learning_rate": 1.1333333333333334e-05,
-      "loss": 1.0608,
       "step": 330
     },
     {
       "epoch": 3.4,
-      "grad_norm": 2.4810945987701416,
-      "learning_rate": 1.0666666666666667e-05,
-      "loss": 1.0253,
       "step": 340
     },
     {
       "epoch": 3.5,
-      "grad_norm": 2.3833069801330566,
-      "learning_rate": 9.999999999999999e-06,
-      "loss": 1.0187,
       "step": 350
     },
     {
       "epoch": 3.6,
-      "grad_norm": 2.031707763671875,
-      "learning_rate": 9.333333333333334e-06,
-      "loss": 1.002,
       "step": 360
     },
     {
       "epoch": 3.7,
-      "grad_norm": 3.9627315998077393,
-      "learning_rate": 8.666666666666666e-06,
-      "loss": 0.9833,
       "step": 370
     },
     {
       "epoch": 3.8,
-      "grad_norm": 3.683357000350952,
-      "learning_rate": 8e-06,
-      "loss": 1.0085,
       "step": 380
     },
     {
       "epoch": 3.9,
-      "grad_norm": 2.747379779815674,
-      "learning_rate": 7.333333333333333e-06,
-      "loss": 1.0044,
       "step": 390
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.9549131393432617,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.967,
       "step": 400
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.793027360988526,
-      "eval_loss": 0.9590433239936829,
-      "eval_runtime": 4.8849,
-      "eval_samples_per_second": 1391.628,
-      "eval_steps_per_second": 43.604,
       "step": 400
     },
     {
       "epoch": 4.1,
-      "grad_norm": 2.6056904792785645,
-      "learning_rate": 6e-06,
-      "loss": 0.981,
       "step": 410
     },
     {
       "epoch": 4.2,
-      "grad_norm": 2.720146894454956,
-      "learning_rate": 5.333333333333334e-06,
-      "loss": 0.9899,
       "step": 420
     },
     {
       "epoch": 4.3,
-      "grad_norm": 3.6615264415740967,
-      "learning_rate": 4.666666666666667e-06,
-      "loss": 0.9411,
       "step": 430
     },
     {
       "epoch": 4.4,
-      "grad_norm": 4.013997554779053,
-      "learning_rate": 4e-06,
-      "loss": 0.9413,
       "step": 440
     },
     {
       "epoch": 4.5,
-      "grad_norm": 2.698765754699707,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.9145,
       "step": 450
     },
     {
       "epoch": 4.6,
-      "grad_norm": 2.6457314491271973,
-      "learning_rate": 2.666666666666667e-06,
-      "loss": 0.9069,
       "step": 460
     },
     {
       "epoch": 4.7,
-      "grad_norm": 2.491399049758911,
-      "learning_rate": 2e-06,
-      "loss": 0.8928,
       "step": 470
     },
     {
       "epoch": 4.8,
-      "grad_norm": 2.6820359230041504,
-      "learning_rate": 1.3333333333333334e-06,
-      "loss": 0.9105,
       "step": 480
     },
     {
       "epoch": 4.9,
-      "grad_norm": 5.143585205078125,
-      "learning_rate": 6.666666666666667e-07,
-      "loss": 0.9215,
       "step": 490
     },
     {
       "epoch": 5.0,
-      "grad_norm": 4.706216335296631,
-      "learning_rate": 0.0,
-      "loss": 0.8801,
       "step": 500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8245072080023537,
-      "eval_loss": 0.8822575807571411,
-      "eval_runtime": 5.2526,
-      "eval_samples_per_second": 1294.22,
-      "eval_steps_per_second": 40.551,
       "step": 500
     },
     {
-      "epoch": 5.0,
-      "step": 500,
-      "total_flos": 2.36283432911232e+18,
-      "train_loss": 1.447761106491089,
-      "train_runtime": 310.8685,
-      "train_samples_per_second": 821.794,
-      "train_steps_per_second": 1.608
     }
   ],
   "logging_steps": 10,
-  "max_steps": 500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -430,7 +825,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.36283432911232e+18,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9811709326272433,
+  "best_model_checkpoint": "wav2vec2-base-ft-keyword-spotting/checkpoint-1000",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
+      "grad_norm": 2.6891753673553467,
+      "learning_rate": 3e-06,
+      "loss": 4.1933,
       "step": 10
     },
     {
       "epoch": 0.2,
+      "grad_norm": 3.1144065856933594,
+      "learning_rate": 6e-06,
+      "loss": 4.1225,
       "step": 20
     },
     {
       "epoch": 0.3,
+      "grad_norm": 4.312869071960449,
+      "learning_rate": 9e-06,
+      "loss": 3.8887,
       "step": 30
     },
     {
       "epoch": 0.4,
+      "grad_norm": 5.83105993270874,
+      "learning_rate": 1.2e-05,
+      "loss": 3.4137,
       "step": 40
     },
     {
       "epoch": 0.5,
+      "grad_norm": 5.6602678298950195,
+      "learning_rate": 1.5e-05,
+      "loss": 2.7921,
       "step": 50
     },
     {
       "epoch": 0.6,
+      "grad_norm": 4.747939586639404,
+      "learning_rate": 1.8e-05,
+      "loss": 2.3948,
       "step": 60
     },
     {
       "epoch": 0.7,
+      "grad_norm": 4.421939849853516,
+      "learning_rate": 2.1e-05,
+      "loss": 2.1514,
       "step": 70
     },
     {
       "epoch": 0.8,
+      "grad_norm": 3.393974542617798,
+      "learning_rate": 2.4e-05,
+      "loss": 2.0222,
       "step": 80
     },
     {
       "epoch": 0.9,
+      "grad_norm": 2.5288150310516357,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.8712,
       "step": 90
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.0866141319274902,
+      "learning_rate": 3e-05,
+      "loss": 1.8178,
       "step": 100
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.6209179170344219,
+      "eval_loss": 1.7386223077774048,
+      "eval_runtime": 5.0898,
+      "eval_samples_per_second": 1335.617,
+      "eval_steps_per_second": 41.849,
       "step": 100
     },
     {
       "epoch": 1.1,
+      "grad_norm": 0.4499356150627136,
+      "learning_rate": 2.966666666666667e-05,
+      "loss": 1.7568,
       "step": 110
     },
     {
       "epoch": 1.2,
+      "grad_norm": 5.13858699798584,
+      "learning_rate": 2.9333333333333333e-05,
+      "loss": 1.7009,
       "step": 120
     },
     {
       "epoch": 1.3,
+      "grad_norm": 1.0781441926956177,
+      "learning_rate": 2.9e-05,
+      "loss": 1.7067,
       "step": 130
     },
     {
       "epoch": 1.4,
+      "grad_norm": 2.4858882427215576,
+      "learning_rate": 2.8666666666666668e-05,
+      "loss": 1.6577,
       "step": 140
     },
     {
       "epoch": 1.5,
+      "grad_norm": 3.1494271755218506,
+      "learning_rate": 2.8333333333333332e-05,
+      "loss": 1.5608,
       "step": 150
     },
     {
       "epoch": 1.6,
+      "grad_norm": 2.8912174701690674,
+      "learning_rate": 2.8e-05,
+      "loss": 1.5741,
       "step": 160
     },
     {
       "epoch": 1.7,
+      "grad_norm": 1.4826748371124268,
+      "learning_rate": 2.766666666666667e-05,
+      "loss": 1.5054,
       "step": 170
     },
     {
       "epoch": 1.8,
+      "grad_norm": 5.051352024078369,
+      "learning_rate": 2.7333333333333335e-05,
+      "loss": 1.4572,
       "step": 180
     },
     {
       "epoch": 1.9,
+      "grad_norm": 2.021836042404175,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.3724,
       "step": 190
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.871109962463379,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 1.3138,
       "step": 200
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6510738452486026,
+      "eval_loss": 1.1778711080551147,
+      "eval_runtime": 4.9948,
+      "eval_samples_per_second": 1361.014,
+      "eval_steps_per_second": 42.644,
       "step": 200
     },
     {
       "epoch": 2.1,
+      "grad_norm": 5.006422519683838,
+      "learning_rate": 2.6333333333333334e-05,
+      "loss": 1.2749,
       "step": 210
     },
     {
       "epoch": 2.2,
+      "grad_norm": 2.877138614654541,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.2645,
       "step": 220
     },
     {
       "epoch": 2.3,
+      "grad_norm": 4.362603187561035,
+      "learning_rate": 2.5666666666666666e-05,
+      "loss": 1.1934,
       "step": 230
     },
     {
       "epoch": 2.4,
+      "grad_norm": 3.1135756969451904,
+      "learning_rate": 2.5333333333333334e-05,
+      "loss": 1.153,
       "step": 240
     },
     {
       "epoch": 2.5,
+      "grad_norm": 4.02156400680542,
+      "learning_rate": 2.5e-05,
+      "loss": 1.0804,
       "step": 250
     },
     {
       "epoch": 2.6,
+      "grad_norm": 3.90006160736084,
+      "learning_rate": 2.4666666666666665e-05,
+      "loss": 1.0651,
       "step": 260
     },
     {
       "epoch": 2.7,
+      "grad_norm": 2.3373022079467773,
+      "learning_rate": 2.4333333333333333e-05,
+      "loss": 1.0293,
       "step": 270
     },
     {
       "epoch": 2.8,
+      "grad_norm": 2.3652572631835938,
+      "learning_rate": 2.4e-05,
+      "loss": 1.0356,
       "step": 280
     },
     {
       "epoch": 2.9,
+      "grad_norm": 2.4576399326324463,
+      "learning_rate": 2.3666666666666665e-05,
+      "loss": 0.9779,
       "step": 290
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.176488876342773,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.9632,
       "step": 300
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8679023242130038,
+      "eval_loss": 0.8326017260551453,
+      "eval_runtime": 4.997,
+      "eval_samples_per_second": 1360.422,
+      "eval_steps_per_second": 42.626,
       "step": 300
     },
     {
       "epoch": 3.1,
+      "grad_norm": 2.0200586318969727,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.8637,
       "step": 310
     },
     {
       "epoch": 3.2,
+      "grad_norm": 2.459822416305542,
+      "learning_rate": 2.2666666666666668e-05,
+      "loss": 0.8304,
       "step": 320
     },
     {
       "epoch": 3.3,
+      "grad_norm": 2.8096423149108887,
+      "learning_rate": 2.2333333333333335e-05,
+      "loss": 0.7811,
       "step": 330
     },
     {
       "epoch": 3.4,
+      "grad_norm": 2.188521385192871,
+      "learning_rate": 2.2e-05,
+      "loss": 0.7311,
       "step": 340
     },
     {
       "epoch": 3.5,
+      "grad_norm": 2.1101114749908447,
+      "learning_rate": 2.1666666666666667e-05,
+      "loss": 0.6899,
       "step": 350
     },
     {
       "epoch": 3.6,
+      "grad_norm": 3.0662026405334473,
+      "learning_rate": 2.1333333333333335e-05,
+      "loss": 0.6275,
       "step": 360
     },
     {
       "epoch": 3.7,
+      "grad_norm": 2.7955899238586426,
+      "learning_rate": 2.1e-05,
+      "loss": 0.5982,
       "step": 370
     },
     {
       "epoch": 3.8,
+      "grad_norm": 2.069448947906494,
+      "learning_rate": 2.0666666666666666e-05,
+      "loss": 0.5618,
       "step": 380
     },
     {
       "epoch": 3.9,
+      "grad_norm": 2.3345484733581543,
+      "learning_rate": 2.0333333333333334e-05,
+      "loss": 0.5223,
       "step": 390
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.2423112392425537,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 0.499,
       "step": 400
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9724919093851133,
+      "eval_loss": 0.3696895241737366,
+      "eval_runtime": 5.064,
+      "eval_samples_per_second": 1342.416,
+      "eval_steps_per_second": 42.062,
       "step": 400
     },
     {
       "epoch": 4.1,
+      "grad_norm": 2.581549644470215,
+      "learning_rate": 1.9666666666666666e-05,
+      "loss": 0.4643,
       "step": 410
     },
     {
       "epoch": 4.2,
+      "grad_norm": 2.2802562713623047,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 0.4679,
       "step": 420
     },
     {
       "epoch": 4.3,
+      "grad_norm": 2.000401496887207,
+      "learning_rate": 1.9e-05,
+      "loss": 0.4143,
       "step": 430
     },
     {
       "epoch": 4.4,
+      "grad_norm": 1.913470983505249,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.3969,
       "step": 440
     },
     {
       "epoch": 4.5,
+      "grad_norm": 1.812354564666748,
+      "learning_rate": 1.8333333333333336e-05,
+      "loss": 0.3903,
       "step": 450
     },
     {
       "epoch": 4.6,
+      "grad_norm": 1.731414556503296,
+      "learning_rate": 1.8e-05,
+      "loss": 0.3536,
       "step": 460
     },
     {
       "epoch": 4.7,
+      "grad_norm": 2.4097819328308105,
+      "learning_rate": 1.7666666666666668e-05,
+      "loss": 0.3537,
       "step": 470
     },
     {
       "epoch": 4.8,
+      "grad_norm": 2.2438652515411377,
+      "learning_rate": 1.7333333333333332e-05,
+      "loss": 0.3417,
       "step": 480
     },
     {
       "epoch": 4.9,
+      "grad_norm": 1.8313252925872803,
+      "learning_rate": 1.7e-05,
+      "loss": 0.3269,
       "step": 490
     },
     {
       "epoch": 5.0,
+      "grad_norm": 3.7112584114074707,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.3191,
       "step": 500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9760223595175052,
+      "eval_loss": 0.22396039962768555,
+      "eval_runtime": 4.8682,
+      "eval_samples_per_second": 1396.423,
+      "eval_steps_per_second": 43.754,
       "step": 500
     },
     {
+      "epoch": 5.1,
+      "grad_norm": 2.2409660816192627,
+      "learning_rate": 1.633333333333333e-05,
+      "loss": 0.3044,
+      "step": 510
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 1.6726042032241821,
+      "learning_rate": 1.6e-05,
+      "loss": 0.2886,
+      "step": 520
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 2.055961847305298,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.2745,
+      "step": 530
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 2.2671661376953125,
+      "learning_rate": 1.533333333333333e-05,
+      "loss": 0.2943,
+      "step": 540
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 2.010511636734009,
+      "learning_rate": 1.5e-05,
+      "loss": 0.246,
+      "step": 550
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 2.027716636657715,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.2962,
+      "step": 560
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 1.839068055152893,
+      "learning_rate": 1.4333333333333334e-05,
+      "loss": 0.2817,
+      "step": 570
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 2.8274471759796143,
+      "learning_rate": 1.4e-05,
+      "loss": 0.2512,
+      "step": 580
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 2.0226399898529053,
+      "learning_rate": 1.3666666666666667e-05,
+      "loss": 0.2756,
+      "step": 590
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.212151050567627,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.242,
+      "step": 600
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9792586054721977,
+      "eval_loss": 0.1708967536687851,
+      "eval_runtime": 5.0298,
+      "eval_samples_per_second": 1351.551,
+      "eval_steps_per_second": 42.348,
+      "step": 600
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 2.019993305206299,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.2557,
+      "step": 610
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 2.0448718070983887,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 0.2455,
+      "step": 620
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 2.4769129753112793,
+      "learning_rate": 1.2333333333333333e-05,
+      "loss": 0.2435,
+      "step": 630
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 2.217947483062744,
+      "learning_rate": 1.2e-05,
+      "loss": 0.2392,
+      "step": 640
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 2.198836326599121,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.2194,
+      "step": 650
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 2.2629637718200684,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.2165,
+      "step": 660
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 1.9289292097091675,
+      "learning_rate": 1.1e-05,
+      "loss": 0.2264,
+      "step": 670
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 2.585972547531128,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.2254,
+      "step": 680
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 2.3876583576202393,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 0.2264,
+      "step": 690
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 2.297879695892334,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.2144,
+      "step": 700
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9805825242718447,
+      "eval_loss": 0.14598147571086884,
+      "eval_runtime": 5.1023,
+      "eval_samples_per_second": 1332.35,
+      "eval_steps_per_second": 41.746,
+      "step": 700
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 2.2874860763549805,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.2217,
+      "step": 710
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 1.6444002389907837,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.2048,
+      "step": 720
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 2.211688280105591,
+      "learning_rate": 9e-06,
+      "loss": 0.2122,
+      "step": 730
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 2.334533929824829,
+      "learning_rate": 8.666666666666666e-06,
+      "loss": 0.2142,
+      "step": 740
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 1.83983314037323,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.1873,
+      "step": 750
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 1.8291276693344116,
+      "learning_rate": 8e-06,
+      "loss": 0.2003,
+      "step": 760
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 2.4695987701416016,
+      "learning_rate": 7.666666666666666e-06,
+      "loss": 0.2075,
+      "step": 770
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 1.7656598091125488,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.2089,
+      "step": 780
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 1.8952357769012451,
+      "learning_rate": 7e-06,
+      "loss": 0.2013,
+      "step": 790
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.6189404726028442,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.1977,
+      "step": 800
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.979994115916446,
+      "eval_loss": 0.13441701233386993,
+      "eval_runtime": 4.9535,
+      "eval_samples_per_second": 1372.356,
+      "eval_steps_per_second": 43.0,
+      "step": 800
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 2.2733678817749023,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 0.1908,
+      "step": 810
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 1.6874712705612183,
+      "learning_rate": 6e-06,
+      "loss": 0.1819,
+      "step": 820
+    },
+    {
+      "epoch": 8.3,
+      "grad_norm": 1.4649100303649902,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.2037,
+      "step": 830
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 1.7231727838516235,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.1935,
+      "step": 840
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 1.6908072233200073,
+      "learning_rate": 4.9999999999999996e-06,
+      "loss": 0.1957,
+      "step": 850
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 2.1523678302764893,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.1955,
+      "step": 860
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 2.5662710666656494,
+      "learning_rate": 4.333333333333333e-06,
+      "loss": 0.2008,
+      "step": 870
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 1.984096884727478,
+      "learning_rate": 4e-06,
+      "loss": 0.186,
+      "step": 880
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 1.4925553798675537,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.1905,
+      "step": 890
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 4.499406814575195,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.1742,
+      "step": 900
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9796999117387467,
+      "eval_loss": 0.12820769846439362,
+      "eval_runtime": 5.1381,
+      "eval_samples_per_second": 1323.045,
+      "eval_steps_per_second": 41.455,
+      "step": 900
+    },
+    {
+      "epoch": 9.1,
+      "grad_norm": 1.9934319257736206,
+      "learning_rate": 3e-06,
+      "loss": 0.1915,
+      "step": 910
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 1.9417580366134644,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.1759,
+      "step": 920
+    },
+    {
+      "epoch": 9.3,
+      "grad_norm": 2.1848134994506836,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.1811,
+      "step": 930
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 1.6830646991729736,
+      "learning_rate": 2e-06,
+      "loss": 0.1905,
+      "step": 940
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 2.51246976852417,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.1889,
+      "step": 950
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 2.315727949142456,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.1755,
+      "step": 960
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 1.6819000244140625,
+      "learning_rate": 1e-06,
+      "loss": 0.1717,
+      "step": 970
+    },
+    {
+      "epoch": 9.8,
+      "grad_norm": 1.7445892095565796,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.1756,
+      "step": 980
+    },
+    {
+      "epoch": 9.9,
+      "grad_norm": 1.542716145515442,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.181,
+      "step": 990
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 2.6007721424102783,
+      "learning_rate": 0.0,
+      "loss": 0.1867,
+      "step": 1000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9811709326272433,
+      "eval_loss": 0.12430207431316376,
+      "eval_runtime": 5.1351,
+      "eval_samples_per_second": 1323.841,
+      "eval_steps_per_second": 41.48,
+      "step": 1000
+    },
+    {
+      "epoch": 10.0,
+      "step": 1000,
+      "total_flos": 4.72566865822464e+18,
+      "train_loss": 0.7669839228391647,
+      "train_runtime": 622.4352,
+      "train_samples_per_second": 820.873,
+      "train_steps_per_second": 1.607
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.72566865822464e+18,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null