End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +8 -8
eval_results.json +5 -5
runs/Dec02_12-41-42_DESKTOP-SKBE9FB/events.out.tfevents.1733165371.DESKTOP-SKBE9FB.6224.1 +3 -0
train_results.json +3 -3
trainer_state.json +216 -216

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8387096774193549
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5844
-- Accuracy: 0.8387
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8548387096774194
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4956
+- Accuracy: 0.8548
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 35.56,
-    "eval_accuracy": 0.45161290322580644,
-    "eval_loss": 66.47408294677734,
-    "eval_runtime": 2.0945,
-    "eval_samples_per_second": 29.601,
-    "eval_steps_per_second": 1.91,
-    "train_loss": 1.2252901017665863,
-    "train_runtime": 452.9974,
-    "train_samples_per_second": 25.431,
     "train_steps_per_second": 0.353
 }

 {
     "epoch": 35.56,
+    "eval_accuracy": 0.8548387096774194,
+    "eval_loss": 0.4955712854862213,
+    "eval_runtime": 2.1715,
+    "eval_samples_per_second": 28.552,
+    "eval_steps_per_second": 1.842,
+    "train_loss": 0.5008050501346588,
+    "train_runtime": 452.9272,
+    "train_samples_per_second": 25.435,
     "train_steps_per_second": 0.353
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 35.56,
-    "eval_accuracy": 0.45161290322580644,
-    "eval_loss": 66.47408294677734,
-    "eval_runtime": 2.0945,
-    "eval_samples_per_second": 29.601,
-    "eval_steps_per_second": 1.91
 }

 {
     "epoch": 35.56,
+    "eval_accuracy": 0.8548387096774194,
+    "eval_loss": 0.4955712854862213,
+    "eval_runtime": 2.1715,
+    "eval_samples_per_second": 28.552,
+    "eval_steps_per_second": 1.842
 }

runs/Dec02_12-41-42_DESKTOP-SKBE9FB/events.out.tfevents.1733165371.DESKTOP-SKBE9FB.6224.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1bb228b70799a7a3b1e86100c383228f81d2d654bd37e209f83446403322517
+size 411

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 35.56,
-    "train_loss": 1.2252901017665863,
-    "train_runtime": 452.9974,
-    "train_samples_per_second": 25.431,
     "train_steps_per_second": 0.353
 }

 {
     "epoch": 35.56,
+    "train_loss": 0.5008050501346588,
+    "train_runtime": 452.9272,
+    "train_samples_per_second": 25.435,
     "train_steps_per_second": 0.353
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.45161290322580644,
-  "best_model_checkpoint": "swiftformer-xs-OT\\checkpoint-13",
   "epoch": 35.55555555555556,
   "eval_steps": 500,
   "global_step": 160,
@@ -10,431 +10,431 @@
   "log_history": [
     {
       "epoch": 0.89,
-      "eval_accuracy": 0.41935483870967744,
-      "eval_loss": 4.055167198181152,
-      "eval_runtime": 2.037,
-      "eval_samples_per_second": 30.437,
-      "eval_steps_per_second": 1.964,
       "step": 4
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.3548387096774194,
-      "eval_loss": 11.170184135437012,
-      "eval_runtime": 2.4791,
-      "eval_samples_per_second": 25.009,
-      "eval_steps_per_second": 1.613,
       "step": 9
     },
     {
       "epoch": 2.22,
-      "learning_rate": 0.014240506329113924,
-      "loss": 1.5629,
       "step": 10
     },
     {
       "epoch": 2.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 66.47408294677734,
-      "eval_runtime": 2.171,
-      "eval_samples_per_second": 28.558,
-      "eval_steps_per_second": 1.842,
       "step": 13
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.3709677419354839,
-      "eval_loss": 13.566208839416504,
-      "eval_runtime": 2.1335,
-      "eval_samples_per_second": 29.06,
-      "eval_steps_per_second": 1.875,
       "step": 18
     },
     {
       "epoch": 4.44,
-      "learning_rate": 0.013291139240506327,
-      "loss": 1.2491,
       "step": 20
     },
     {
       "epoch": 4.89,
-      "eval_accuracy": 0.3548387096774194,
-      "eval_loss": 2.8210699558258057,
-      "eval_runtime": 1.8659,
-      "eval_samples_per_second": 33.227,
-      "eval_steps_per_second": 2.144,
       "step": 22
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.3548387096774194,
-      "eval_loss": 1.384170651435852,
-      "eval_runtime": 2.0735,
-      "eval_samples_per_second": 29.901,
-      "eval_steps_per_second": 1.929,
       "step": 27
     },
     {
       "epoch": 6.67,
-      "learning_rate": 0.012341772151898734,
-      "loss": 1.2501,
       "step": 30
     },
     {
       "epoch": 6.89,
-      "eval_accuracy": 0.3064516129032258,
-      "eval_loss": 1.3205060958862305,
-      "eval_runtime": 1.9145,
-      "eval_samples_per_second": 32.385,
-      "eval_steps_per_second": 2.089,
       "step": 31
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.3548387096774194,
-      "eval_loss": 2.1143109798431396,
-      "eval_runtime": 2.154,
-      "eval_samples_per_second": 28.783,
-      "eval_steps_per_second": 1.857,
       "step": 36
     },
     {
       "epoch": 8.89,
-      "learning_rate": 0.01139240506329114,
-      "loss": 1.2154,
       "step": 40
     },
     {
       "epoch": 8.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.6988922357559204,
-      "eval_runtime": 1.9385,
-      "eval_samples_per_second": 31.984,
-      "eval_steps_per_second": 2.063,
       "step": 40
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.4032258064516129,
-      "eval_loss": 1.3945496082305908,
-      "eval_runtime": 1.9375,
-      "eval_samples_per_second": 32.001,
-      "eval_steps_per_second": 2.065,
       "step": 45
     },
     {
       "epoch": 10.89,
-      "eval_accuracy": 0.4032258064516129,
-      "eval_loss": 1.3830032348632812,
-      "eval_runtime": 2.0825,
-      "eval_samples_per_second": 29.772,
-      "eval_steps_per_second": 1.921,
       "step": 49
     },
     {
       "epoch": 11.11,
-      "learning_rate": 0.010443037974683544,
-      "loss": 1.1922,
       "step": 50
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.3870967741935484,
-      "eval_loss": 1.349541187286377,
-      "eval_runtime": 1.9725,
-      "eval_samples_per_second": 31.433,
-      "eval_steps_per_second": 2.028,
       "step": 54
     },
     {
       "epoch": 12.89,
-      "eval_accuracy": 0.43548387096774194,
-      "eval_loss": 1.203187346458435,
-      "eval_runtime": 2.0645,
-      "eval_samples_per_second": 30.031,
-      "eval_steps_per_second": 1.938,
       "step": 58
     },
     {
       "epoch": 13.33,
-      "learning_rate": 0.00949367088607595,
-      "loss": 1.1879,
       "step": 60
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.2532857656478882,
-      "eval_runtime": 2.0885,
-      "eval_samples_per_second": 29.686,
-      "eval_steps_per_second": 1.915,
       "step": 63
     },
     {
       "epoch": 14.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.3339285850524902,
-      "eval_runtime": 2.0275,
-      "eval_samples_per_second": 30.58,
-      "eval_steps_per_second": 1.973,
       "step": 67
     },
     {
       "epoch": 15.56,
-      "learning_rate": 0.008544303797468355,
-      "loss": 1.2114,
       "step": 70
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 1.2691409587860107,
-      "eval_runtime": 2.0745,
-      "eval_samples_per_second": 29.887,
-      "eval_steps_per_second": 1.928,
       "step": 72
     },
     {
       "epoch": 16.89,
-      "eval_accuracy": 0.3709677419354839,
-      "eval_loss": 1.2870497703552246,
-      "eval_runtime": 1.9805,
-      "eval_samples_per_second": 31.306,
-      "eval_steps_per_second": 2.02,
       "step": 76
     },
     {
       "epoch": 17.78,
-      "learning_rate": 0.00759493670886076,
-      "loss": 1.2266,
       "step": 80
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.1817296743392944,
-      "eval_runtime": 2.064,
-      "eval_samples_per_second": 30.039,
-      "eval_steps_per_second": 1.938,
       "step": 81
     },
     {
       "epoch": 18.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.2077744007110596,
-      "eval_runtime": 2.0575,
-      "eval_samples_per_second": 30.134,
-      "eval_steps_per_second": 1.944,
       "step": 85
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.0066455696202531635,
-      "loss": 1.2392,
       "step": 90
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.2126984596252441,
-      "eval_runtime": 2.1705,
-      "eval_samples_per_second": 28.564,
-      "eval_steps_per_second": 1.843,
       "step": 90
     },
     {
       "epoch": 20.89,
-      "eval_accuracy": 0.43548387096774194,
-      "eval_loss": 1.2361472845077515,
-      "eval_runtime": 1.957,
-      "eval_samples_per_second": 31.682,
-      "eval_steps_per_second": 2.044,
       "step": 94
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.5839189291000366,
-      "eval_runtime": 2.1675,
-      "eval_samples_per_second": 28.604,
-      "eval_steps_per_second": 1.845,
       "step": 99
     },
     {
       "epoch": 22.22,
-      "learning_rate": 0.00569620253164557,
-      "loss": 1.228,
       "step": 100
     },
     {
       "epoch": 22.89,
-      "eval_accuracy": 0.3870967741935484,
-      "eval_loss": 1.2531583309173584,
-      "eval_runtime": 2.16,
-      "eval_samples_per_second": 28.704,
-      "eval_steps_per_second": 1.852,
       "step": 103
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.3709677419354839,
-      "eval_loss": 1.3878097534179688,
-      "eval_runtime": 2.122,
-      "eval_samples_per_second": 29.218,
-      "eval_steps_per_second": 1.885,
       "step": 108
     },
     {
       "epoch": 24.44,
-      "learning_rate": 0.004746835443037975,
-      "loss": 1.197,
       "step": 110
     },
     {
       "epoch": 24.89,
-      "eval_accuracy": 0.3548387096774194,
-      "eval_loss": 1.31118905544281,
-      "eval_runtime": 2.163,
-      "eval_samples_per_second": 28.664,
-      "eval_steps_per_second": 1.849,
       "step": 112
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.1860616207122803,
-      "eval_runtime": 2.1025,
-      "eval_samples_per_second": 29.489,
-      "eval_steps_per_second": 1.902,
       "step": 117
     },
     {
       "epoch": 26.67,
-      "learning_rate": 0.00379746835443038,
-      "loss": 1.1873,
       "step": 120
     },
     {
       "epoch": 26.89,
-      "eval_accuracy": 0.3870967741935484,
-      "eval_loss": 1.1917904615402222,
-      "eval_runtime": 2.1285,
-      "eval_samples_per_second": 29.129,
-      "eval_steps_per_second": 1.879,
       "step": 121
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.3709677419354839,
-      "eval_loss": 1.2353166341781616,
-      "eval_runtime": 2.158,
-      "eval_samples_per_second": 28.73,
-      "eval_steps_per_second": 1.854,
       "step": 126
     },
     {
       "epoch": 28.89,
-      "learning_rate": 0.002848101265822785,
-      "loss": 1.1681,
       "step": 130
     },
     {
       "epoch": 28.89,
-      "eval_accuracy": 0.3709677419354839,
-      "eval_loss": 1.1556626558303833,
-      "eval_runtime": 2.037,
-      "eval_samples_per_second": 30.437,
-      "eval_steps_per_second": 1.964,
       "step": 130
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.3709677419354839,
-      "eval_loss": 1.1894261837005615,
-      "eval_runtime": 2.232,
-      "eval_samples_per_second": 27.778,
-      "eval_steps_per_second": 1.792,
       "step": 135
     },
     {
       "epoch": 30.89,
-      "eval_accuracy": 0.3709677419354839,
-      "eval_loss": 1.2173370122909546,
-      "eval_runtime": 2.0738,
-      "eval_samples_per_second": 29.897,
-      "eval_steps_per_second": 1.929,
       "step": 139
     },
     {
       "epoch": 31.11,
-      "learning_rate": 0.00189873417721519,
-      "loss": 1.1705,
       "step": 140
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.4032258064516129,
-      "eval_loss": 1.2082428932189941,
-      "eval_runtime": 1.911,
-      "eval_samples_per_second": 32.444,
-      "eval_steps_per_second": 2.093,
       "step": 144
     },
     {
       "epoch": 32.89,
-      "eval_accuracy": 0.41935483870967744,
-      "eval_loss": 1.2061160802841187,
-      "eval_runtime": 1.952,
-      "eval_samples_per_second": 31.763,
-      "eval_steps_per_second": 2.049,
       "step": 148
     },
     {
       "epoch": 33.33,
-      "learning_rate": 0.000949367088607595,
-      "loss": 1.1767,
       "step": 150
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.41935483870967744,
-      "eval_loss": 1.208241581916809,
-      "eval_runtime": 1.9655,
-      "eval_samples_per_second": 31.545,
-      "eval_steps_per_second": 2.035,
       "step": 153
     },
     {
       "epoch": 34.89,
-      "eval_accuracy": 0.41935483870967744,
-      "eval_loss": 1.2024096250534058,
-      "eval_runtime": 1.9505,
-      "eval_samples_per_second": 31.787,
-      "eval_steps_per_second": 2.051,
       "step": 157
     },
     {
       "epoch": 35.56,
       "learning_rate": 0.0,
-      "loss": 1.1424,
       "step": 160
     },
     {
       "epoch": 35.56,
-      "eval_accuracy": 0.43548387096774194,
-      "eval_loss": 1.1981048583984375,
-      "eval_runtime": 2.016,
-      "eval_samples_per_second": 30.754,
-      "eval_steps_per_second": 1.984,
       "step": 160
     },
     {
       "epoch": 35.56,
       "step": 160,
       "total_flos": 2.807020017156096e+16,
-      "train_loss": 1.2252901017665863,
-      "train_runtime": 452.9974,
-      "train_samples_per_second": 25.431,
       "train_steps_per_second": 0.353
     }
   ],

 {
+  "best_metric": 0.8548387096774194,
+  "best_model_checkpoint": "swiftformer-xs-OT\\checkpoint-139",
   "epoch": 35.55555555555556,
   "eval_steps": 500,
   "global_step": 160,
   "log_history": [
     {
       "epoch": 0.89,
+      "eval_accuracy": 0.5161290322580645,
+      "eval_loss": 1.3804326057434082,
+      "eval_runtime": 2.0395,
+      "eval_samples_per_second": 30.4,
+      "eval_steps_per_second": 1.961,
       "step": 4
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1.2554447650909424,
+      "eval_runtime": 1.9685,
+      "eval_samples_per_second": 31.497,
+      "eval_steps_per_second": 2.032,
       "step": 9
     },
     {
       "epoch": 2.22,
+      "learning_rate": 0.0009375,
+      "loss": 1.3469,
       "step": 10
     },
     {
       "epoch": 2.89,
+      "eval_accuracy": 0.6612903225806451,
+      "eval_loss": 0.9724773168563843,
+      "eval_runtime": 1.9795,
+      "eval_samples_per_second": 31.321,
+      "eval_steps_per_second": 2.021,
       "step": 13
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.7085855007171631,
+      "eval_runtime": 2.3836,
+      "eval_samples_per_second": 26.011,
+      "eval_steps_per_second": 1.678,
       "step": 18
     },
     {
       "epoch": 4.44,
+      "learning_rate": 0.0014583333333333334,
+      "loss": 0.9831,
       "step": 20
     },
     {
       "epoch": 4.89,
+      "eval_accuracy": 0.7258064516129032,
+      "eval_loss": 0.8855839371681213,
+      "eval_runtime": 2.156,
+      "eval_samples_per_second": 28.757,
+      "eval_steps_per_second": 1.855,
       "step": 22
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.7723659873008728,
+      "eval_runtime": 1.9627,
+      "eval_samples_per_second": 31.588,
+      "eval_steps_per_second": 2.038,
       "step": 27
     },
     {
       "epoch": 6.67,
+      "learning_rate": 0.0013541666666666667,
+      "loss": 0.7441,
       "step": 30
     },
     {
       "epoch": 6.89,
+      "eval_accuracy": 0.7258064516129032,
+      "eval_loss": 0.819038450717926,
+      "eval_runtime": 1.979,
+      "eval_samples_per_second": 31.33,
+      "eval_steps_per_second": 2.021,
       "step": 31
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.6897338628768921,
+      "eval_runtime": 1.8919,
+      "eval_samples_per_second": 32.77,
+      "eval_steps_per_second": 2.114,
       "step": 36
     },
     {
       "epoch": 8.89,
+      "learning_rate": 0.00125,
+      "loss": 0.6939,
       "step": 40
     },
     {
       "epoch": 8.89,
+      "eval_accuracy": 0.7258064516129032,
+      "eval_loss": 0.6599262356758118,
+      "eval_runtime": 1.9435,
+      "eval_samples_per_second": 31.902,
+      "eval_steps_per_second": 2.058,
       "step": 40
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.6288474798202515,
+      "eval_runtime": 2.1175,
+      "eval_samples_per_second": 29.28,
+      "eval_steps_per_second": 1.889,
       "step": 45
     },
     {
       "epoch": 10.89,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.6333299279212952,
+      "eval_runtime": 2.055,
+      "eval_samples_per_second": 30.17,
+      "eval_steps_per_second": 1.946,
       "step": 49
     },
     {
       "epoch": 11.11,
+      "learning_rate": 0.0011458333333333333,
+      "loss": 0.5861,
       "step": 50
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.6206099987030029,
+      "eval_runtime": 2.139,
+      "eval_samples_per_second": 28.985,
+      "eval_steps_per_second": 1.87,
       "step": 54
     },
     {
       "epoch": 12.89,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.5262896418571472,
+      "eval_runtime": 2.0025,
+      "eval_samples_per_second": 30.961,
+      "eval_steps_per_second": 1.998,
       "step": 58
     },
     {
       "epoch": 13.33,
+      "learning_rate": 0.0010416666666666667,
+      "loss": 0.5018,
       "step": 60
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.583601176738739,
+      "eval_runtime": 2.0815,
+      "eval_samples_per_second": 29.786,
+      "eval_steps_per_second": 1.922,
       "step": 63
     },
     {
       "epoch": 14.89,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 0.6125115156173706,
+      "eval_runtime": 1.948,
+      "eval_samples_per_second": 31.828,
+      "eval_steps_per_second": 2.053,
       "step": 67
     },
     {
       "epoch": 15.56,
+      "learning_rate": 0.0009375,
+      "loss": 0.4642,
       "step": 70
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.5431403517723083,
+      "eval_runtime": 1.921,
+      "eval_samples_per_second": 32.276,
+      "eval_steps_per_second": 2.082,
       "step": 72
     },
     {
       "epoch": 16.89,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5893498063087463,
+      "eval_runtime": 1.9645,
+      "eval_samples_per_second": 31.561,
+      "eval_steps_per_second": 2.036,
       "step": 76
     },
     {
       "epoch": 17.78,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 0.4064,
       "step": 80
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.49968525767326355,
+      "eval_runtime": 1.8915,
+      "eval_samples_per_second": 32.779,
+      "eval_steps_per_second": 2.115,
       "step": 81
     },
     {
       "epoch": 18.89,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.5474066138267517,
+      "eval_runtime": 1.968,
+      "eval_samples_per_second": 31.505,
+      "eval_steps_per_second": 2.033,
       "step": 85
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.0007291666666666667,
+      "loss": 0.4275,
       "step": 90
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.6748386025428772,
+      "eval_runtime": 1.963,
+      "eval_samples_per_second": 31.585,
+      "eval_steps_per_second": 2.038,
       "step": 90
     },
     {
       "epoch": 20.89,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.6369444131851196,
+      "eval_runtime": 1.98,
+      "eval_samples_per_second": 31.314,
+      "eval_steps_per_second": 2.02,
       "step": 94
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.5609545111656189,
+      "eval_runtime": 1.974,
+      "eval_samples_per_second": 31.409,
+      "eval_steps_per_second": 2.026,
       "step": 99
     },
     {
       "epoch": 22.22,
+      "learning_rate": 0.000625,
+      "loss": 0.373,
       "step": 100
     },
     {
       "epoch": 22.89,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.5259799957275391,
+      "eval_runtime": 1.9815,
+      "eval_samples_per_second": 31.29,
+      "eval_steps_per_second": 2.019,
       "step": 103
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5416117310523987,
+      "eval_runtime": 2.1095,
+      "eval_samples_per_second": 29.391,
+      "eval_steps_per_second": 1.896,
       "step": 108
     },
     {
       "epoch": 24.44,
+      "learning_rate": 0.0005208333333333333,
+      "loss": 0.2931,
       "step": 110
     },
     {
       "epoch": 24.89,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5146054029464722,
+      "eval_runtime": 2.1155,
+      "eval_samples_per_second": 29.308,
+      "eval_steps_per_second": 1.891,
       "step": 112
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.5180203914642334,
+      "eval_runtime": 1.8704,
+      "eval_samples_per_second": 33.147,
+      "eval_steps_per_second": 2.139,
       "step": 117
     },
     {
       "epoch": 26.67,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 0.3135,
       "step": 120
     },
     {
       "epoch": 26.89,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.5169466733932495,
+      "eval_runtime": 2.0975,
+      "eval_samples_per_second": 29.559,
+      "eval_steps_per_second": 1.907,
       "step": 121
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5491407513618469,
+      "eval_runtime": 2.1065,
+      "eval_samples_per_second": 29.433,
+      "eval_steps_per_second": 1.899,
       "step": 126
     },
     {
       "epoch": 28.89,
+      "learning_rate": 0.0003125,
+      "loss": 0.2342,
       "step": 130
     },
     {
       "epoch": 28.89,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5384820699691772,
+      "eval_runtime": 2.084,
+      "eval_samples_per_second": 29.751,
+      "eval_steps_per_second": 1.919,
       "step": 130
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5455949306488037,
+      "eval_runtime": 1.9334,
+      "eval_samples_per_second": 32.067,
+      "eval_steps_per_second": 2.069,
       "step": 135
     },
     {
       "epoch": 30.89,
+      "eval_accuracy": 0.8548387096774194,
+      "eval_loss": 0.4955712854862213,
+      "eval_runtime": 2.2074,
+      "eval_samples_per_second": 28.088,
+      "eval_steps_per_second": 1.812,
       "step": 139
     },
     {
       "epoch": 31.11,
+      "learning_rate": 0.00020833333333333335,
+      "loss": 0.2411,
       "step": 140
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.5254048109054565,
+      "eval_runtime": 2.3185,
+      "eval_samples_per_second": 26.741,
+      "eval_steps_per_second": 1.725,
       "step": 144
     },
     {
       "epoch": 32.89,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5533136129379272,
+      "eval_runtime": 1.8899,
+      "eval_samples_per_second": 32.805,
+      "eval_steps_per_second": 2.116,
       "step": 148
     },
     {
       "epoch": 33.33,
+      "learning_rate": 0.00010416666666666667,
+      "loss": 0.2135,
       "step": 150
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5612671971321106,
+      "eval_runtime": 2.0095,
+      "eval_samples_per_second": 30.854,
+      "eval_steps_per_second": 1.991,
       "step": 153
     },
     {
       "epoch": 34.89,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.5748429894447327,
+      "eval_runtime": 2.0385,
+      "eval_samples_per_second": 30.415,
+      "eval_steps_per_second": 1.962,
       "step": 157
     },
     {
       "epoch": 35.56,
       "learning_rate": 0.0,
+      "loss": 0.1904,
       "step": 160
     },
     {
       "epoch": 35.56,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5843761563301086,
+      "eval_runtime": 2.02,
+      "eval_samples_per_second": 30.694,
+      "eval_steps_per_second": 1.98,
       "step": 160
     },
     {
       "epoch": 35.56,
       "step": 160,
       "total_flos": 2.807020017156096e+16,
+      "train_loss": 0.5008050501346588,
+      "train_runtime": 452.9272,
+      "train_samples_per_second": 25.435,
       "train_steps_per_second": 0.353
     }
   ],