End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +6 -6
runs/Dec11_16-31-38_ae1aa77fe319/events.out.tfevents.1733937178.ae1aa77fe319.236.9 +3 -0
train_results.json +6 -6
trainer_state.json +634 -527

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 60.0,
-    "eval_accuracy": 0.9565217391304348,
-    "eval_loss": 0.11890643835067749,
-    "eval_runtime": 0.2938,
-    "eval_samples_per_second": 313.086,
-    "eval_steps_per_second": 10.209,
-    "total_flos": 4.3676735454019584e+17,
-    "train_loss": 0.1091307305627399,
-    "train_runtime": 203.4457,
-    "train_samples_per_second": 109.71,
-    "train_steps_per_second": 0.885
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.92511454202441,
+    "eval_loss": 0.20453155040740967,
+    "eval_runtime": 77.612,
+    "eval_samples_per_second": 334.652,
+    "eval_steps_per_second": 5.231,
+    "total_flos": 5.20812700794667e+18,
+    "train_loss": 0.32158288405491753,
+    "train_runtime": 2381.0335,
+    "train_samples_per_second": 111.775,
+    "train_steps_per_second": 0.437
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 60.0,
-    "eval_accuracy": 0.9565217391304348,
-    "eval_loss": 0.11890643835067749,
-    "eval_runtime": 0.2938,
-    "eval_samples_per_second": 313.086,
-    "eval_steps_per_second": 10.209
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.92511454202441,
+    "eval_loss": 0.20453155040740967,
+    "eval_runtime": 77.612,
+    "eval_samples_per_second": 334.652,
+    "eval_steps_per_second": 5.231
 }

runs/Dec11_16-31-38_ae1aa77fe319/events.out.tfevents.1733937178.ae1aa77fe319.236.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7519b7789df7a742416dfb0b0e20a49e2ecfae98589080fe75a164a8bf5d5fc4
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 60.0,
-    "total_flos": 4.3676735454019584e+17,
-    "train_loss": 0.1091307305627399,
-    "train_runtime": 203.4457,
-    "train_samples_per_second": 109.71,
-    "train_steps_per_second": 0.885
 }

 {
+    "epoch": 5.0,
+    "total_flos": 5.20812700794667e+18,
+    "train_loss": 0.32158288405491753,
+    "train_runtime": 2381.0335,
+    "train_samples_per_second": 111.775,
+    "train_steps_per_second": 0.437
 }

trainer_state.json CHANGED Viewed

@@ -1,693 +1,800 @@
 {
-  "best_metric": 0.9565217391304348,
-  "best_model_checkpoint": "vit-msn-small-wbc-blur-detector/checkpoint-15",
-  "epoch": 60.0,
   "eval_steps": 500,
-  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.6304347826086957,
-      "eval_loss": 0.6141545176506042,
-      "eval_runtime": 0.3002,
-      "eval_samples_per_second": 306.507,
-      "eval_steps_per_second": 9.995,
-      "step": 3
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.8695652173913043,
-      "eval_loss": 0.3853473365306854,
-      "eval_runtime": 0.2807,
-      "eval_samples_per_second": 327.721,
-      "eval_steps_per_second": 10.687,
-      "step": 6
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.40699997544288635,
-      "eval_runtime": 0.2954,
-      "eval_samples_per_second": 311.393,
-      "eval_steps_per_second": 10.154,
-      "step": 9
     },
     {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 6.74481725692749,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.494,
-      "step": 10
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.1460711508989334,
-      "eval_runtime": 0.2916,
-      "eval_samples_per_second": 315.469,
-      "eval_steps_per_second": 10.287,
-      "step": 12
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.11890643835067749,
-      "eval_runtime": 0.2956,
-      "eval_samples_per_second": 311.209,
-      "eval_steps_per_second": 10.148,
-      "step": 15
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.15268591046333313,
-      "eval_runtime": 0.2919,
-      "eval_samples_per_second": 315.184,
-      "eval_steps_per_second": 10.278,
-      "step": 18
-    },
-    {
-      "epoch": 6.666666666666667,
-      "grad_norm": 32.091392517089844,
-      "learning_rate": 4.938271604938271e-05,
-      "loss": 0.2024,
-      "step": 20
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.9021739130434783,
-      "eval_loss": 0.3323056697845459,
-      "eval_runtime": 0.2758,
-      "eval_samples_per_second": 333.524,
-      "eval_steps_per_second": 10.876,
-      "step": 21
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.15201511979103088,
-      "eval_runtime": 0.2782,
-      "eval_samples_per_second": 330.705,
-      "eval_steps_per_second": 10.784,
-      "step": 24
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.1572241336107254,
-      "eval_runtime": 0.2775,
-      "eval_samples_per_second": 331.58,
-      "eval_steps_per_second": 10.812,
-      "step": 27
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 10.290038108825684,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 0.1419,
-      "step": 30
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.18135777115821838,
-      "eval_runtime": 0.2913,
-      "eval_samples_per_second": 315.861,
-      "eval_steps_per_second": 10.3,
-      "step": 30
     },
     {
-      "epoch": 11.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.17784903943538666,
-      "eval_runtime": 0.2749,
-      "eval_samples_per_second": 334.701,
-      "eval_steps_per_second": 10.914,
-      "step": 33
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.15048673748970032,
-      "eval_runtime": 0.2937,
-      "eval_samples_per_second": 313.271,
-      "eval_steps_per_second": 10.215,
-      "step": 36
     },
     {
-      "epoch": 13.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.1890527755022049,
-      "eval_runtime": 0.3016,
-      "eval_samples_per_second": 305.089,
-      "eval_steps_per_second": 9.949,
-      "step": 39
     },
     {
-      "epoch": 13.333333333333334,
-      "grad_norm": 6.0901970863342285,
-      "learning_rate": 4.3209876543209875e-05,
-      "loss": 0.1053,
-      "step": 40
     },
     {
-      "epoch": 14.0,
-      "eval_accuracy": 0.7934782608695652,
-      "eval_loss": 0.7274413108825684,
-      "eval_runtime": 0.272,
-      "eval_samples_per_second": 338.198,
-      "eval_steps_per_second": 11.028,
-      "step": 42
     },
     {
-      "epoch": 15.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.2668982148170471,
-      "eval_runtime": 0.2934,
-      "eval_samples_per_second": 313.551,
-      "eval_steps_per_second": 10.224,
-      "step": 45
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.22397232055664062,
-      "eval_runtime": 0.3087,
-      "eval_samples_per_second": 298.059,
-      "eval_steps_per_second": 9.719,
-      "step": 48
     },
     {
-      "epoch": 16.666666666666668,
-      "grad_norm": 7.414670467376709,
-      "learning_rate": 4.012345679012346e-05,
-      "loss": 0.3044,
-      "step": 50
     },
     {
-      "epoch": 17.0,
-      "eval_accuracy": 0.8913043478260869,
-      "eval_loss": 0.3497091829776764,
-      "eval_runtime": 0.2758,
-      "eval_samples_per_second": 333.612,
-      "eval_steps_per_second": 10.879,
-      "step": 51
     },
     {
-      "epoch": 18.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.2208346724510193,
-      "eval_runtime": 0.274,
-      "eval_samples_per_second": 335.712,
-      "eval_steps_per_second": 10.947,
-      "step": 54
     },
     {
-      "epoch": 19.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.17329861223697662,
-      "eval_runtime": 0.285,
-      "eval_samples_per_second": 322.844,
-      "eval_steps_per_second": 10.528,
-      "step": 57
     },
     {
-      "epoch": 20.0,
-      "grad_norm": 5.56092643737793,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.151,
-      "step": 60
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.9239130434782609,
-      "eval_loss": 0.20381057262420654,
-      "eval_runtime": 0.2821,
-      "eval_samples_per_second": 326.07,
-      "eval_steps_per_second": 10.633,
-      "step": 60
     },
     {
-      "epoch": 21.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.12818782031536102,
-      "eval_runtime": 0.2765,
-      "eval_samples_per_second": 332.708,
-      "eval_steps_per_second": 10.849,
-      "step": 63
     },
     {
-      "epoch": 22.0,
-      "eval_accuracy": 0.9239130434782609,
-      "eval_loss": 0.3231411874294281,
-      "eval_runtime": 0.3046,
-      "eval_samples_per_second": 302.028,
-      "eval_steps_per_second": 9.849,
-      "step": 66
     },
     {
-      "epoch": 23.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.15651515126228333,
-      "eval_runtime": 0.296,
-      "eval_samples_per_second": 310.773,
-      "eval_steps_per_second": 10.134,
-      "step": 69
     },
     {
-      "epoch": 23.333333333333332,
-      "grad_norm": 6.024500370025635,
-      "learning_rate": 3.395061728395062e-05,
-      "loss": 0.0875,
-      "step": 70
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.19810304045677185,
-      "eval_runtime": 0.3099,
-      "eval_samples_per_second": 296.864,
-      "eval_steps_per_second": 9.68,
-      "step": 72
     },
     {
-      "epoch": 25.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.19737455248832703,
-      "eval_runtime": 0.2724,
-      "eval_samples_per_second": 337.687,
-      "eval_steps_per_second": 11.012,
-      "step": 75
     },
     {
-      "epoch": 26.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.20447766780853271,
-      "eval_runtime": 0.2918,
-      "eval_samples_per_second": 315.301,
-      "eval_steps_per_second": 10.282,
-      "step": 78
     },
     {
-      "epoch": 26.666666666666668,
-      "grad_norm": 4.34276008605957,
-      "learning_rate": 3.08641975308642e-05,
-      "loss": 0.0851,
-      "step": 80
     },
     {
-      "epoch": 27.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.1840977817773819,
-      "eval_runtime": 0.2713,
-      "eval_samples_per_second": 339.118,
-      "eval_steps_per_second": 11.058,
-      "step": 81
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.20613481104373932,
-      "eval_runtime": 0.2718,
-      "eval_samples_per_second": 338.491,
-      "eval_steps_per_second": 11.038,
-      "step": 84
     },
     {
-      "epoch": 29.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.20765484869480133,
-      "eval_runtime": 0.2926,
-      "eval_samples_per_second": 314.467,
-      "eval_steps_per_second": 10.254,
-      "step": 87
     },
     {
-      "epoch": 30.0,
-      "grad_norm": 2.4659526348114014,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.046,
-      "step": 90
     },
     {
-      "epoch": 30.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.21993966400623322,
-      "eval_runtime": 0.2942,
-      "eval_samples_per_second": 312.716,
-      "eval_steps_per_second": 10.197,
-      "step": 90
     },
     {
-      "epoch": 31.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.2038496881723404,
-      "eval_runtime": 0.3027,
-      "eval_samples_per_second": 303.903,
-      "eval_steps_per_second": 9.91,
-      "step": 93
     },
     {
-      "epoch": 32.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.20770704746246338,
-      "eval_runtime": 0.281,
-      "eval_samples_per_second": 327.359,
-      "eval_steps_per_second": 10.675,
-      "step": 96
     },
     {
-      "epoch": 33.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.18766026198863983,
-      "eval_runtime": 0.2757,
-      "eval_samples_per_second": 333.675,
-      "eval_steps_per_second": 10.881,
-      "step": 99
     },
     {
-      "epoch": 33.333333333333336,
-      "grad_norm": 1.9909802675247192,
-      "learning_rate": 2.4691358024691357e-05,
-      "loss": 0.0533,
-      "step": 100
     },
     {
-      "epoch": 34.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.2383040189743042,
-      "eval_runtime": 0.2759,
-      "eval_samples_per_second": 333.465,
-      "eval_steps_per_second": 10.874,
-      "step": 102
     },
     {
-      "epoch": 35.0,
-      "eval_accuracy": 0.9239130434782609,
-      "eval_loss": 0.25708499550819397,
-      "eval_runtime": 0.2913,
-      "eval_samples_per_second": 315.812,
-      "eval_steps_per_second": 10.298,
-      "step": 105
     },
     {
-      "epoch": 36.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.23297645151615143,
-      "eval_runtime": 0.2763,
-      "eval_samples_per_second": 332.955,
-      "eval_steps_per_second": 10.857,
-      "step": 108
     },
     {
-      "epoch": 36.666666666666664,
-      "grad_norm": 9.732784271240234,
-      "learning_rate": 2.1604938271604937e-05,
-      "loss": 0.0451,
-      "step": 110
     },
     {
-      "epoch": 37.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.24198591709136963,
-      "eval_runtime": 0.2748,
-      "eval_samples_per_second": 334.8,
-      "eval_steps_per_second": 10.917,
-      "step": 111
     },
     {
-      "epoch": 38.0,
-      "eval_accuracy": 0.9239130434782609,
-      "eval_loss": 0.2881980240345001,
-      "eval_runtime": 0.291,
-      "eval_samples_per_second": 316.1,
-      "eval_steps_per_second": 10.308,
-      "step": 114
     },
     {
-      "epoch": 39.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.23858585953712463,
-      "eval_runtime": 0.2975,
-      "eval_samples_per_second": 309.204,
-      "eval_steps_per_second": 10.083,
-      "step": 117
     },
     {
-      "epoch": 40.0,
-      "grad_norm": 1.4663212299346924,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.0401,
-      "step": 120
     },
     {
-      "epoch": 40.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.2512564957141876,
-      "eval_runtime": 0.2721,
-      "eval_samples_per_second": 338.098,
-      "eval_steps_per_second": 11.025,
-      "step": 120
     },
     {
-      "epoch": 41.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.2671690285205841,
-      "eval_runtime": 0.2823,
-      "eval_samples_per_second": 325.908,
-      "eval_steps_per_second": 10.627,
-      "step": 123
     },
     {
-      "epoch": 42.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.2950490117073059,
-      "eval_runtime": 0.2748,
-      "eval_samples_per_second": 334.771,
-      "eval_steps_per_second": 10.916,
-      "step": 126
     },
     {
-      "epoch": 43.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.32324346899986267,
-      "eval_runtime": 0.2744,
-      "eval_samples_per_second": 335.279,
-      "eval_steps_per_second": 10.933,
-      "step": 129
     },
     {
-      "epoch": 43.333333333333336,
-      "grad_norm": 6.655643463134766,
-      "learning_rate": 1.54320987654321e-05,
-      "loss": 0.0329,
-      "step": 130
     },
     {
-      "epoch": 44.0,
-      "eval_accuracy": 0.9239130434782609,
-      "eval_loss": 0.3711928427219391,
-      "eval_runtime": 0.2829,
-      "eval_samples_per_second": 325.258,
-      "eval_steps_per_second": 10.606,
-      "step": 132
     },
     {
-      "epoch": 45.0,
-      "eval_accuracy": 0.9347826086956522,
-      "eval_loss": 0.35285505652427673,
-      "eval_runtime": 0.2761,
-      "eval_samples_per_second": 333.224,
-      "eval_steps_per_second": 10.866,
-      "step": 135
     },
     {
-      "epoch": 46.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.29050472378730774,
-      "eval_runtime": 0.292,
-      "eval_samples_per_second": 315.053,
-      "eval_steps_per_second": 10.273,
-      "step": 138
     },
     {
-      "epoch": 46.666666666666664,
-      "grad_norm": 5.307190895080566,
-      "learning_rate": 1.2345679012345678e-05,
-      "loss": 0.0519,
-      "step": 140
     },
     {
-      "epoch": 47.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.26701638102531433,
-      "eval_runtime": 0.3064,
-      "eval_samples_per_second": 300.308,
-      "eval_steps_per_second": 9.793,
-      "step": 141
     },
     {
-      "epoch": 48.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.2628593444824219,
-      "eval_runtime": 0.2788,
-      "eval_samples_per_second": 330.007,
-      "eval_steps_per_second": 10.761,
-      "step": 144
     },
     {
-      "epoch": 49.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.2760757505893707,
-      "eval_runtime": 0.2738,
-      "eval_samples_per_second": 336.03,
-      "eval_steps_per_second": 10.957,
-      "step": 147
     },
     {
-      "epoch": 50.0,
-      "grad_norm": 4.582086563110352,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.0281,
-      "step": 150
     },
     {
-      "epoch": 50.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.3040381669998169,
-      "eval_runtime": 0.2766,
-      "eval_samples_per_second": 332.655,
-      "eval_steps_per_second": 10.847,
-      "step": 150
     },
     {
-      "epoch": 51.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.31911370158195496,
-      "eval_runtime": 0.2968,
-      "eval_samples_per_second": 309.998,
-      "eval_steps_per_second": 10.109,
-      "step": 153
     },
     {
-      "epoch": 52.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.32143697142601013,
-      "eval_runtime": 0.3072,
-      "eval_samples_per_second": 299.499,
-      "eval_steps_per_second": 9.766,
-      "step": 156
     },
     {
-      "epoch": 53.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.31315502524375916,
-      "eval_runtime": 0.3028,
-      "eval_samples_per_second": 303.834,
-      "eval_steps_per_second": 9.908,
-      "step": 159
     },
     {
-      "epoch": 53.333333333333336,
-      "grad_norm": 4.059518814086914,
-      "learning_rate": 6.172839506172839e-06,
-      "loss": 0.028,
-      "step": 160
     },
     {
-      "epoch": 54.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.31154391169548035,
-      "eval_runtime": 0.2938,
-      "eval_samples_per_second": 313.128,
-      "eval_steps_per_second": 10.211,
-      "step": 162
     },
     {
-      "epoch": 55.0,
-      "eval_accuracy": 0.9565217391304348,
-      "eval_loss": 0.31155669689178467,
-      "eval_runtime": 0.2755,
-      "eval_samples_per_second": 333.966,
-      "eval_steps_per_second": 10.89,
-      "step": 165
     },
     {
-      "epoch": 56.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.3224737346172333,
-      "eval_runtime": 0.302,
-      "eval_samples_per_second": 304.679,
-      "eval_steps_per_second": 9.935,
-      "step": 168
     },
     {
-      "epoch": 56.666666666666664,
-      "grad_norm": 9.457426071166992,
-      "learning_rate": 3.0864197530864196e-06,
-      "loss": 0.0361,
-      "step": 170
     },
     {
-      "epoch": 57.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.3235200047492981,
-      "eval_runtime": 0.2841,
-      "eval_samples_per_second": 323.798,
-      "eval_steps_per_second": 10.559,
-      "step": 171
     },
     {
-      "epoch": 58.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.3200394809246063,
-      "eval_runtime": 0.2914,
-      "eval_samples_per_second": 315.666,
-      "eval_steps_per_second": 10.293,
-      "step": 174
     },
     {
-      "epoch": 59.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.318322092294693,
-      "eval_runtime": 0.2746,
-      "eval_samples_per_second": 335.002,
-      "eval_steps_per_second": 10.924,
-      "step": 177
     },
     {
-      "epoch": 60.0,
-      "grad_norm": 9.799005508422852,
       "learning_rate": 0.0,
-      "loss": 0.0312,
-      "step": 180
     },
     {
-      "epoch": 60.0,
-      "eval_accuracy": 0.9456521739130435,
-      "eval_loss": 0.31814736127853394,
-      "eval_runtime": 0.2764,
-      "eval_samples_per_second": 332.886,
-      "eval_steps_per_second": 10.855,
-      "step": 180
     },
     {
-      "epoch": 60.0,
-      "step": 180,
-      "total_flos": 4.3676735454019584e+17,
-      "train_loss": 0.1091307305627399,
-      "train_runtime": 203.4457,
-      "train_samples_per_second": 109.71,
-      "train_steps_per_second": 0.885
     }
   ],
   "logging_steps": 10,
-  "max_steps": 180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 60,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -701,8 +808,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.3676735454019584e+17,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.92511454202441,
+  "best_model_checkpoint": "vit-msn-small-wbc-blur-detector/checkpoint-1040",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 1040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04807692307692308,
+      "grad_norm": 8.808553695678711,
+      "learning_rate": 4.807692307692308e-06,
+      "loss": 0.5649,
+      "step": 10
     },
     {
+      "epoch": 0.09615384615384616,
+      "grad_norm": 10.409209251403809,
+      "learning_rate": 9.615384615384616e-06,
+      "loss": 0.5411,
+      "step": 20
     },
     {
+      "epoch": 0.14423076923076922,
+      "grad_norm": 11.638080596923828,
+      "learning_rate": 1.4423076923076923e-05,
+      "loss": 0.4686,
+      "step": 30
     },
     {
+      "epoch": 0.19230769230769232,
+      "grad_norm": 8.448880195617676,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.467,
+      "step": 40
     },
     {
+      "epoch": 0.2403846153846154,
+      "grad_norm": 10.3389253616333,
+      "learning_rate": 2.4038461538461542e-05,
+      "loss": 0.4375,
+      "step": 50
     },
     {
+      "epoch": 0.28846153846153844,
+      "grad_norm": 14.958161354064941,
+      "learning_rate": 2.8846153846153845e-05,
+      "loss": 0.4374,
+      "step": 60
     },
     {
+      "epoch": 0.33653846153846156,
+      "grad_norm": 5.999127388000488,
+      "learning_rate": 3.365384615384616e-05,
+      "loss": 0.4244,
+      "step": 70
     },
     {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 15.743879318237305,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.4003,
+      "step": 80
     },
     {
+      "epoch": 0.4326923076923077,
+      "grad_norm": 11.51312255859375,
+      "learning_rate": 4.326923076923077e-05,
+      "loss": 0.4035,
+      "step": 90
     },
     {
+      "epoch": 0.4807692307692308,
+      "grad_norm": 11.792448043823242,
+      "learning_rate": 4.8076923076923084e-05,
+      "loss": 0.3758,
+      "step": 100
     },
     {
+      "epoch": 0.5288461538461539,
+      "grad_norm": 16.453128814697266,
+      "learning_rate": 4.9679487179487185e-05,
+      "loss": 0.4207,
+      "step": 110
     },
     {
+      "epoch": 0.5769230769230769,
+      "grad_norm": 12.526341438293457,
+      "learning_rate": 4.9145299145299147e-05,
+      "loss": 0.4373,
+      "step": 120
     },
     {
+      "epoch": 0.625,
+      "grad_norm": 14.725676536560059,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.3985,
+      "step": 130
     },
     {
+      "epoch": 0.6730769230769231,
+      "grad_norm": 8.387413024902344,
+      "learning_rate": 4.8076923076923084e-05,
+      "loss": 0.3891,
+      "step": 140
     },
     {
+      "epoch": 0.7211538461538461,
+      "grad_norm": 9.76562213897705,
+      "learning_rate": 4.7542735042735045e-05,
+      "loss": 0.3595,
+      "step": 150
     },
     {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 6.494562149047852,
+      "learning_rate": 4.700854700854701e-05,
+      "loss": 0.3769,
+      "step": 160
     },
     {
+      "epoch": 0.8173076923076923,
+      "grad_norm": 4.907495021820068,
+      "learning_rate": 4.6474358974358976e-05,
+      "loss": 0.3606,
+      "step": 170
     },
     {
+      "epoch": 0.8653846153846154,
+      "grad_norm": 10.716683387756348,
+      "learning_rate": 4.594017094017094e-05,
+      "loss": 0.4022,
+      "step": 180
     },
     {
+      "epoch": 0.9134615384615384,
+      "grad_norm": 4.651486873626709,
+      "learning_rate": 4.5405982905982906e-05,
+      "loss": 0.3586,
+      "step": 190
     },
     {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 9.122421264648438,
+      "learning_rate": 4.4871794871794874e-05,
+      "loss": 0.3471,
+      "step": 200
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8939668116890617,
+      "eval_loss": 0.29600855708122253,
+      "eval_runtime": 79.6532,
+      "eval_samples_per_second": 326.076,
+      "eval_steps_per_second": 5.097,
+      "step": 208
     },
     {
+      "epoch": 1.0096153846153846,
+      "grad_norm": 4.985302448272705,
+      "learning_rate": 4.4337606837606836e-05,
+      "loss": 0.3561,
+      "step": 210
     },
     {
+      "epoch": 1.0576923076923077,
+      "grad_norm": 8.867368698120117,
+      "learning_rate": 4.3803418803418805e-05,
+      "loss": 0.3629,
+      "step": 220
     },
     {
+      "epoch": 1.1057692307692308,
+      "grad_norm": 5.275181770324707,
+      "learning_rate": 4.326923076923077e-05,
+      "loss": 0.3352,
+      "step": 230
     },
     {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 7.328935146331787,
+      "learning_rate": 4.2735042735042735e-05,
+      "loss": 0.3593,
+      "step": 240
     },
     {
+      "epoch": 1.2019230769230769,
+      "grad_norm": 7.934610366821289,
+      "learning_rate": 4.2200854700854704e-05,
+      "loss": 0.3651,
+      "step": 250
     },
     {
+      "epoch": 1.25,
+      "grad_norm": 4.802842140197754,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.3517,
+      "step": 260
     },
     {
+      "epoch": 1.2980769230769231,
+      "grad_norm": 5.414445400238037,
+      "learning_rate": 4.1132478632478634e-05,
+      "loss": 0.3527,
+      "step": 270
     },
     {
+      "epoch": 1.3461538461538463,
+      "grad_norm": 6.663522243499756,
+      "learning_rate": 4.05982905982906e-05,
+      "loss": 0.3397,
+      "step": 280
     },
     {
+      "epoch": 1.3942307692307692,
+      "grad_norm": 4.669881820678711,
+      "learning_rate": 4.006410256410257e-05,
+      "loss": 0.3378,
+      "step": 290
     },
     {
+      "epoch": 1.4423076923076923,
+      "grad_norm": 5.708807945251465,
+      "learning_rate": 3.952991452991453e-05,
+      "loss": 0.3119,
+      "step": 300
     },
     {
+      "epoch": 1.4903846153846154,
+      "grad_norm": 5.911713600158691,
+      "learning_rate": 3.89957264957265e-05,
+      "loss": 0.329,
+      "step": 310
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 4.569310188293457,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.3348,
+      "step": 320
+    },
+    {
+      "epoch": 1.5865384615384617,
+      "grad_norm": 6.366770267486572,
+      "learning_rate": 3.7927350427350425e-05,
+      "loss": 0.3268,
+      "step": 330
+    },
+    {
+      "epoch": 1.6346153846153846,
+      "grad_norm": 4.477969646453857,
+      "learning_rate": 3.739316239316239e-05,
+      "loss": 0.3327,
+      "step": 340
+    },
+    {
+      "epoch": 1.6826923076923077,
+      "grad_norm": 5.906105995178223,
+      "learning_rate": 3.685897435897436e-05,
+      "loss": 0.316,
+      "step": 350
+    },
+    {
+      "epoch": 1.7307692307692308,
+      "grad_norm": 4.78982400894165,
+      "learning_rate": 3.6324786324786323e-05,
+      "loss": 0.339,
+      "step": 360
+    },
+    {
+      "epoch": 1.7788461538461537,
+      "grad_norm": 4.8963117599487305,
+      "learning_rate": 3.579059829059829e-05,
+      "loss": 0.3247,
+      "step": 370
+    },
+    {
+      "epoch": 1.8269230769230769,
+      "grad_norm": 4.7771501541137695,
+      "learning_rate": 3.525641025641026e-05,
+      "loss": 0.3168,
+      "step": 380
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 5.485278606414795,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.3107,
+      "step": 390
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 5.954066753387451,
+      "learning_rate": 3.418803418803419e-05,
+      "loss": 0.3196,
+      "step": 400
     },
     {
+      "epoch": 1.9711538461538463,
+      "grad_norm": 4.826352119445801,
+      "learning_rate": 3.365384615384616e-05,
+      "loss": 0.3113,
+      "step": 410
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9087898972009394,
+      "eval_loss": 0.2550640106201172,
+      "eval_runtime": 77.7682,
+      "eval_samples_per_second": 333.98,
+      "eval_steps_per_second": 5.221,
+      "step": 416
     },
     {
+      "epoch": 2.019230769230769,
+      "grad_norm": 4.100191116333008,
+      "learning_rate": 3.311965811965812e-05,
+      "loss": 0.3039,
+      "step": 420
     },
     {
+      "epoch": 2.0673076923076925,
+      "grad_norm": 5.670529842376709,
+      "learning_rate": 3.258547008547009e-05,
+      "loss": 0.3228,
+      "step": 430
+    },
+    {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 4.010565757751465,
+      "learning_rate": 3.205128205128206e-05,
+      "loss": 0.3096,
+      "step": 440
+    },
+    {
+      "epoch": 2.1634615384615383,
+      "grad_norm": 5.74422550201416,
+      "learning_rate": 3.151709401709402e-05,
+      "loss": 0.3119,
+      "step": 450
+    },
+    {
+      "epoch": 2.2115384615384617,
+      "grad_norm": 3.280287742614746,
+      "learning_rate": 3.098290598290599e-05,
+      "loss": 0.3305,
+      "step": 460
+    },
+    {
+      "epoch": 2.2596153846153846,
+      "grad_norm": 4.927590847015381,
+      "learning_rate": 3.0448717948717947e-05,
+      "loss": 0.3034,
+      "step": 470
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 3.297640562057495,
+      "learning_rate": 2.9914529914529915e-05,
+      "loss": 0.3081,
+      "step": 480
+    },
+    {
+      "epoch": 2.355769230769231,
+      "grad_norm": 4.635345458984375,
+      "learning_rate": 2.9380341880341884e-05,
+      "loss": 0.3096,
+      "step": 490
+    },
+    {
+      "epoch": 2.4038461538461537,
+      "grad_norm": 4.222609519958496,
+      "learning_rate": 2.8846153846153845e-05,
+      "loss": 0.3242,
+      "step": 500
+    },
+    {
+      "epoch": 2.451923076923077,
+      "grad_norm": 5.433651924133301,
+      "learning_rate": 2.8311965811965814e-05,
+      "loss": 0.2856,
+      "step": 510
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 3.512269973754883,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.3165,
+      "step": 520
     },
     {
+      "epoch": 2.5480769230769234,
+      "grad_norm": 4.383204936981201,
+      "learning_rate": 2.724358974358974e-05,
+      "loss": 0.3309,
+      "step": 530
     },
     {
+      "epoch": 2.5961538461538463,
+      "grad_norm": 3.9306111335754395,
+      "learning_rate": 2.670940170940171e-05,
+      "loss": 0.3012,
+      "step": 540
     },
     {
+      "epoch": 2.644230769230769,
+      "grad_norm": 4.230567455291748,
+      "learning_rate": 2.6175213675213678e-05,
+      "loss": 0.2931,
+      "step": 550
     },
     {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 4.904375076293945,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 0.3042,
+      "step": 560
     },
     {
+      "epoch": 2.7403846153846154,
+      "grad_norm": 4.499465465545654,
+      "learning_rate": 2.5106837606837608e-05,
+      "loss": 0.2904,
+      "step": 570
     },
     {
+      "epoch": 2.7884615384615383,
+      "grad_norm": 4.0428242683410645,
+      "learning_rate": 2.4572649572649573e-05,
+      "loss": 0.3019,
+      "step": 580
     },
     {
+      "epoch": 2.8365384615384617,
+      "grad_norm": 5.506063938140869,
+      "learning_rate": 2.4038461538461542e-05,
+      "loss": 0.2976,
+      "step": 590
     },
     {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 3.252035617828369,
+      "learning_rate": 2.3504273504273504e-05,
+      "loss": 0.2874,
+      "step": 600
     },
     {
+      "epoch": 2.9326923076923075,
+      "grad_norm": 3.8732314109802246,
+      "learning_rate": 2.297008547008547e-05,
+      "loss": 0.3022,
+      "step": 610
     },
     {
+      "epoch": 2.980769230769231,
+      "grad_norm": 4.38186502456665,
+      "learning_rate": 2.2435897435897437e-05,
+      "loss": 0.3104,
+      "step": 620
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9212258884225927,
+      "eval_loss": 0.21063366532325745,
+      "eval_runtime": 77.9718,
+      "eval_samples_per_second": 333.107,
+      "eval_steps_per_second": 5.207,
+      "step": 624
     },
     {
+      "epoch": 3.0288461538461537,
+      "grad_norm": 3.352865695953369,
+      "learning_rate": 2.1901709401709402e-05,
+      "loss": 0.2898,
+      "step": 630
     },
     {
+      "epoch": 3.076923076923077,
+      "grad_norm": 4.9008402824401855,
+      "learning_rate": 2.1367521367521368e-05,
+      "loss": 0.326,
+      "step": 640
     },
     {
+      "epoch": 3.125,
+      "grad_norm": 5.130583763122559,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.293,
+      "step": 650
     },
     {
+      "epoch": 3.173076923076923,
+      "grad_norm": 4.387807369232178,
+      "learning_rate": 2.02991452991453e-05,
+      "loss": 0.2777,
+      "step": 660
     },
     {
+      "epoch": 3.2211538461538463,
+      "grad_norm": 5.279751300811768,
+      "learning_rate": 1.9764957264957266e-05,
+      "loss": 0.3026,
+      "step": 670
     },
     {
+      "epoch": 3.269230769230769,
+      "grad_norm": 3.5947065353393555,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.2881,
+      "step": 680
     },
     {
+      "epoch": 3.3173076923076925,
+      "grad_norm": 3.5021965503692627,
+      "learning_rate": 1.8696581196581197e-05,
+      "loss": 0.277,
+      "step": 690
     },
     {
+      "epoch": 3.3653846153846154,
+      "grad_norm": 5.785918712615967,
+      "learning_rate": 1.8162393162393162e-05,
+      "loss": 0.3025,
+      "step": 700
     },
     {
+      "epoch": 3.4134615384615383,
+      "grad_norm": 3.405780553817749,
+      "learning_rate": 1.762820512820513e-05,
+      "loss": 0.2825,
+      "step": 710
     },
     {
+      "epoch": 3.4615384615384617,
+      "grad_norm": 3.8835082054138184,
+      "learning_rate": 1.7094017094017095e-05,
+      "loss": 0.2754,
+      "step": 720
     },
     {
+      "epoch": 3.5096153846153846,
+      "grad_norm": 3.6545193195343018,
+      "learning_rate": 1.655982905982906e-05,
+      "loss": 0.2736,
+      "step": 730
     },
     {
+      "epoch": 3.5576923076923075,
+      "grad_norm": 3.788748025894165,
+      "learning_rate": 1.602564102564103e-05,
+      "loss": 0.3084,
+      "step": 740
     },
     {
+      "epoch": 3.605769230769231,
+      "grad_norm": 3.0023396015167236,
+      "learning_rate": 1.5491452991452994e-05,
+      "loss": 0.2797,
+      "step": 750
     },
     {
+      "epoch": 3.6538461538461537,
+      "grad_norm": 3.6981606483459473,
+      "learning_rate": 1.4957264957264958e-05,
+      "loss": 0.278,
+      "step": 760
     },
     {
+      "epoch": 3.7019230769230766,
+      "grad_norm": 4.383445739746094,
+      "learning_rate": 1.4423076923076923e-05,
+      "loss": 0.2602,
+      "step": 770
     },
     {
+      "epoch": 3.75,
+      "grad_norm": 4.581905364990234,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.2877,
+      "step": 780
     },
     {
+      "epoch": 3.7980769230769234,
+      "grad_norm": 4.475015640258789,
+      "learning_rate": 1.3354700854700855e-05,
+      "loss": 0.2733,
+      "step": 790
     },
     {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 4.552759170532227,
+      "learning_rate": 1.282051282051282e-05,
+      "loss": 0.2927,
+      "step": 800
     },
     {
+      "epoch": 3.894230769230769,
+      "grad_norm": 4.798213958740234,
+      "learning_rate": 1.2286324786324787e-05,
+      "loss": 0.2756,
+      "step": 810
     },
     {
+      "epoch": 3.9423076923076925,
+      "grad_norm": 3.405367136001587,
+      "learning_rate": 1.1752136752136752e-05,
+      "loss": 0.2893,
+      "step": 820
     },
     {
+      "epoch": 3.9903846153846154,
+      "grad_norm": 5.285249710083008,
+      "learning_rate": 1.1217948717948719e-05,
+      "loss": 0.2855,
+      "step": 830
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9221114234012243,
+      "eval_loss": 0.21014131605625153,
+      "eval_runtime": 78.3645,
+      "eval_samples_per_second": 331.438,
+      "eval_steps_per_second": 5.181,
+      "step": 832
     },
     {
+      "epoch": 4.038461538461538,
+      "grad_norm": 4.0211920738220215,
+      "learning_rate": 1.0683760683760684e-05,
+      "loss": 0.2639,
+      "step": 840
     },
     {
+      "epoch": 4.086538461538462,
+      "grad_norm": 3.0746471881866455,
+      "learning_rate": 1.014957264957265e-05,
+      "loss": 0.2866,
+      "step": 850
+    },
+    {
+      "epoch": 4.134615384615385,
+      "grad_norm": 3.945941686630249,
+      "learning_rate": 9.615384615384616e-06,
+      "loss": 0.2624,
+      "step": 860
+    },
+    {
+      "epoch": 4.1826923076923075,
+      "grad_norm": 3.996899366378784,
+      "learning_rate": 9.081196581196581e-06,
+      "loss": 0.2795,
+      "step": 870
+    },
+    {
+      "epoch": 4.230769230769231,
+      "grad_norm": 3.078308582305908,
+      "learning_rate": 8.547008547008548e-06,
+      "loss": 0.2662,
+      "step": 880
+    },
+    {
+      "epoch": 4.278846153846154,
+      "grad_norm": 4.386013507843018,
+      "learning_rate": 8.012820512820515e-06,
+      "loss": 0.2607,
+      "step": 890
+    },
+    {
+      "epoch": 4.326923076923077,
+      "grad_norm": 4.05147647857666,
+      "learning_rate": 7.478632478632479e-06,
+      "loss": 0.2837,
+      "step": 900
+    },
+    {
+      "epoch": 4.375,
+      "grad_norm": 3.7638943195343018,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.2588,
+      "step": 910
+    },
+    {
+      "epoch": 4.423076923076923,
+      "grad_norm": 3.4808619022369385,
+      "learning_rate": 6.41025641025641e-06,
+      "loss": 0.2709,
+      "step": 920
+    },
+    {
+      "epoch": 4.471153846153846,
+      "grad_norm": 4.455379486083984,
+      "learning_rate": 5.876068376068376e-06,
+      "loss": 0.2743,
+      "step": 930
+    },
+    {
+      "epoch": 4.519230769230769,
+      "grad_norm": 3.4500174522399902,
+      "learning_rate": 5.341880341880342e-06,
+      "loss": 0.2501,
+      "step": 940
+    },
+    {
+      "epoch": 4.5673076923076925,
+      "grad_norm": 3.780879020690918,
+      "learning_rate": 4.807692307692308e-06,
+      "loss": 0.2666,
+      "step": 950
     },
     {
+      "epoch": 4.615384615384615,
+      "grad_norm": 3.8015003204345703,
+      "learning_rate": 4.273504273504274e-06,
+      "loss": 0.2516,
+      "step": 960
     },
     {
+      "epoch": 4.663461538461538,
+      "grad_norm": 3.866867780685425,
+      "learning_rate": 3.7393162393162394e-06,
+      "loss": 0.2673,
+      "step": 970
     },
     {
+      "epoch": 4.711538461538462,
+      "grad_norm": 3.153127431869507,
+      "learning_rate": 3.205128205128205e-06,
+      "loss": 0.2472,
+      "step": 980
     },
     {
+      "epoch": 4.759615384615385,
+      "grad_norm": 3.0481035709381104,
+      "learning_rate": 2.670940170940171e-06,
+      "loss": 0.2669,
+      "step": 990
+    },
+    {
+      "epoch": 4.8076923076923075,
+      "grad_norm": 3.5989151000976562,
+      "learning_rate": 2.136752136752137e-06,
+      "loss": 0.2748,
+      "step": 1000
+    },
+    {
+      "epoch": 4.855769230769231,
+      "grad_norm": 4.3564839363098145,
+      "learning_rate": 1.6025641025641025e-06,
+      "loss": 0.2651,
+      "step": 1010
+    },
+    {
+      "epoch": 4.903846153846154,
+      "grad_norm": 3.6109776496887207,
+      "learning_rate": 1.0683760683760685e-06,
+      "loss": 0.2631,
+      "step": 1020
+    },
+    {
+      "epoch": 4.951923076923077,
+      "grad_norm": 3.1704578399658203,
+      "learning_rate": 5.341880341880342e-07,
+      "loss": 0.2665,
+      "step": 1030
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.165510654449463,
       "learning_rate": 0.0,
+      "loss": 0.2497,
+      "step": 1040
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.92511454202441,
+      "eval_loss": 0.20453155040740967,
+      "eval_runtime": 78.1441,
+      "eval_samples_per_second": 332.373,
+      "eval_steps_per_second": 5.196,
+      "step": 1040
     },
     {
+      "epoch": 5.0,
+      "step": 1040,
+      "total_flos": 5.20812700794667e+18,
+      "train_loss": 0.32158288405491753,
+      "train_runtime": 2381.0335,
+      "train_samples_per_second": 111.775,
+      "train_steps_per_second": 0.437
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1040,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5.20812700794667e+18,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }