matthieulel
/

dinov2-small-imagenet1k-1-layer-finetuned-galaxy10-decals

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/dinov2-small-imagenet1k-1-layer
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -18,13 +20,13 @@ should probably proofread and complete it, then remove this comment. -->
 # dinov2-small-imagenet1k-1-layer-finetuned-galaxy10-decals
-This model is a fine-tuned version of [facebook/dinov2-small-imagenet1k-1-layer](https://huggingface.co/facebook/dinov2-small-imagenet1k-1-layer) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5429
-- Accuracy: 0.8512
-- Precision: 0.8489
-- Recall: 0.8512
-- F1: 0.8495
 ## Model description

 license: apache-2.0
 base_model: facebook/dinov2-small-imagenet1k-1-layer
 tags:
+- image-classification
+- vision
 - generated_from_trainer
 metrics:
 - accuracy
 # dinov2-small-imagenet1k-1-layer-finetuned-galaxy10-decals
+This model is a fine-tuned version of [facebook/dinov2-small-imagenet1k-1-layer](https://huggingface.co/facebook/dinov2-small-imagenet1k-1-layer) on the matthieulel/galaxy10_decals dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5373
+- Accuracy: 0.8563
+- Precision: 0.8536
+- Recall: 0.8563
+- F1: 0.8543
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,15 @@
 {
-    "epoch": 19.879759519038075,
-    "eval_accuracy": 0.8714768883878241,
-    "eval_loss": 0.42415910959243774,
-    "eval_runtime": 16.3755,
-    "eval_samples_per_second": 108.332,
-    "eval_steps_per_second": 3.42,
-    "total_flos": 8.259382470828884e+18,
-    "train_loss": 0.5719680822664691,
-    "train_runtime": 7149.119,
-    "train_samples_per_second": 44.654,
-    "train_steps_per_second": 0.347
 }

 {
+    "epoch": 29.76,
+    "eval_accuracy": 0.8562570462232244,
+    "eval_f1": 0.8543013145108364,
+    "eval_loss": 0.5373367667198181,
+    "eval_precision": 0.8535856101978109,
+    "eval_recall": 0.8562570462232244,
+    "eval_runtime": 9.4749,
+    "eval_samples_per_second": 187.232,
+    "eval_steps_per_second": 2.955,
+    "train_loss": 0.4955275515074371,
+    "train_runtime": 4173.3159,
+    "train_samples_per_second": 114.743,
+    "train_steps_per_second": 0.446
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,11 @@
 {
-    "epoch": 19.879759519038075,
-    "eval_accuracy": 0.8714768883878241,
-    "eval_loss": 0.42415910959243774,
-    "eval_runtime": 16.3755,
-    "eval_samples_per_second": 108.332,
-    "eval_steps_per_second": 3.42
 }

 {
+    "epoch": 29.76,
+    "eval_accuracy": 0.8562570462232244,
+    "eval_f1": 0.8543013145108364,
+    "eval_loss": 0.5373367667198181,
+    "eval_precision": 0.8535856101978109,
+    "eval_recall": 0.8562570462232244,
+    "eval_runtime": 9.4749,
+    "eval_samples_per_second": 187.232,
+    "eval_steps_per_second": 2.955
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,7 @@
 {
-    "epoch": 19.879759519038075,
-    "total_flos": 8.259382470828884e+18,
-    "train_loss": 0.5719680822664691,
-    "train_runtime": 7149.119,
-    "train_samples_per_second": 44.654,
-    "train_steps_per_second": 0.347
 }

 {
+    "epoch": 29.76,
+    "train_loss": 0.4955275515074371,
+    "train_runtime": 4173.3159,
+    "train_samples_per_second": 114.743,
+    "train_steps_per_second": 0.446
 }

trainer_state.json CHANGED Viewed

@@ -1,1946 +1,1506 @@
 {
-  "best_metric": 0.8714768883878241,
-  "best_model_checkpoint": "dinov2-small-imagenet1k-1-layer-finetuned-galaxy10-decals/checkpoint-1996",
-  "epoch": 19.879759519038075,
   "eval_steps": 500,
-  "global_step": 2480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.08016032064128256,
-      "grad_norm": 59.08690643310547,
-      "learning_rate": 2.0161290322580646e-06,
-      "loss": 2.8233,
       "step": 10
     },
     {
-      "epoch": 0.16032064128256512,
-      "grad_norm": 53.841739654541016,
-      "learning_rate": 4.032258064516129e-06,
-      "loss": 2.1402,
       "step": 20
     },
     {
-      "epoch": 0.24048096192384769,
-      "grad_norm": 64.50281524658203,
-      "learning_rate": 6.048387096774194e-06,
-      "loss": 1.8321,
       "step": 30
     },
     {
-      "epoch": 0.32064128256513025,
-      "grad_norm": 122.04541015625,
-      "learning_rate": 8.064516129032258e-06,
-      "loss": 1.5098,
       "step": 40
     },
     {
-      "epoch": 0.40080160320641284,
-      "grad_norm": 96.4590835571289,
-      "learning_rate": 1.0080645161290323e-05,
-      "loss": 1.3558,
       "step": 50
     },
     {
-      "epoch": 0.48096192384769537,
-      "grad_norm": 77.96562194824219,
-      "learning_rate": 1.2096774193548388e-05,
-      "loss": 1.2094,
       "step": 60
     },
     {
-      "epoch": 0.561122244488978,
-      "grad_norm": 84.99612426757812,
-      "learning_rate": 1.4112903225806454e-05,
-      "loss": 1.1468,
       "step": 70
     },
     {
-      "epoch": 0.6412825651302605,
-      "grad_norm": 57.763580322265625,
-      "learning_rate": 1.6129032258064517e-05,
-      "loss": 1.1189,
       "step": 80
     },
     {
-      "epoch": 0.7214428857715431,
-      "grad_norm": 70.59989166259766,
-      "learning_rate": 1.8145161290322583e-05,
-      "loss": 1.0405,
       "step": 90
     },
     {
-      "epoch": 0.8016032064128257,
-      "grad_norm": 91.77726745605469,
-      "learning_rate": 2.0161290322580645e-05,
-      "loss": 1.0129,
       "step": 100
     },
     {
-      "epoch": 0.8817635270541082,
-      "grad_norm": 82.61339569091797,
-      "learning_rate": 2.217741935483871e-05,
-      "loss": 0.9405,
       "step": 110
     },
     {
-      "epoch": 0.9619238476953907,
-      "grad_norm": 74.24462127685547,
-      "learning_rate": 2.4193548387096777e-05,
-      "loss": 0.924,
       "step": 120
     },
     {
-      "epoch": 0.9939879759519038,
-      "eval_accuracy": 0.7294250281848929,
-      "eval_loss": 0.8074643015861511,
-      "eval_runtime": 16.5344,
-      "eval_samples_per_second": 107.292,
-      "eval_steps_per_second": 3.387,
-      "step": 124
     },
     {
-      "epoch": 1.0420841683366733,
-      "grad_norm": 140.59048461914062,
-      "learning_rate": 2.620967741935484e-05,
-      "loss": 0.8607,
       "step": 130
     },
     {
-      "epoch": 1.122244488977956,
-      "grad_norm": 190.5211181640625,
-      "learning_rate": 2.822580645161291e-05,
-      "loss": 0.9175,
       "step": 140
     },
     {
-      "epoch": 1.2024048096192386,
-      "grad_norm": 83.77838897705078,
-      "learning_rate": 3.024193548387097e-05,
-      "loss": 0.8886,
       "step": 150
     },
     {
-      "epoch": 1.282565130260521,
-      "grad_norm": 68.58927917480469,
-      "learning_rate": 3.2258064516129034e-05,
-      "loss": 0.9134,
       "step": 160
     },
     {
-      "epoch": 1.3627254509018036,
-      "grad_norm": 100.79639434814453,
-      "learning_rate": 3.427419354838709e-05,
-      "loss": 0.8889,
       "step": 170
     },
     {
-      "epoch": 1.4428857715430863,
-      "grad_norm": 94.05249786376953,
-      "learning_rate": 3.6290322580645165e-05,
-      "loss": 0.9035,
       "step": 180
     },
     {
-      "epoch": 1.5230460921843687,
-      "grad_norm": 61.07211685180664,
-      "learning_rate": 3.8306451612903224e-05,
-      "loss": 0.9032,
       "step": 190
     },
     {
-      "epoch": 1.6032064128256514,
-      "grad_norm": 46.34950256347656,
-      "learning_rate": 4.032258064516129e-05,
-      "loss": 0.9545,
       "step": 200
     },
     {
-      "epoch": 1.6833667334669338,
-      "grad_norm": 59.57305908203125,
-      "learning_rate": 4.2338709677419356e-05,
-      "loss": 0.9195,
       "step": 210
     },
     {
-      "epoch": 1.7635270541082164,
-      "grad_norm": 51.62540054321289,
-      "learning_rate": 4.435483870967742e-05,
-      "loss": 0.9062,
       "step": 220
     },
     {
-      "epoch": 1.843687374749499,
-      "grad_norm": 61.9476318359375,
-      "learning_rate": 4.637096774193548e-05,
-      "loss": 0.8817,
       "step": 230
     },
     {
-      "epoch": 1.9238476953907817,
-      "grad_norm": 59.98125457763672,
       "learning_rate": 4.8387096774193554e-05,
-      "loss": 0.8226,
       "step": 240
     },
     {
-      "epoch": 1.9959919839679359,
-      "eval_accuracy": 0.7192784667418264,
-      "eval_loss": 0.8194935321807861,
-      "eval_runtime": 16.4183,
-      "eval_samples_per_second": 108.05,
-      "eval_steps_per_second": 3.411,
-      "step": 249
     },
     {
-      "epoch": 2.004008016032064,
-      "grad_norm": 38.62278366088867,
-      "learning_rate": 4.995519713261649e-05,
-      "loss": 0.8421,
       "step": 250
     },
     {
-      "epoch": 2.0841683366733466,
-      "grad_norm": 42.719417572021484,
-      "learning_rate": 4.973118279569893e-05,
-      "loss": 0.8578,
       "step": 260
     },
     {
-      "epoch": 2.164328657314629,
-      "grad_norm": 53.102413177490234,
-      "learning_rate": 4.950716845878137e-05,
-      "loss": 0.9822,
       "step": 270
     },
     {
-      "epoch": 2.244488977955912,
-      "grad_norm": 63.29998779296875,
-      "learning_rate": 4.92831541218638e-05,
-      "loss": 0.9396,
       "step": 280
     },
     {
-      "epoch": 2.3246492985971945,
-      "grad_norm": 44.63651657104492,
-      "learning_rate": 4.905913978494624e-05,
-      "loss": 0.9457,
       "step": 290
     },
     {
-      "epoch": 2.404809619238477,
-      "grad_norm": 47.95414733886719,
-      "learning_rate": 4.8835125448028677e-05,
-      "loss": 0.8546,
       "step": 300
     },
     {
-      "epoch": 2.4849699398797593,
-      "grad_norm": 48.8958854675293,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 0.9152,
       "step": 310
     },
     {
-      "epoch": 2.565130260521042,
-      "grad_norm": 92.62353515625,
-      "learning_rate": 4.8387096774193554e-05,
-      "loss": 0.8634,
       "step": 320
     },
     {
-      "epoch": 2.6452905811623246,
-      "grad_norm": 35.2147216796875,
-      "learning_rate": 4.8163082437275986e-05,
-      "loss": 0.7998,
       "step": 330
     },
     {
-      "epoch": 2.7254509018036073,
-      "grad_norm": 42.57783126831055,
-      "learning_rate": 4.7939068100358424e-05,
-      "loss": 0.7981,
       "step": 340
     },
     {
-      "epoch": 2.80561122244489,
-      "grad_norm": 35.527687072753906,
-      "learning_rate": 4.771505376344086e-05,
-      "loss": 0.8871,
       "step": 350
     },
     {
-      "epoch": 2.8857715430861726,
-      "grad_norm": 114.99385070800781,
-      "learning_rate": 4.74910394265233e-05,
-      "loss": 0.7689,
       "step": 360
     },
     {
-      "epoch": 2.9659318637274548,
-      "grad_norm": 84.57234954833984,
-      "learning_rate": 4.726702508960574e-05,
-      "loss": 0.805,
       "step": 370
     },
     {
-      "epoch": 2.997995991983968,
-      "eval_accuracy": 0.790304396843292,
-      "eval_loss": 0.6233341693878174,
-      "eval_runtime": 16.6664,
-      "eval_samples_per_second": 106.442,
-      "eval_steps_per_second": 3.36,
-      "step": 374
     },
     {
-      "epoch": 3.0460921843687374,
-      "grad_norm": 36.23030090332031,
-      "learning_rate": 4.704301075268818e-05,
-      "loss": 0.7415,
       "step": 380
     },
     {
-      "epoch": 3.12625250501002,
-      "grad_norm": 69.19331359863281,
-      "learning_rate": 4.681899641577061e-05,
-      "loss": 0.7203,
       "step": 390
     },
     {
-      "epoch": 3.2064128256513027,
-      "grad_norm": 27.987106323242188,
-      "learning_rate": 4.659498207885305e-05,
-      "loss": 0.6812,
       "step": 400
     },
     {
-      "epoch": 3.2865731462925853,
-      "grad_norm": 46.88111877441406,
-      "learning_rate": 4.637096774193548e-05,
-      "loss": 0.7374,
       "step": 410
     },
     {
-      "epoch": 3.3667334669338675,
-      "grad_norm": 38.22345733642578,
-      "learning_rate": 4.614695340501792e-05,
-      "loss": 0.7994,
       "step": 420
     },
     {
-      "epoch": 3.44689378757515,
-      "grad_norm": 55.37908172607422,
-      "learning_rate": 4.5922939068100365e-05,
-      "loss": 0.7888,
       "step": 430
     },
     {
-      "epoch": 3.527054108216433,
-      "grad_norm": 36.60285186767578,
-      "learning_rate": 4.56989247311828e-05,
-      "loss": 0.7572,
       "step": 440
     },
     {
-      "epoch": 3.6072144288577155,
-      "grad_norm": 52.20883560180664,
-      "learning_rate": 4.5474910394265236e-05,
-      "loss": 0.778,
       "step": 450
     },
     {
-      "epoch": 3.687374749498998,
-      "grad_norm": 30.91020965576172,
-      "learning_rate": 4.5250896057347674e-05,
-      "loss": 0.7487,
       "step": 460
     },
     {
-      "epoch": 3.7675350701402808,
-      "grad_norm": 21.50102996826172,
-      "learning_rate": 4.5026881720430106e-05,
-      "loss": 0.7287,
       "step": 470
     },
     {
-      "epoch": 3.847695390781563,
-      "grad_norm": 28.19744110107422,
-      "learning_rate": 4.4802867383512545e-05,
-      "loss": 0.7762,
       "step": 480
     },
     {
-      "epoch": 3.9278557114228456,
-      "grad_norm": 28.148900985717773,
-      "learning_rate": 4.4578853046594983e-05,
-      "loss": 0.752,
       "step": 490
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7795941375422774,
-      "eval_loss": 0.6686776280403137,
-      "eval_runtime": 16.5892,
-      "eval_samples_per_second": 106.937,
-      "eval_steps_per_second": 3.376,
-      "step": 499
-    },
-    {
-      "epoch": 4.008016032064128,
-      "grad_norm": 40.84296798706055,
-      "learning_rate": 4.435483870967742e-05,
-      "loss": 0.7898,
       "step": 500
     },
     {
-      "epoch": 4.0881763527054105,
-      "grad_norm": 32.189735412597656,
-      "learning_rate": 4.413082437275986e-05,
-      "loss": 0.7361,
       "step": 510
     },
     {
-      "epoch": 4.168336673346693,
-      "grad_norm": 27.465147018432617,
-      "learning_rate": 4.390681003584229e-05,
-      "loss": 0.7795,
       "step": 520
     },
     {
-      "epoch": 4.248496993987976,
-      "grad_norm": 27.916139602661133,
-      "learning_rate": 4.368279569892473e-05,
-      "loss": 0.7467,
       "step": 530
     },
     {
-      "epoch": 4.328657314629258,
-      "grad_norm": 32.374847412109375,
-      "learning_rate": 4.345878136200717e-05,
-      "loss": 0.6427,
       "step": 540
     },
     {
-      "epoch": 4.408817635270541,
-      "grad_norm": 45.016536712646484,
-      "learning_rate": 4.323476702508961e-05,
-      "loss": 0.6988,
       "step": 550
     },
     {
-      "epoch": 4.488977955911824,
-      "grad_norm": 36.51612091064453,
-      "learning_rate": 4.301075268817205e-05,
-      "loss": 0.6696,
       "step": 560
     },
     {
-      "epoch": 4.569138276553106,
-      "grad_norm": 26.923110961914062,
-      "learning_rate": 4.2786738351254486e-05,
-      "loss": 0.6512,
       "step": 570
     },
     {
-      "epoch": 4.649298597194389,
-      "grad_norm": 29.096832275390625,
-      "learning_rate": 4.256272401433692e-05,
-      "loss": 0.6775,
       "step": 580
     },
     {
-      "epoch": 4.729458917835672,
-      "grad_norm": 72.05559539794922,
-      "learning_rate": 4.2338709677419356e-05,
-      "loss": 0.6479,
       "step": 590
     },
     {
-      "epoch": 4.809619238476954,
-      "grad_norm": 31.95567512512207,
-      "learning_rate": 4.2114695340501795e-05,
-      "loss": 0.7208,
       "step": 600
     },
     {
-      "epoch": 4.889779559118237,
-      "grad_norm": 21.673049926757812,
-      "learning_rate": 4.1890681003584233e-05,
-      "loss": 0.6655,
       "step": 610
     },
     {
-      "epoch": 4.969939879759519,
-      "grad_norm": 33.81110382080078,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.6193,
       "step": 620
     },
     {
-      "epoch": 4.993987975951904,
-      "eval_accuracy": 0.8049605411499436,
-      "eval_loss": 0.5707754492759705,
-      "eval_runtime": 16.6845,
-      "eval_samples_per_second": 106.326,
-      "eval_steps_per_second": 3.356,
-      "step": 623
     },
     {
-      "epoch": 5.050100200400801,
-      "grad_norm": 21.3759822845459,
-      "learning_rate": 4.1442652329749104e-05,
-      "loss": 0.6843,
       "step": 630
     },
     {
-      "epoch": 5.130260521042084,
-      "grad_norm": 29.779949188232422,
-      "learning_rate": 4.121863799283154e-05,
-      "loss": 0.6394,
       "step": 640
     },
     {
-      "epoch": 5.210420841683367,
-      "grad_norm": 28.196969985961914,
-      "learning_rate": 4.099462365591398e-05,
-      "loss": 0.6629,
       "step": 650
     },
     {
-      "epoch": 5.290581162324649,
-      "grad_norm": 36.27236557006836,
-      "learning_rate": 4.077060931899642e-05,
-      "loss": 0.6814,
       "step": 660
     },
     {
-      "epoch": 5.370741482965932,
-      "grad_norm": 26.93575668334961,
-      "learning_rate": 4.054659498207886e-05,
-      "loss": 0.7281,
       "step": 670
     },
     {
-      "epoch": 5.4509018036072145,
-      "grad_norm": 38.862640380859375,
-      "learning_rate": 4.032258064516129e-05,
-      "loss": 0.6512,
       "step": 680
     },
     {
-      "epoch": 5.531062124248497,
-      "grad_norm": 22.26070213317871,
-      "learning_rate": 4.009856630824373e-05,
-      "loss": 0.625,
       "step": 690
     },
     {
-      "epoch": 5.61122244488978,
-      "grad_norm": 35.700435638427734,
-      "learning_rate": 3.987455197132617e-05,
-      "loss": 0.7244,
       "step": 700
     },
     {
-      "epoch": 5.6913827655310625,
-      "grad_norm": 29.08810806274414,
-      "learning_rate": 3.96505376344086e-05,
-      "loss": 0.7093,
       "step": 710
     },
     {
-      "epoch": 5.771543086172345,
-      "grad_norm": 33.14811706542969,
-      "learning_rate": 3.9426523297491045e-05,
-      "loss": 0.6039,
       "step": 720
     },
     {
-      "epoch": 5.851703406813627,
-      "grad_norm": 36.37564468383789,
-      "learning_rate": 3.9202508960573483e-05,
-      "loss": 0.6434,
       "step": 730
     },
     {
-      "epoch": 5.9318637274549095,
-      "grad_norm": 25.49966812133789,
-      "learning_rate": 3.8978494623655915e-05,
-      "loss": 0.5822,
       "step": 740
     },
     {
-      "epoch": 5.995991983967936,
-      "eval_accuracy": 0.8060879368658399,
-      "eval_loss": 0.5624008178710938,
-      "eval_runtime": 16.5355,
-      "eval_samples_per_second": 107.284,
-      "eval_steps_per_second": 3.387,
-      "step": 748
     },
     {
-      "epoch": 6.012024048096192,
-      "grad_norm": 28.702117919921875,
-      "learning_rate": 3.8754480286738354e-05,
-      "loss": 0.5943,
       "step": 750
     },
     {
-      "epoch": 6.092184368737475,
-      "grad_norm": 55.89380645751953,
-      "learning_rate": 3.8530465949820786e-05,
-      "loss": 0.6292,
       "step": 760
     },
     {
-      "epoch": 6.1723446893787575,
-      "grad_norm": 25.705108642578125,
-      "learning_rate": 3.8306451612903224e-05,
-      "loss": 0.6334,
       "step": 770
     },
     {
-      "epoch": 6.25250501002004,
-      "grad_norm": 62.475040435791016,
-      "learning_rate": 3.808243727598566e-05,
-      "loss": 0.6187,
       "step": 780
     },
     {
-      "epoch": 6.332665330661323,
-      "grad_norm": 29.610858917236328,
-      "learning_rate": 3.78584229390681e-05,
-      "loss": 0.6301,
       "step": 790
     },
     {
-      "epoch": 6.412825651302605,
-      "grad_norm": 29.61836051940918,
-      "learning_rate": 3.763440860215054e-05,
-      "loss": 0.5877,
       "step": 800
     },
     {
-      "epoch": 6.492985971943888,
-      "grad_norm": 25.111305236816406,
-      "learning_rate": 3.741039426523298e-05,
-      "loss": 0.5988,
       "step": 810
     },
     {
-      "epoch": 6.573146292585171,
-      "grad_norm": 31.161901473999023,
-      "learning_rate": 3.718637992831541e-05,
-      "loss": 0.6037,
       "step": 820
     },
     {
-      "epoch": 6.653306613226453,
-      "grad_norm": 28.766677856445312,
-      "learning_rate": 3.696236559139785e-05,
-      "loss": 0.6522,
       "step": 830
     },
     {
-      "epoch": 6.733466933867735,
-      "grad_norm": 25.192800521850586,
-      "learning_rate": 3.673835125448029e-05,
-      "loss": 0.6015,
       "step": 840
     },
     {
-      "epoch": 6.813627254509018,
-      "grad_norm": 32.32080841064453,
-      "learning_rate": 3.651433691756273e-05,
-      "loss": 0.6019,
       "step": 850
     },
     {
-      "epoch": 6.8937875751503,
-      "grad_norm": 52.31047439575195,
-      "learning_rate": 3.6290322580645165e-05,
-      "loss": 0.6806,
       "step": 860
     },
     {
-      "epoch": 6.973947895791583,
-      "grad_norm": 25.50705337524414,
-      "learning_rate": 3.60663082437276e-05,
-      "loss": 0.6227,
       "step": 870
     },
     {
-      "epoch": 6.997995991983968,
-      "eval_accuracy": 0.8134160090191658,
-      "eval_loss": 0.5536333322525024,
-      "eval_runtime": 16.6273,
-      "eval_samples_per_second": 106.692,
-      "eval_steps_per_second": 3.368,
-      "step": 873
     },
     {
-      "epoch": 7.054108216432866,
-      "grad_norm": 19.30939292907715,
-      "learning_rate": 3.5842293906810036e-05,
-      "loss": 0.5791,
       "step": 880
     },
     {
-      "epoch": 7.134268537074148,
-      "grad_norm": 32.007442474365234,
-      "learning_rate": 3.5618279569892474e-05,
-      "loss": 0.6049,
       "step": 890
     },
     {
-      "epoch": 7.214428857715431,
-      "grad_norm": 22.92371940612793,
-      "learning_rate": 3.539426523297491e-05,
-      "loss": 0.6177,
       "step": 900
     },
     {
-      "epoch": 7.294589178356714,
-      "grad_norm": 42.33139419555664,
-      "learning_rate": 3.517025089605735e-05,
-      "loss": 0.5685,
       "step": 910
     },
     {
-      "epoch": 7.374749498997996,
-      "grad_norm": 23.081684112548828,
-      "learning_rate": 3.494623655913979e-05,
-      "loss": 0.5914,
       "step": 920
     },
     {
-      "epoch": 7.454909819639279,
-      "grad_norm": 28.351613998413086,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 0.6416,
       "step": 930
     },
     {
-      "epoch": 7.5350701402805615,
-      "grad_norm": 29.150787353515625,
-      "learning_rate": 3.449820788530466e-05,
-      "loss": 0.5786,
       "step": 940
     },
     {
-      "epoch": 7.615230460921843,
-      "grad_norm": 25.98550796508789,
-      "learning_rate": 3.427419354838709e-05,
-      "loss": 0.6198,
       "step": 950
     },
     {
-      "epoch": 7.695390781563126,
-      "grad_norm": 17.467369079589844,
-      "learning_rate": 3.405017921146954e-05,
-      "loss": 0.5378,
       "step": 960
     },
     {
-      "epoch": 7.775551102204409,
-      "grad_norm": 27.1838436126709,
-      "learning_rate": 3.382616487455198e-05,
-      "loss": 0.607,
       "step": 970
     },
     {
-      "epoch": 7.855711422845691,
-      "grad_norm": 38.05990219116211,
-      "learning_rate": 3.360215053763441e-05,
-      "loss": 0.5962,
       "step": 980
     },
     {
-      "epoch": 7.935871743486974,
-      "grad_norm": 42.47323989868164,
-      "learning_rate": 3.337813620071685e-05,
-      "loss": 0.6067,
       "step": 990
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.818489289740699,
-      "eval_loss": 0.5687136650085449,
-      "eval_runtime": 16.5686,
-      "eval_samples_per_second": 107.07,
-      "eval_steps_per_second": 3.38,
-      "step": 998
     },
     {
-      "epoch": 8.016032064128256,
-      "grad_norm": 37.08466339111328,
-      "learning_rate": 3.3154121863799286e-05,
-      "loss": 0.5576,
       "step": 1000
     },
     {
-      "epoch": 8.09619238476954,
-      "grad_norm": 23.092058181762695,
-      "learning_rate": 3.293010752688172e-05,
-      "loss": 0.5297,
       "step": 1010
     },
     {
-      "epoch": 8.176352705410821,
-      "grad_norm": 21.885507583618164,
-      "learning_rate": 3.270609318996416e-05,
-      "loss": 0.5678,
       "step": 1020
     },
     {
-      "epoch": 8.256513026052104,
-      "grad_norm": 29.588977813720703,
-      "learning_rate": 3.24820788530466e-05,
-      "loss": 0.5404,
       "step": 1030
     },
     {
-      "epoch": 8.336673346693386,
-      "grad_norm": 58.07012176513672,
-      "learning_rate": 3.2258064516129034e-05,
-      "loss": 0.535,
       "step": 1040
     },
     {
-      "epoch": 8.41683366733467,
-      "grad_norm": 25.207134246826172,
-      "learning_rate": 3.203405017921147e-05,
-      "loss": 0.5622,
       "step": 1050
     },
     {
-      "epoch": 8.496993987975952,
-      "grad_norm": 27.917211532592773,
-      "learning_rate": 3.1810035842293904e-05,
-      "loss": 0.5527,
       "step": 1060
     },
     {
-      "epoch": 8.577154308617235,
-      "grad_norm": 17.901611328125,
-      "learning_rate": 3.158602150537634e-05,
-      "loss": 0.5115,
       "step": 1070
     },
     {
-      "epoch": 8.657314629258517,
-      "grad_norm": 20.38230323791504,
-      "learning_rate": 3.136200716845878e-05,
-      "loss": 0.608,
       "step": 1080
     },
     {
-      "epoch": 8.7374749498998,
-      "grad_norm": 22.982620239257812,
-      "learning_rate": 3.113799283154122e-05,
-      "loss": 0.5628,
       "step": 1090
     },
     {
-      "epoch": 8.817635270541082,
-      "grad_norm": 22.212993621826172,
-      "learning_rate": 3.091397849462366e-05,
-      "loss": 0.5076,
       "step": 1100
     },
     {
-      "epoch": 8.897795591182366,
-      "grad_norm": 28.16684913635254,
-      "learning_rate": 3.06899641577061e-05,
-      "loss": 0.5299,
       "step": 1110
     },
     {
-      "epoch": 8.977955911823647,
-      "grad_norm": 19.41158676147461,
-      "learning_rate": 3.046594982078853e-05,
-      "loss": 0.533,
       "step": 1120
     },
     {
-      "epoch": 8.993987975951903,
-      "eval_accuracy": 0.8089064261555806,
-      "eval_loss": 0.5918950438499451,
-      "eval_runtime": 16.6888,
-      "eval_samples_per_second": 106.299,
-      "eval_steps_per_second": 3.356,
-      "step": 1122
     },
     {
-      "epoch": 9.05811623246493,
-      "grad_norm": 25.26761245727539,
-      "learning_rate": 3.024193548387097e-05,
-      "loss": 0.6276,
       "step": 1130
     },
     {
-      "epoch": 9.138276553106213,
-      "grad_norm": 18.059947967529297,
-      "learning_rate": 3.0017921146953403e-05,
-      "loss": 0.5674,
       "step": 1140
     },
     {
-      "epoch": 9.218436873747494,
-      "grad_norm": 37.593204498291016,
-      "learning_rate": 2.979390681003584e-05,
-      "loss": 0.5189,
       "step": 1150
     },
     {
-      "epoch": 9.298597194388778,
-      "grad_norm": 24.151836395263672,
-      "learning_rate": 2.9569892473118284e-05,
-      "loss": 0.5086,
       "step": 1160
     },
     {
-      "epoch": 9.37875751503006,
-      "grad_norm": 30.97344970703125,
-      "learning_rate": 2.9345878136200715e-05,
-      "loss": 0.5137,
       "step": 1170
     },
     {
-      "epoch": 9.458917835671343,
-      "grad_norm": 20.18236541748047,
-      "learning_rate": 2.9121863799283154e-05,
-      "loss": 0.4647,
       "step": 1180
     },
     {
-      "epoch": 9.539078156312625,
-      "grad_norm": 23.9926815032959,
-      "learning_rate": 2.8897849462365596e-05,
-      "loss": 0.5529,
       "step": 1190
     },
     {
-      "epoch": 9.619238476953909,
-      "grad_norm": 31.676265716552734,
-      "learning_rate": 2.8673835125448028e-05,
-      "loss": 0.5256,
       "step": 1200
     },
     {
-      "epoch": 9.69939879759519,
-      "grad_norm": 27.958820343017578,
-      "learning_rate": 2.8449820788530467e-05,
-      "loss": 0.5121,
       "step": 1210
     },
     {
-      "epoch": 9.779559118236474,
-      "grad_norm": 21.766021728515625,
-      "learning_rate": 2.822580645161291e-05,
-      "loss": 0.5393,
       "step": 1220
     },
     {
-      "epoch": 9.859719438877756,
-      "grad_norm": 24.838279724121094,
-      "learning_rate": 2.800179211469534e-05,
-      "loss": 0.478,
       "step": 1230
     },
     {
-      "epoch": 9.939879759519037,
-      "grad_norm": 36.48131561279297,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.5423,
       "step": 1240
     },
     {
-      "epoch": 9.995991983967937,
-      "eval_accuracy": 0.8370913190529876,
-      "eval_loss": 0.502169668674469,
-      "eval_runtime": 16.5887,
-      "eval_samples_per_second": 106.94,
-      "eval_steps_per_second": 3.376,
-      "step": 1247
     },
     {
-      "epoch": 10.02004008016032,
-      "grad_norm": 19.24289894104004,
-      "learning_rate": 2.7553763440860214e-05,
-      "loss": 0.5308,
       "step": 1250
     },
     {
-      "epoch": 10.100200400801603,
-      "grad_norm": 19.2097110748291,
-      "learning_rate": 2.7329749103942653e-05,
-      "loss": 0.4834,
       "step": 1260
     },
     {
-      "epoch": 10.180360721442886,
-      "grad_norm": 26.702028274536133,
-      "learning_rate": 2.710573476702509e-05,
-      "loss": 0.4799,
       "step": 1270
     },
     {
-      "epoch": 10.260521042084168,
-      "grad_norm": 22.088153839111328,
-      "learning_rate": 2.6881720430107527e-05,
-      "loss": 0.5015,
       "step": 1280
     },
     {
-      "epoch": 10.340681362725451,
-      "grad_norm": 24.59678840637207,
-      "learning_rate": 2.6657706093189965e-05,
-      "loss": 0.5561,
       "step": 1290
     },
     {
-      "epoch": 10.420841683366733,
-      "grad_norm": 26.353622436523438,
-      "learning_rate": 2.6433691756272404e-05,
-      "loss": 0.479,
       "step": 1300
     },
     {
-      "epoch": 10.501002004008017,
-      "grad_norm": 21.673465728759766,
-      "learning_rate": 2.620967741935484e-05,
-      "loss": 0.5283,
       "step": 1310
     },
     {
-      "epoch": 10.581162324649299,
-      "grad_norm": 20.873695373535156,
-      "learning_rate": 2.5985663082437278e-05,
-      "loss": 0.4894,
       "step": 1320
     },
     {
-      "epoch": 10.661322645290582,
-      "grad_norm": 31.117862701416016,
-      "learning_rate": 2.5761648745519713e-05,
-      "loss": 0.4783,
       "step": 1330
     },
     {
-      "epoch": 10.741482965931864,
-      "grad_norm": 25.72610855102539,
-      "learning_rate": 2.5537634408602152e-05,
-      "loss": 0.4997,
       "step": 1340
     },
     {
-      "epoch": 10.821643286573146,
-      "grad_norm": 22.59943389892578,
-      "learning_rate": 2.531362007168459e-05,
-      "loss": 0.4518,
       "step": 1350
     },
     {
-      "epoch": 10.901803607214429,
-      "grad_norm": 17.32233428955078,
-      "learning_rate": 2.5089605734767026e-05,
-      "loss": 0.5313,
       "step": 1360
     },
     {
-      "epoch": 10.98196392785571,
-      "grad_norm": 20.552576065063477,
-      "learning_rate": 2.4865591397849464e-05,
-      "loss": 0.4747,
       "step": 1370
     },
     {
-      "epoch": 10.997995991983968,
-      "eval_accuracy": 0.8579481397970687,
-      "eval_loss": 0.4419150948524475,
-      "eval_runtime": 16.5822,
-      "eval_samples_per_second": 106.982,
-      "eval_steps_per_second": 3.377,
-      "step": 1372
     },
     {
-      "epoch": 11.062124248496994,
-      "grad_norm": 20.17671775817871,
-      "learning_rate": 2.46415770609319e-05,
-      "loss": 0.4848,
       "step": 1380
     },
     {
-      "epoch": 11.142284569138276,
-      "grad_norm": 21.159685134887695,
-      "learning_rate": 2.4417562724014338e-05,
-      "loss": 0.4434,
       "step": 1390
     },
     {
-      "epoch": 11.22244488977956,
-      "grad_norm": 21.114795684814453,
-      "learning_rate": 2.4193548387096777e-05,
-      "loss": 0.4665,
       "step": 1400
     },
     {
-      "epoch": 11.302605210420841,
-      "grad_norm": 16.447608947753906,
-      "learning_rate": 2.3969534050179212e-05,
-      "loss": 0.45,
       "step": 1410
     },
     {
-      "epoch": 11.382765531062125,
-      "grad_norm": 34.57737731933594,
-      "learning_rate": 2.374551971326165e-05,
-      "loss": 0.5073,
       "step": 1420
     },
     {
-      "epoch": 11.462925851703407,
-      "grad_norm": 22.9782657623291,
-      "learning_rate": 2.352150537634409e-05,
-      "loss": 0.5099,
       "step": 1430
     },
     {
-      "epoch": 11.54308617234469,
-      "grad_norm": 30.651418685913086,
-      "learning_rate": 2.3297491039426525e-05,
-      "loss": 0.473,
       "step": 1440
     },
     {
-      "epoch": 11.623246492985972,
-      "grad_norm": 21.65363883972168,
-      "learning_rate": 2.307347670250896e-05,
-      "loss": 0.4723,
       "step": 1450
     },
     {
-      "epoch": 11.703406813627254,
-      "grad_norm": 20.955120086669922,
-      "learning_rate": 2.28494623655914e-05,
-      "loss": 0.4613,
       "step": 1460
     },
     {
-      "epoch": 11.783567134268537,
-      "grad_norm": 21.71851921081543,
-      "learning_rate": 2.2625448028673837e-05,
-      "loss": 0.4884,
       "step": 1470
     },
     {
-      "epoch": 11.863727454909819,
-      "grad_norm": 29.572038650512695,
-      "learning_rate": 2.2401433691756272e-05,
-      "loss": 0.4842,
       "step": 1480
     },
     {
-      "epoch": 11.943887775551103,
-      "grad_norm": 30.581287384033203,
-      "learning_rate": 2.217741935483871e-05,
-      "loss": 0.4367,
       "step": 1490
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.8207440811724915,
-      "eval_loss": 0.5084114074707031,
-      "eval_runtime": 16.5802,
-      "eval_samples_per_second": 106.995,
-      "eval_steps_per_second": 3.378,
-      "step": 1497
-    },
-    {
-      "epoch": 12.024048096192384,
-      "grad_norm": 21.091793060302734,
-      "learning_rate": 2.1953405017921146e-05,
-      "loss": 0.4565,
       "step": 1500
     },
     {
-      "epoch": 12.104208416833668,
-      "grad_norm": 16.97905921936035,
-      "learning_rate": 2.1729390681003585e-05,
-      "loss": 0.4488,
       "step": 1510
     },
     {
-      "epoch": 12.18436873747495,
-      "grad_norm": 20.028785705566406,
-      "learning_rate": 2.1505376344086024e-05,
-      "loss": 0.4109,
       "step": 1520
     },
     {
-      "epoch": 12.264529058116233,
-      "grad_norm": 26.391056060791016,
-      "learning_rate": 2.128136200716846e-05,
-      "loss": 0.4572,
       "step": 1530
     },
     {
-      "epoch": 12.344689378757515,
-      "grad_norm": 24.771198272705078,
-      "learning_rate": 2.1057347670250897e-05,
-      "loss": 0.4693,
       "step": 1540
     },
     {
-      "epoch": 12.424849699398798,
-      "grad_norm": 21.671600341796875,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.4446,
       "step": 1550
     },
     {
-      "epoch": 12.50501002004008,
-      "grad_norm": 29.258426666259766,
-      "learning_rate": 2.060931899641577e-05,
-      "loss": 0.4272,
       "step": 1560
     },
     {
-      "epoch": 12.585170340681362,
-      "grad_norm": 22.518234252929688,
-      "learning_rate": 2.038530465949821e-05,
-      "loss": 0.4732,
       "step": 1570
     },
     {
-      "epoch": 12.665330661322646,
-      "grad_norm": 22.70555877685547,
-      "learning_rate": 2.0161290322580645e-05,
-      "loss": 0.4416,
       "step": 1580
     },
     {
-      "epoch": 12.745490981963927,
-      "grad_norm": 19.604206085205078,
-      "learning_rate": 1.9937275985663084e-05,
-      "loss": 0.4517,
       "step": 1590
     },
     {
-      "epoch": 12.82565130260521,
-      "grad_norm": 21.88922119140625,
-      "learning_rate": 1.9713261648745522e-05,
-      "loss": 0.4458,
       "step": 1600
     },
     {
-      "epoch": 12.905811623246493,
-      "grad_norm": 23.284523010253906,
-      "learning_rate": 1.9489247311827958e-05,
-      "loss": 0.4362,
       "step": 1610
     },
     {
-      "epoch": 12.985971943887776,
-      "grad_norm": 16.729040145874023,
-      "learning_rate": 1.9265232974910393e-05,
-      "loss": 0.4907,
       "step": 1620
     },
     {
-      "epoch": 12.993987975951903,
-      "eval_accuracy": 0.8365276211950394,
-      "eval_loss": 0.4773949980735779,
-      "eval_runtime": 16.6122,
-      "eval_samples_per_second": 106.789,
-      "eval_steps_per_second": 3.371,
-      "step": 1621
-    },
-    {
-      "epoch": 13.066132264529058,
-      "grad_norm": 20.915903091430664,
-      "learning_rate": 1.904121863799283e-05,
-      "loss": 0.4276,
       "step": 1630
     },
     {
-      "epoch": 13.146292585170341,
-      "grad_norm": 22.99505615234375,
-      "learning_rate": 1.881720430107527e-05,
-      "loss": 0.4026,
       "step": 1640
     },
     {
-      "epoch": 13.226452905811623,
-      "grad_norm": 37.65668487548828,
-      "learning_rate": 1.8593189964157705e-05,
-      "loss": 0.4015,
       "step": 1650
     },
     {
-      "epoch": 13.306613226452907,
-      "grad_norm": 26.193628311157227,
-      "learning_rate": 1.8369175627240144e-05,
-      "loss": 0.4238,
       "step": 1660
     },
     {
-      "epoch": 13.386773547094188,
-      "grad_norm": 29.185932159423828,
-      "learning_rate": 1.8145161290322583e-05,
-      "loss": 0.4483,
       "step": 1670
     },
     {
-      "epoch": 13.46693386773547,
-      "grad_norm": 30.262685775756836,
-      "learning_rate": 1.7921146953405018e-05,
-      "loss": 0.3972,
       "step": 1680
     },
     {
-      "epoch": 13.547094188376754,
-      "grad_norm": 17.25420570373535,
-      "learning_rate": 1.7697132616487457e-05,
-      "loss": 0.416,
       "step": 1690
     },
     {
-      "epoch": 13.627254509018035,
-      "grad_norm": 15.789755821228027,
-      "learning_rate": 1.7473118279569895e-05,
-      "loss": 0.3985,
       "step": 1700
     },
     {
-      "epoch": 13.707414829659319,
-      "grad_norm": 24.821426391601562,
-      "learning_rate": 1.724910394265233e-05,
-      "loss": 0.4334,
       "step": 1710
     },
     {
-      "epoch": 13.7875751503006,
-      "grad_norm": 19.373735427856445,
-      "learning_rate": 1.702508960573477e-05,
-      "loss": 0.4494,
       "step": 1720
     },
     {
-      "epoch": 13.867735470941884,
-      "grad_norm": 39.24836730957031,
-      "learning_rate": 1.6801075268817204e-05,
-      "loss": 0.4272,
       "step": 1730
     },
     {
-      "epoch": 13.947895791583166,
-      "grad_norm": 18.48973846435547,
-      "learning_rate": 1.6577060931899643e-05,
-      "loss": 0.4269,
       "step": 1740
     },
     {
-      "epoch": 13.995991983967937,
-      "eval_accuracy": 0.8444193912063134,
-      "eval_loss": 0.49454447627067566,
-      "eval_runtime": 16.5837,
-      "eval_samples_per_second": 106.972,
-      "eval_steps_per_second": 3.377,
-      "step": 1746
     },
     {
-      "epoch": 14.02805611222445,
-      "grad_norm": 19.31620979309082,
-      "learning_rate": 1.635304659498208e-05,
-      "loss": 0.4197,
       "step": 1750
     },
     {
-      "epoch": 14.108216432865731,
-      "grad_norm": 22.901765823364258,
-      "learning_rate": 1.6129032258064517e-05,
-      "loss": 0.4569,
       "step": 1760
     },
     {
-      "epoch": 14.188376753507015,
-      "grad_norm": 18.342025756835938,
-      "learning_rate": 1.5905017921146952e-05,
-      "loss": 0.3897,
       "step": 1770
     },
     {
-      "epoch": 14.268537074148297,
-      "grad_norm": 20.735149383544922,
-      "learning_rate": 1.568100358422939e-05,
-      "loss": 0.375,
       "step": 1780
     },
     {
-      "epoch": 14.348697394789578,
-      "grad_norm": 16.781925201416016,
-      "learning_rate": 1.545698924731183e-05,
-      "loss": 0.3994,
       "step": 1790
     },
     {
-      "epoch": 14.428857715430862,
-      "grad_norm": 20.588781356811523,
-      "learning_rate": 1.5232974910394265e-05,
-      "loss": 0.4204,
       "step": 1800
     },
     {
-      "epoch": 14.509018036072144,
-      "grad_norm": 23.370925903320312,
-      "learning_rate": 1.5008960573476701e-05,
-      "loss": 0.4208,
       "step": 1810
     },
     {
-      "epoch": 14.589178356713427,
-      "grad_norm": 30.92214584350586,
-      "learning_rate": 1.4784946236559142e-05,
-      "loss": 0.3962,
       "step": 1820
     },
     {
-      "epoch": 14.669338677354709,
-      "grad_norm": 18.780115127563477,
-      "learning_rate": 1.4560931899641577e-05,
-      "loss": 0.3895,
       "step": 1830
     },
     {
-      "epoch": 14.749498997995993,
-      "grad_norm": 23.375154495239258,
-      "learning_rate": 1.4336917562724014e-05,
-      "loss": 0.3871,
       "step": 1840
     },
     {
-      "epoch": 14.829659318637274,
-      "grad_norm": 18.720943450927734,
-      "learning_rate": 1.4112903225806454e-05,
-      "loss": 0.4037,
       "step": 1850
     },
     {
-      "epoch": 14.909819639278558,
-      "grad_norm": 27.814115524291992,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.409,
       "step": 1860
     },
     {
-      "epoch": 14.98997995991984,
-      "grad_norm": 23.809450149536133,
-      "learning_rate": 1.3664874551971326e-05,
-      "loss": 0.3787,
-      "step": 1870
-    },
-    {
-      "epoch": 14.997995991983968,
-      "eval_accuracy": 0.8478015783540023,
-      "eval_loss": 0.47794777154922485,
-      "eval_runtime": 16.5967,
-      "eval_samples_per_second": 106.889,
-      "eval_steps_per_second": 3.374,
-      "step": 1871
-    },
-    {
-      "epoch": 15.070140280561123,
-      "grad_norm": 18.869020462036133,
-      "learning_rate": 1.3440860215053763e-05,
-      "loss": 0.3546,
-      "step": 1880
-    },
-    {
-      "epoch": 15.150300601202405,
-      "grad_norm": 18.53528594970703,
-      "learning_rate": 1.3216845878136202e-05,
-      "loss": 0.3785,
-      "step": 1890
-    },
-    {
-      "epoch": 15.230460921843687,
-      "grad_norm": 25.095417022705078,
-      "learning_rate": 1.2992831541218639e-05,
-      "loss": 0.3921,
-      "step": 1900
-    },
-    {
-      "epoch": 15.31062124248497,
-      "grad_norm": 19.071975708007812,
-      "learning_rate": 1.2768817204301076e-05,
-      "loss": 0.3924,
-      "step": 1910
-    },
-    {
-      "epoch": 15.390781563126252,
-      "grad_norm": 20.396650314331055,
-      "learning_rate": 1.2544802867383513e-05,
-      "loss": 0.3877,
-      "step": 1920
-    },
-    {
-      "epoch": 15.470941883767535,
-      "grad_norm": 26.20189094543457,
-      "learning_rate": 1.232078853046595e-05,
-      "loss": 0.3408,
-      "step": 1930
-    },
-    {
-      "epoch": 15.551102204408817,
-      "grad_norm": 25.609718322753906,
-      "learning_rate": 1.2096774193548388e-05,
-      "loss": 0.3554,
-      "step": 1940
-    },
-    {
-      "epoch": 15.6312625250501,
-      "grad_norm": 22.300622940063477,
-      "learning_rate": 1.1872759856630825e-05,
-      "loss": 0.3408,
-      "step": 1950
-    },
-    {
-      "epoch": 15.711422845691382,
-      "grad_norm": 21.68485450744629,
-      "learning_rate": 1.1648745519713262e-05,
-      "loss": 0.3534,
-      "step": 1960
-    },
-    {
-      "epoch": 15.791583166332666,
-      "grad_norm": 21.4897518157959,
-      "learning_rate": 1.14247311827957e-05,
-      "loss": 0.3685,
-      "step": 1970
-    },
-    {
-      "epoch": 15.871743486973948,
-      "grad_norm": 23.654247283935547,
-      "learning_rate": 1.1200716845878136e-05,
-      "loss": 0.4038,
-      "step": 1980
-    },
-    {
-      "epoch": 15.951903807615231,
-      "grad_norm": 24.013349533081055,
-      "learning_rate": 1.0976702508960573e-05,
-      "loss": 0.3724,
-      "step": 1990
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8714768883878241,
-      "eval_loss": 0.42415910959243774,
-      "eval_runtime": 16.5547,
-      "eval_samples_per_second": 107.16,
-      "eval_steps_per_second": 3.383,
-      "step": 1996
-    },
-    {
-      "epoch": 16.03206412825651,
-      "grad_norm": 19.16984748840332,
-      "learning_rate": 1.0752688172043012e-05,
-      "loss": 0.3318,
-      "step": 2000
-    },
-    {
-      "epoch": 16.112224448897795,
-      "grad_norm": 25.895992279052734,
-      "learning_rate": 1.0528673835125449e-05,
-      "loss": 0.3325,
-      "step": 2010
-    },
-    {
-      "epoch": 16.19238476953908,
-      "grad_norm": 22.940765380859375,
-      "learning_rate": 1.0304659498207886e-05,
-      "loss": 0.3384,
-      "step": 2020
-    },
-    {
-      "epoch": 16.272545090180362,
-      "grad_norm": 16.38847541809082,
-      "learning_rate": 1.0080645161290323e-05,
-      "loss": 0.3289,
-      "step": 2030
-    },
-    {
-      "epoch": 16.352705410821642,
-      "grad_norm": 15.670344352722168,
-      "learning_rate": 9.856630824372761e-06,
-      "loss": 0.3289,
-      "step": 2040
-    },
-    {
-      "epoch": 16.432865731462925,
-      "grad_norm": 16.80422019958496,
-      "learning_rate": 9.632616487455196e-06,
-      "loss": 0.3387,
-      "step": 2050
-    },
-    {
-      "epoch": 16.51302605210421,
-      "grad_norm": 17.764860153198242,
-      "learning_rate": 9.408602150537635e-06,
-      "loss": 0.3979,
-      "step": 2060
-    },
-    {
-      "epoch": 16.593186372745492,
-      "grad_norm": 18.336956024169922,
-      "learning_rate": 9.184587813620072e-06,
-      "loss": 0.4002,
-      "step": 2070
-    },
-    {
-      "epoch": 16.673346693386772,
-      "grad_norm": 16.667768478393555,
-      "learning_rate": 8.960573476702509e-06,
-      "loss": 0.3401,
-      "step": 2080
-    },
-    {
-      "epoch": 16.753507014028056,
-      "grad_norm": 15.367273330688477,
-      "learning_rate": 8.736559139784948e-06,
-      "loss": 0.4036,
-      "step": 2090
-    },
-    {
-      "epoch": 16.83366733466934,
-      "grad_norm": 22.505924224853516,
-      "learning_rate": 8.512544802867385e-06,
-      "loss": 0.3287,
-      "step": 2100
-    },
-    {
-      "epoch": 16.91382765531062,
-      "grad_norm": 17.039518356323242,
-      "learning_rate": 8.288530465949821e-06,
-      "loss": 0.3105,
-      "step": 2110
-    },
-    {
-      "epoch": 16.993987975951903,
-      "grad_norm": 24.149869918823242,
-      "learning_rate": 8.064516129032258e-06,
-      "loss": 0.354,
-      "step": 2120
-    },
-    {
-      "epoch": 16.993987975951903,
-      "eval_accuracy": 0.8528748590755355,
-      "eval_loss": 0.45945772528648376,
-      "eval_runtime": 16.5552,
-      "eval_samples_per_second": 107.156,
-      "eval_steps_per_second": 3.383,
-      "step": 2120
-    },
-    {
-      "epoch": 17.074148296593187,
-      "grad_norm": 23.050357818603516,
-      "learning_rate": 7.840501792114695e-06,
-      "loss": 0.3518,
-      "step": 2130
-    },
-    {
-      "epoch": 17.15430861723447,
-      "grad_norm": 17.574710845947266,
-      "learning_rate": 7.616487455197132e-06,
-      "loss": 0.3024,
-      "step": 2140
-    },
-    {
-      "epoch": 17.23446893787575,
-      "grad_norm": 27.150959014892578,
-      "learning_rate": 7.392473118279571e-06,
-      "loss": 0.3482,
-      "step": 2150
-    },
-    {
-      "epoch": 17.314629258517034,
-      "grad_norm": 25.671140670776367,
-      "learning_rate": 7.168458781362007e-06,
-      "loss": 0.3461,
-      "step": 2160
-    },
-    {
-      "epoch": 17.394789579158317,
-      "grad_norm": 23.23431968688965,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.3502,
-      "step": 2170
-    },
-    {
-      "epoch": 17.4749498997996,
-      "grad_norm": 25.251195907592773,
-      "learning_rate": 6.720430107526882e-06,
-      "loss": 0.3505,
-      "step": 2180
-    },
-    {
-      "epoch": 17.55511022044088,
-      "grad_norm": 18.16839027404785,
-      "learning_rate": 6.4964157706093195e-06,
-      "loss": 0.3401,
-      "step": 2190
-    },
-    {
-      "epoch": 17.635270541082164,
-      "grad_norm": 17.334238052368164,
-      "learning_rate": 6.2724014336917564e-06,
-      "loss": 0.3182,
-      "step": 2200
-    },
-    {
-      "epoch": 17.715430861723448,
-      "grad_norm": 23.427167892456055,
-      "learning_rate": 6.048387096774194e-06,
-      "loss": 0.2838,
-      "step": 2210
-    },
-    {
-      "epoch": 17.79559118236473,
-      "grad_norm": 25.35896110534668,
-      "learning_rate": 5.824372759856631e-06,
-      "loss": 0.31,
-      "step": 2220
-    },
-    {
-      "epoch": 17.87575150300601,
-      "grad_norm": 22.105119705200195,
-      "learning_rate": 5.600358422939068e-06,
-      "loss": 0.3231,
-      "step": 2230
-    },
-    {
-      "epoch": 17.955911823647295,
-      "grad_norm": 33.91689682006836,
-      "learning_rate": 5.376344086021506e-06,
-      "loss": 0.3304,
-      "step": 2240
-    },
-    {
-      "epoch": 17.995991983967937,
-      "eval_accuracy": 0.8562570462232244,
-      "eval_loss": 0.45429307222366333,
-      "eval_runtime": 17.1301,
-      "eval_samples_per_second": 103.561,
-      "eval_steps_per_second": 3.269,
-      "step": 2245
-    },
-    {
-      "epoch": 18.03607214428858,
-      "grad_norm": 17.72748374938965,
-      "learning_rate": 5.152329749103943e-06,
-      "loss": 0.3273,
-      "step": 2250
-    },
-    {
-      "epoch": 18.11623246492986,
-      "grad_norm": 15.051362991333008,
-      "learning_rate": 4.928315412186381e-06,
-      "loss": 0.2583,
-      "step": 2260
-    },
-    {
-      "epoch": 18.196392785571142,
-      "grad_norm": 15.139473915100098,
-      "learning_rate": 4.7043010752688175e-06,
-      "loss": 0.2711,
-      "step": 2270
-    },
-    {
-      "epoch": 18.276553106212425,
-      "grad_norm": 23.201719284057617,
-      "learning_rate": 4.4802867383512545e-06,
-      "loss": 0.3015,
-      "step": 2280
-    },
-    {
-      "epoch": 18.35671342685371,
-      "grad_norm": 30.31717872619629,
-      "learning_rate": 4.256272401433692e-06,
-      "loss": 0.321,
-      "step": 2290
-    },
-    {
-      "epoch": 18.43687374749499,
-      "grad_norm": 21.005664825439453,
-      "learning_rate": 4.032258064516129e-06,
-      "loss": 0.2887,
-      "step": 2300
-    },
-    {
-      "epoch": 18.517034068136272,
-      "grad_norm": 14.847023963928223,
-      "learning_rate": 3.808243727598566e-06,
-      "loss": 0.2821,
-      "step": 2310
-    },
-    {
-      "epoch": 18.597194388777556,
-      "grad_norm": 20.269981384277344,
-      "learning_rate": 3.5842293906810035e-06,
-      "loss": 0.2938,
-      "step": 2320
-    },
-    {
-      "epoch": 18.677354709418836,
-      "grad_norm": 18.943777084350586,
-      "learning_rate": 3.360215053763441e-06,
-      "loss": 0.2936,
-      "step": 2330
-    },
-    {
-      "epoch": 18.75751503006012,
-      "grad_norm": 17.58114242553711,
-      "learning_rate": 3.1362007168458782e-06,
-      "loss": 0.2801,
-      "step": 2340
-    },
-    {
-      "epoch": 18.837675350701403,
-      "grad_norm": 18.223283767700195,
-      "learning_rate": 2.9121863799283156e-06,
-      "loss": 0.2792,
-      "step": 2350
-    },
-    {
-      "epoch": 18.917835671342687,
-      "grad_norm": 19.910411834716797,
-      "learning_rate": 2.688172043010753e-06,
-      "loss": 0.3133,
-      "step": 2360
-    },
-    {
-      "epoch": 18.997995991983966,
-      "grad_norm": 18.749902725219727,
-      "learning_rate": 2.4641577060931903e-06,
-      "loss": 0.2849,
-      "step": 2370
-    },
-    {
-      "epoch": 18.997995991983966,
-      "eval_accuracy": 0.8607666290868095,
-      "eval_loss": 0.4698711931705475,
-      "eval_runtime": 16.5801,
-      "eval_samples_per_second": 106.996,
-      "eval_steps_per_second": 3.378,
-      "step": 2370
-    },
-    {
-      "epoch": 19.07815631262525,
-      "grad_norm": 16.722375869750977,
-      "learning_rate": 2.2401433691756272e-06,
-      "loss": 0.3041,
-      "step": 2380
-    },
-    {
-      "epoch": 19.158316633266534,
-      "grad_norm": 23.04833221435547,
-      "learning_rate": 2.0161290322580646e-06,
-      "loss": 0.301,
-      "step": 2390
-    },
-    {
-      "epoch": 19.238476953907817,
-      "grad_norm": 20.021759033203125,
-      "learning_rate": 1.7921146953405017e-06,
-      "loss": 0.2723,
-      "step": 2400
-    },
-    {
-      "epoch": 19.318637274549097,
-      "grad_norm": 18.34398078918457,
-      "learning_rate": 1.5681003584229391e-06,
-      "loss": 0.2484,
-      "step": 2410
-    },
-    {
-      "epoch": 19.39879759519038,
-      "grad_norm": 18.83694839477539,
-      "learning_rate": 1.3440860215053765e-06,
-      "loss": 0.3204,
-      "step": 2420
-    },
-    {
-      "epoch": 19.478957915831664,
-      "grad_norm": 16.674007415771484,
-      "learning_rate": 1.1200716845878136e-06,
-      "loss": 0.3034,
-      "step": 2430
-    },
-    {
-      "epoch": 19.559118236472948,
-      "grad_norm": 28.710783004760742,
-      "learning_rate": 8.960573476702509e-07,
-      "loss": 0.3078,
-      "step": 2440
-    },
-    {
-      "epoch": 19.639278557114228,
-      "grad_norm": 18.92753791809082,
-      "learning_rate": 6.720430107526882e-07,
-      "loss": 0.2644,
-      "step": 2450
-    },
-    {
-      "epoch": 19.71943887775551,
-      "grad_norm": 17.13638687133789,
-      "learning_rate": 4.4802867383512544e-07,
-      "loss": 0.2673,
-      "step": 2460
-    },
-    {
-      "epoch": 19.799599198396795,
-      "grad_norm": 18.35292625427246,
-      "learning_rate": 2.2401433691756272e-07,
-      "loss": 0.2569,
-      "step": 2470
     },
     {
-      "epoch": 19.879759519038075,
-      "grad_norm": 18.86850929260254,
-      "learning_rate": 0.0,
-      "loss": 0.2456,
-      "step": 2480
-    },
-    {
-      "epoch": 19.879759519038075,
-      "eval_accuracy": 0.8664036076662909,
-      "eval_loss": 0.4505213499069214,
-      "eval_runtime": 16.6944,
-      "eval_samples_per_second": 106.263,
-      "eval_steps_per_second": 3.354,
-      "step": 2480
-    },
-    {
-      "epoch": 19.879759519038075,
-      "step": 2480,
-      "total_flos": 8.259382470828884e+18,
-      "train_loss": 0.5719680822664691,
-      "train_runtime": 7149.119,
-      "train_samples_per_second": 44.654,
-      "train_steps_per_second": 0.347
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2480,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 8.259382470828884e+18,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8562570462232244,
+  "best_model_checkpoint": "dinov2-small-imagenet1k-1-layer-finetuned-galaxy10-decals/checkpoint-1750",
+  "epoch": 29.76,
   "eval_steps": 500,
+  "global_step": 1860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.16,
+      "learning_rate": 2.688172043010753e-06,
+      "loss": 2.558,
       "step": 10
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 2.0637,
       "step": 20
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 8.064516129032258e-06,
+      "loss": 1.6881,
       "step": 30
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 1.4019,
       "step": 40
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 1.3440860215053763e-05,
+      "loss": 1.2171,
       "step": 50
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 1.0027,
       "step": 60
     },
     {
+      "epoch": 0.99,
+      "eval_accuracy": 0.7080045095828635,
+      "eval_f1": 0.7016603472901116,
+      "eval_loss": 0.8262113928794861,
+      "eval_precision": 0.7230853006708634,
+      "eval_recall": 0.7080045095828635,
+      "eval_runtime": 10.7016,
+      "eval_samples_per_second": 165.77,
+      "eval_steps_per_second": 2.616,
+      "step": 62
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.881720430107527e-05,
+      "loss": 0.9389,
       "step": 70
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 0.9166,
       "step": 80
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 2.4193548387096777e-05,
+      "loss": 0.8792,
       "step": 90
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 0.8329,
       "step": 100
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 2.9569892473118284e-05,
+      "loss": 0.7826,
       "step": 110
     },
     {
+      "epoch": 1.92,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 0.8374,
       "step": 120
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7948139797068771,
+      "eval_f1": 0.789920738225672,
+      "eval_loss": 0.612916111946106,
+      "eval_precision": 0.7960304264137663,
+      "eval_recall": 0.7948139797068771,
+      "eval_runtime": 9.6957,
+      "eval_samples_per_second": 182.968,
+      "eval_steps_per_second": 2.888,
+      "step": 125
     },
     {
+      "epoch": 2.08,
+      "learning_rate": 3.494623655913979e-05,
+      "loss": 0.804,
       "step": 130
     },
     {
+      "epoch": 2.24,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 0.8107,
       "step": 140
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 4.032258064516129e-05,
+      "loss": 0.791,
       "step": 150
     },
     {
+      "epoch": 2.56,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.7538,
       "step": 160
     },
     {
+      "epoch": 2.72,
+      "learning_rate": 4.56989247311828e-05,
+      "loss": 0.7667,
       "step": 170
     },
     {
+      "epoch": 2.88,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.7753,
       "step": 180
     },
     {
+      "epoch": 2.99,
+      "eval_accuracy": 0.7891770011273957,
+      "eval_f1": 0.7786862536985929,
+      "eval_loss": 0.6555072665214539,
+      "eval_precision": 0.792054417969131,
+      "eval_recall": 0.7891770011273957,
+      "eval_runtime": 9.4242,
+      "eval_samples_per_second": 188.238,
+      "eval_steps_per_second": 2.971,
+      "step": 187
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 4.98805256869773e-05,
+      "loss": 0.8543,
       "step": 190
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 4.9581839904420555e-05,
+      "loss": 0.7868,
       "step": 200
     },
     {
+      "epoch": 3.36,
+      "learning_rate": 4.92831541218638e-05,
+      "loss": 0.7524,
       "step": 210
     },
     {
+      "epoch": 3.52,
+      "learning_rate": 4.898446833930705e-05,
+      "loss": 0.803,
       "step": 220
     },
     {
+      "epoch": 3.68,
+      "learning_rate": 4.86857825567503e-05,
+      "loss": 0.7192,
       "step": 230
     },
     {
+      "epoch": 3.84,
       "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.7813,
       "step": 240
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 4.80884109916368e-05,
+      "loss": 0.7165,
+      "step": 250
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8004509582863585,
+      "eval_f1": 0.7970428033398866,
+      "eval_loss": 0.5862058401107788,
+      "eval_precision": 0.8052638185635553,
+      "eval_recall": 0.8004509582863585,
+      "eval_runtime": 9.4111,
+      "eval_samples_per_second": 188.5,
+      "eval_steps_per_second": 2.975,
       "step": 250
     },
     {
+      "epoch": 4.16,
+      "learning_rate": 4.778972520908005e-05,
+      "loss": 0.728,
       "step": 260
     },
     {
+      "epoch": 4.32,
+      "learning_rate": 4.74910394265233e-05,
+      "loss": 0.7121,
       "step": 270
     },
     {
+      "epoch": 4.48,
+      "learning_rate": 4.7192353643966546e-05,
+      "loss": 0.6889,
       "step": 280
     },
     {
+      "epoch": 4.64,
+      "learning_rate": 4.6893667861409805e-05,
+      "loss": 0.6748,
       "step": 290
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 4.659498207885305e-05,
+      "loss": 0.7071,
       "step": 300
     },
     {
+      "epoch": 4.96,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.6477,
       "step": 310
     },
     {
+      "epoch": 4.99,
+      "eval_accuracy": 0.7965050732807215,
+      "eval_f1": 0.7985277928131062,
+      "eval_loss": 0.6183481216430664,
+      "eval_precision": 0.8118777372534622,
+      "eval_recall": 0.7965050732807215,
+      "eval_runtime": 9.6246,
+      "eval_samples_per_second": 184.32,
+      "eval_steps_per_second": 2.909,
+      "step": 312
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 4.5997610513739546e-05,
+      "loss": 0.6682,
       "step": 320
     },
     {
+      "epoch": 5.28,
+      "learning_rate": 4.56989247311828e-05,
+      "loss": 0.6595,
       "step": 330
     },
     {
+      "epoch": 5.44,
+      "learning_rate": 4.540023894862604e-05,
+      "loss": 0.6427,
       "step": 340
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 4.51015531660693e-05,
+      "loss": 0.6044,
       "step": 350
     },
     {
+      "epoch": 5.76,
+      "learning_rate": 4.4802867383512545e-05,
+      "loss": 0.6392,
       "step": 360
     },
     {
+      "epoch": 5.92,
+      "learning_rate": 4.4504181600955796e-05,
+      "loss": 0.6892,
       "step": 370
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8246899661781285,
+      "eval_f1": 0.8194968508495551,
+      "eval_loss": 0.530994176864624,
+      "eval_precision": 0.8274763562734486,
+      "eval_recall": 0.8246899661781285,
+      "eval_runtime": 9.4059,
+      "eval_samples_per_second": 188.605,
+      "eval_steps_per_second": 2.977,
+      "step": 375
     },
     {
+      "epoch": 6.08,
+      "learning_rate": 4.420549581839905e-05,
+      "loss": 0.6048,
       "step": 380
     },
     {
+      "epoch": 6.24,
+      "learning_rate": 4.390681003584229e-05,
+      "loss": 0.6048,
       "step": 390
     },
     {
+      "epoch": 6.4,
+      "learning_rate": 4.360812425328555e-05,
+      "loss": 0.5979,
       "step": 400
     },
     {
+      "epoch": 6.56,
+      "learning_rate": 4.3309438470728796e-05,
+      "loss": 0.599,
       "step": 410
     },
     {
+      "epoch": 6.72,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.5938,
       "step": 420
     },
     {
+      "epoch": 6.88,
+      "learning_rate": 4.271206690561529e-05,
+      "loss": 0.6171,
       "step": 430
     },
     {
+      "epoch": 6.99,
+      "eval_accuracy": 0.8083427282976324,
+      "eval_f1": 0.8021700130993371,
+      "eval_loss": 0.5677684545516968,
+      "eval_precision": 0.8157285448675808,
+      "eval_recall": 0.8083427282976324,
+      "eval_runtime": 9.4301,
+      "eval_samples_per_second": 188.121,
+      "eval_steps_per_second": 2.969,
+      "step": 437
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 4.241338112305854e-05,
+      "loss": 0.6715,
       "step": 440
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 4.2114695340501795e-05,
+      "loss": 0.6297,
       "step": 450
     },
     {
+      "epoch": 7.36,
+      "learning_rate": 4.1816009557945046e-05,
+      "loss": 0.5852,
       "step": 460
     },
     {
+      "epoch": 7.52,
+      "learning_rate": 4.15173237753883e-05,
+      "loss": 0.6125,
       "step": 470
     },
     {
+      "epoch": 7.68,
+      "learning_rate": 4.121863799283154e-05,
+      "loss": 0.5598,
       "step": 480
     },
     {
+      "epoch": 7.84,
+      "learning_rate": 4.0919952210274794e-05,
+      "loss": 0.5845,
       "step": 490
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 4.062126642771804e-05,
+      "loss": 0.55,
+      "step": 500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8325817361894025,
+      "eval_f1": 0.8316011722287234,
+      "eval_loss": 0.49609655141830444,
+      "eval_precision": 0.8352811642513641,
+      "eval_recall": 0.8325817361894025,
+      "eval_runtime": 9.446,
+      "eval_samples_per_second": 187.804,
+      "eval_steps_per_second": 2.964,
       "step": 500
     },
     {
+      "epoch": 8.16,
+      "learning_rate": 4.032258064516129e-05,
+      "loss": 0.5259,
       "step": 510
     },
     {
+      "epoch": 8.32,
+      "learning_rate": 4.002389486260454e-05,
+      "loss": 0.5585,
       "step": 520
     },
     {
+      "epoch": 8.48,
+      "learning_rate": 3.972520908004779e-05,
+      "loss": 0.5927,
       "step": 530
     },
     {
+      "epoch": 8.64,
+      "learning_rate": 3.9426523297491045e-05,
+      "loss": 0.5585,
       "step": 540
     },
     {
+      "epoch": 8.8,
+      "learning_rate": 3.912783751493429e-05,
+      "loss": 0.5732,
       "step": 550
     },
     {
+      "epoch": 8.96,
+      "learning_rate": 3.882915173237754e-05,
+      "loss": 0.5615,
       "step": 560
     },
     {
+      "epoch": 8.99,
+      "eval_accuracy": 0.830890642615558,
+      "eval_f1": 0.8274241002805047,
+      "eval_loss": 0.5032677054405212,
+      "eval_precision": 0.831185175749917,
+      "eval_recall": 0.830890642615558,
+      "eval_runtime": 9.45,
+      "eval_samples_per_second": 187.725,
+      "eval_steps_per_second": 2.963,
+      "step": 562
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 3.8530465949820786e-05,
+      "loss": 0.5505,
       "step": 570
     },
     {
+      "epoch": 9.28,
+      "learning_rate": 3.8231780167264044e-05,
+      "loss": 0.5101,
       "step": 580
     },
     {
+      "epoch": 9.44,
+      "learning_rate": 3.793309438470729e-05,
+      "loss": 0.5215,
       "step": 590
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 0.5503,
       "step": 600
     },
     {
+      "epoch": 9.76,
+      "learning_rate": 3.7335722819593785e-05,
+      "loss": 0.5045,
       "step": 610
     },
     {
+      "epoch": 9.92,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.5107,
       "step": 620
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8190529875986471,
+      "eval_f1": 0.8152076243657725,
+      "eval_loss": 0.5162058472633362,
+      "eval_precision": 0.8163659955266428,
+      "eval_recall": 0.8190529875986471,
+      "eval_runtime": 9.4412,
+      "eval_samples_per_second": 187.9,
+      "eval_steps_per_second": 2.966,
+      "step": 625
     },
     {
+      "epoch": 10.08,
+      "learning_rate": 3.673835125448029e-05,
+      "loss": 0.5196,
       "step": 630
     },
     {
+      "epoch": 10.24,
+      "learning_rate": 3.643966547192354e-05,
+      "loss": 0.5125,
       "step": 640
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 3.614097968936679e-05,
+      "loss": 0.5879,
       "step": 650
     },
     {
+      "epoch": 10.56,
+      "learning_rate": 3.5842293906810036e-05,
+      "loss": 0.5195,
       "step": 660
     },
     {
+      "epoch": 10.72,
+      "learning_rate": 3.554360812425329e-05,
+      "loss": 0.4909,
       "step": 670
     },
     {
+      "epoch": 10.88,
+      "learning_rate": 3.524492234169653e-05,
+      "loss": 0.5237,
       "step": 680
     },
     {
+      "epoch": 10.99,
+      "eval_accuracy": 0.8421645997745209,
+      "eval_f1": 0.8381375195281238,
+      "eval_loss": 0.4789753556251526,
+      "eval_precision": 0.8451751547830025,
+      "eval_recall": 0.8421645997745209,
+      "eval_runtime": 9.4165,
+      "eval_samples_per_second": 188.392,
+      "eval_steps_per_second": 2.973,
+      "step": 687
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 3.494623655913979e-05,
+      "loss": 0.4974,
       "step": 690
     },
     {
+      "epoch": 11.2,
+      "learning_rate": 3.4647550776583035e-05,
+      "loss": 0.4889,
       "step": 700
     },
     {
+      "epoch": 11.36,
+      "learning_rate": 3.4348864994026287e-05,
+      "loss": 0.4849,
       "step": 710
     },
     {
+      "epoch": 11.52,
+      "learning_rate": 3.405017921146954e-05,
+      "loss": 0.4964,
       "step": 720
     },
     {
+      "epoch": 11.68,
+      "learning_rate": 3.375149342891278e-05,
+      "loss": 0.5049,
       "step": 730
     },
     {
+      "epoch": 11.84,
+      "learning_rate": 3.3452807646356034e-05,
+      "loss": 0.4907,
       "step": 740
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 3.3154121863799286e-05,
+      "loss": 0.4954,
+      "step": 750
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8421645997745209,
+      "eval_f1": 0.8372920175463381,
+      "eval_loss": 0.4781884253025055,
+      "eval_precision": 0.8430155601755086,
+      "eval_recall": 0.8421645997745209,
+      "eval_runtime": 9.4751,
+      "eval_samples_per_second": 187.227,
+      "eval_steps_per_second": 2.955,
       "step": 750
     },
     {
+      "epoch": 12.16,
+      "learning_rate": 3.285543608124254e-05,
+      "loss": 0.4693,
       "step": 760
     },
     {
+      "epoch": 12.32,
+      "learning_rate": 3.255675029868578e-05,
+      "loss": 0.4387,
       "step": 770
     },
     {
+      "epoch": 12.48,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 0.4934,
       "step": 780
     },
     {
+      "epoch": 12.64,
+      "learning_rate": 3.195937873357228e-05,
+      "loss": 0.471,
       "step": 790
     },
     {
+      "epoch": 12.8,
+      "learning_rate": 3.1660692951015537e-05,
+      "loss": 0.4691,
       "step": 800
     },
     {
+      "epoch": 12.96,
+      "learning_rate": 3.136200716845878e-05,
+      "loss": 0.4887,
       "step": 810
     },
     {
+      "epoch": 12.99,
+      "eval_accuracy": 0.8370913190529876,
+      "eval_f1": 0.8358084111631787,
+      "eval_loss": 0.46888935565948486,
+      "eval_precision": 0.8394938653593303,
+      "eval_recall": 0.8370913190529876,
+      "eval_runtime": 9.4084,
+      "eval_samples_per_second": 188.555,
+      "eval_steps_per_second": 2.976,
+      "step": 812
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 3.106332138590203e-05,
+      "loss": 0.4613,
       "step": 820
     },
     {
+      "epoch": 13.28,
+      "learning_rate": 3.0764635603345284e-05,
+      "loss": 0.4439,
       "step": 830
     },
     {
+      "epoch": 13.44,
+      "learning_rate": 3.046594982078853e-05,
+      "loss": 0.5005,
       "step": 840
     },
     {
+      "epoch": 13.6,
+      "learning_rate": 3.016726403823178e-05,
+      "loss": 0.4262,
       "step": 850
     },
     {
+      "epoch": 13.76,
+      "learning_rate": 2.9868578255675032e-05,
+      "loss": 0.4866,
       "step": 860
     },
     {
+      "epoch": 13.92,
+      "learning_rate": 2.9569892473118284e-05,
+      "loss": 0.4629,
       "step": 870
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8523111612175873,
+      "eval_f1": 0.8502117923643765,
+      "eval_loss": 0.45412173867225647,
+      "eval_precision": 0.8500083028083808,
+      "eval_recall": 0.8523111612175873,
+      "eval_runtime": 9.4205,
+      "eval_samples_per_second": 188.313,
+      "eval_steps_per_second": 2.972,
+      "step": 875
     },
     {
+      "epoch": 14.08,
+      "learning_rate": 2.9271206690561532e-05,
+      "loss": 0.4421,
       "step": 880
     },
     {
+      "epoch": 14.24,
+      "learning_rate": 2.897252090800478e-05,
+      "loss": 0.3844,
       "step": 890
     },
     {
+      "epoch": 14.4,
+      "learning_rate": 2.8673835125448028e-05,
+      "loss": 0.4462,
       "step": 900
     },
     {
+      "epoch": 14.56,
+      "learning_rate": 2.8375149342891276e-05,
+      "loss": 0.4703,
       "step": 910
     },
     {
+      "epoch": 14.72,
+      "learning_rate": 2.807646356033453e-05,
+      "loss": 0.4755,
       "step": 920
     },
     {
+      "epoch": 14.88,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.4486,
       "step": 930
     },
     {
+      "epoch": 14.99,
+      "eval_accuracy": 0.8404735062006764,
+      "eval_f1": 0.8394262955931711,
+      "eval_loss": 0.4754864275455475,
+      "eval_precision": 0.8400472182964517,
+      "eval_recall": 0.8404735062006764,
+      "eval_runtime": 9.6429,
+      "eval_samples_per_second": 183.97,
+      "eval_steps_per_second": 2.904,
+      "step": 937
+    },
+    {
+      "epoch": 15.04,
+      "learning_rate": 2.747909199522103e-05,
+      "loss": 0.4446,
       "step": 940
     },
     {
+      "epoch": 15.2,
+      "learning_rate": 2.718040621266428e-05,
+      "loss": 0.4243,
       "step": 950
     },
     {
+      "epoch": 15.36,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 0.4136,
       "step": 960
     },
     {
+      "epoch": 15.52,
+      "learning_rate": 2.6583034647550775e-05,
+      "loss": 0.4471,
       "step": 970
     },
     {
+      "epoch": 15.68,
+      "learning_rate": 2.628434886499403e-05,
+      "loss": 0.3961,
       "step": 980
     },
     {
+      "epoch": 15.84,
+      "learning_rate": 2.5985663082437278e-05,
+      "loss": 0.4334,
       "step": 990
     },
     {
+      "epoch": 16.0,
+      "learning_rate": 2.5686977299880526e-05,
+      "loss": 0.4361,
+      "step": 1000
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8370913190529876,
+      "eval_f1": 0.8369915773538048,
+      "eval_loss": 0.47626104950904846,
+      "eval_precision": 0.8391572358322159,
+      "eval_recall": 0.8370913190529876,
+      "eval_runtime": 9.6357,
+      "eval_samples_per_second": 184.107,
+      "eval_steps_per_second": 2.906,
       "step": 1000
     },
     {
+      "epoch": 16.16,
+      "learning_rate": 2.5388291517323774e-05,
+      "loss": 0.4227,
       "step": 1010
     },
     {
+      "epoch": 16.32,
+      "learning_rate": 2.5089605734767026e-05,
+      "loss": 0.3709,
       "step": 1020
     },
     {
+      "epoch": 16.48,
+      "learning_rate": 2.4790919952210277e-05,
+      "loss": 0.3767,
       "step": 1030
     },
     {
+      "epoch": 16.64,
+      "learning_rate": 2.4492234169653525e-05,
+      "loss": 0.4753,
       "step": 1040
     },
     {
+      "epoch": 16.8,
+      "learning_rate": 2.4193548387096777e-05,
+      "loss": 0.41,
       "step": 1050
     },
     {
+      "epoch": 16.96,
+      "learning_rate": 2.3894862604540025e-05,
+      "loss": 0.3833,
       "step": 1060
     },
     {
+      "epoch": 16.99,
+      "eval_accuracy": 0.8416009019165727,
+      "eval_f1": 0.8396254917954661,
+      "eval_loss": 0.4982186257839203,
+      "eval_precision": 0.8428664297953069,
+      "eval_recall": 0.8416009019165727,
+      "eval_runtime": 9.4953,
+      "eval_samples_per_second": 186.829,
+      "eval_steps_per_second": 2.949,
+      "step": 1062
+    },
+    {
+      "epoch": 17.12,
+      "learning_rate": 2.3596176821983273e-05,
+      "loss": 0.4147,
       "step": 1070
     },
     {
+      "epoch": 17.28,
+      "learning_rate": 2.3297491039426525e-05,
+      "loss": 0.411,
       "step": 1080
     },
     {
+      "epoch": 17.44,
+      "learning_rate": 2.2998805256869773e-05,
+      "loss": 0.4258,
       "step": 1090
     },
     {
+      "epoch": 17.6,
+      "learning_rate": 2.270011947431302e-05,
+      "loss": 0.4165,
       "step": 1100
     },
     {
+      "epoch": 17.76,
+      "learning_rate": 2.2401433691756272e-05,
+      "loss": 0.3852,
       "step": 1110
     },
     {
+      "epoch": 17.92,
+      "learning_rate": 2.2102747909199524e-05,
+      "loss": 0.3788,
       "step": 1120
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.8291995490417137,
+      "eval_f1": 0.826730633772571,
+      "eval_loss": 0.5631851553916931,
+      "eval_precision": 0.836503982215401,
+      "eval_recall": 0.8291995490417137,
+      "eval_runtime": 9.4,
+      "eval_samples_per_second": 188.724,
+      "eval_steps_per_second": 2.979,
+      "step": 1125
     },
     {
+      "epoch": 18.08,
+      "learning_rate": 2.1804062126642775e-05,
+      "loss": 0.4057,
       "step": 1130
     },
     {
+      "epoch": 18.24,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 0.356,
       "step": 1140
     },
     {
+      "epoch": 18.4,
+      "learning_rate": 2.120669056152927e-05,
+      "loss": 0.3455,
       "step": 1150
     },
     {
+      "epoch": 18.56,
+      "learning_rate": 2.0908004778972523e-05,
+      "loss": 0.3733,
       "step": 1160
     },
     {
+      "epoch": 18.72,
+      "learning_rate": 2.060931899641577e-05,
+      "loss": 0.3674,
       "step": 1170
     },
     {
+      "epoch": 18.88,
+      "learning_rate": 2.031063321385902e-05,
+      "loss": 0.3722,
       "step": 1180
     },
     {
+      "epoch": 18.99,
+      "eval_accuracy": 0.8387824126268321,
+      "eval_f1": 0.8356991631458416,
+      "eval_loss": 0.5161823034286499,
+      "eval_precision": 0.8364077463920019,
+      "eval_recall": 0.8387824126268321,
+      "eval_runtime": 9.4455,
+      "eval_samples_per_second": 187.814,
+      "eval_steps_per_second": 2.964,
+      "step": 1187
+    },
+    {
+      "epoch": 19.04,
+      "learning_rate": 2.001194743130227e-05,
+      "loss": 0.377,
       "step": 1190
     },
     {
+      "epoch": 19.2,
+      "learning_rate": 1.9713261648745522e-05,
+      "loss": 0.3445,
       "step": 1200
     },
     {
+      "epoch": 19.36,
+      "learning_rate": 1.941457586618877e-05,
+      "loss": 0.3634,
       "step": 1210
     },
     {
+      "epoch": 19.52,
+      "learning_rate": 1.9115890083632022e-05,
+      "loss": 0.37,
       "step": 1220
     },
     {
+      "epoch": 19.68,
+      "learning_rate": 1.881720430107527e-05,
+      "loss": 0.3587,
       "step": 1230
     },
     {
+      "epoch": 19.84,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.3676,
       "step": 1240
     },
     {
+      "epoch": 20.0,
+      "learning_rate": 1.821983273596177e-05,
+      "loss": 0.3467,
+      "step": 1250
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8399098083427283,
+      "eval_f1": 0.8341879072603243,
+      "eval_loss": 0.512520968914032,
+      "eval_precision": 0.8356956407334528,
+      "eval_recall": 0.8399098083427283,
+      "eval_runtime": 9.3979,
+      "eval_samples_per_second": 188.765,
+      "eval_steps_per_second": 2.979,
       "step": 1250
     },
     {
+      "epoch": 20.16,
+      "learning_rate": 1.7921146953405018e-05,
+      "loss": 0.3306,
       "step": 1260
     },
     {
+      "epoch": 20.32,
+      "learning_rate": 1.7622461170848266e-05,
+      "loss": 0.3441,
       "step": 1270
     },
     {
+      "epoch": 20.48,
+      "learning_rate": 1.7323775388291518e-05,
+      "loss": 0.3275,
       "step": 1280
     },
     {
+      "epoch": 20.64,
+      "learning_rate": 1.702508960573477e-05,
+      "loss": 0.3437,
       "step": 1290
     },
     {
+      "epoch": 20.8,
+      "learning_rate": 1.6726403823178017e-05,
+      "loss": 0.3654,
       "step": 1300
     },
     {
+      "epoch": 20.96,
+      "learning_rate": 1.642771804062127e-05,
+      "loss": 0.3518,
       "step": 1310
     },
     {
+      "epoch": 20.99,
+      "eval_accuracy": 0.830890642615558,
+      "eval_f1": 0.8276459982195031,
+      "eval_loss": 0.5569064617156982,
+      "eval_precision": 0.8326824734829679,
+      "eval_recall": 0.830890642615558,
+      "eval_runtime": 9.4092,
+      "eval_samples_per_second": 188.538,
+      "eval_steps_per_second": 2.976,
+      "step": 1312
+    },
+    {
+      "epoch": 21.12,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 0.3096,
       "step": 1320
     },
     {
+      "epoch": 21.28,
+      "learning_rate": 1.5830346475507768e-05,
+      "loss": 0.3105,
       "step": 1330
     },
     {
+      "epoch": 21.44,
+      "learning_rate": 1.5531660692951016e-05,
+      "loss": 0.3231,
       "step": 1340
     },
     {
+      "epoch": 21.6,
+      "learning_rate": 1.5232974910394265e-05,
+      "loss": 0.3348,
       "step": 1350
     },
     {
+      "epoch": 21.76,
+      "learning_rate": 1.4934289127837516e-05,
+      "loss": 0.3267,
       "step": 1360
     },
     {
+      "epoch": 21.92,
+      "learning_rate": 1.4635603345280766e-05,
+      "loss": 0.3432,
       "step": 1370
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 0.8483652762119503,
+      "eval_f1": 0.8454482921463644,
+      "eval_loss": 0.503221333026886,
+      "eval_precision": 0.8451494566314203,
+      "eval_recall": 0.8483652762119503,
+      "eval_runtime": 9.6561,
+      "eval_samples_per_second": 183.718,
+      "eval_steps_per_second": 2.9,
+      "step": 1375
     },
     {
+      "epoch": 22.08,
+      "learning_rate": 1.4336917562724014e-05,
+      "loss": 0.2949,
       "step": 1380
     },
     {
+      "epoch": 22.24,
+      "learning_rate": 1.4038231780167265e-05,
+      "loss": 0.2799,
       "step": 1390
     },
     {
+      "epoch": 22.4,
+      "learning_rate": 1.3739545997610515e-05,
+      "loss": 0.3187,
       "step": 1400
     },
     {
+      "epoch": 22.56,
+      "learning_rate": 1.3440860215053763e-05,
+      "loss": 0.3097,
       "step": 1410
     },
     {
+      "epoch": 22.72,
+      "learning_rate": 1.3142174432497015e-05,
+      "loss": 0.3246,
       "step": 1420
     },
     {
+      "epoch": 22.88,
+      "learning_rate": 1.2843488649940263e-05,
+      "loss": 0.3067,
       "step": 1430
     },
     {
+      "epoch": 22.99,
+      "eval_accuracy": 0.8432919954904171,
+      "eval_f1": 0.8432965588108505,
+      "eval_loss": 0.5245735049247742,
+      "eval_precision": 0.8461645036328044,
+      "eval_recall": 0.8432919954904171,
+      "eval_runtime": 9.4406,
+      "eval_samples_per_second": 187.912,
+      "eval_steps_per_second": 2.966,
+      "step": 1437
+    },
+    {
+      "epoch": 23.04,
+      "learning_rate": 1.2544802867383513e-05,
+      "loss": 0.3102,
       "step": 1440
     },
     {
+      "epoch": 23.2,
+      "learning_rate": 1.2246117084826763e-05,
+      "loss": 0.2936,
       "step": 1450
     },
     {
+      "epoch": 23.36,
+      "learning_rate": 1.1947431302270013e-05,
+      "loss": 0.2917,
       "step": 1460
     },
     {
+      "epoch": 23.52,
+      "learning_rate": 1.1648745519713262e-05,
+      "loss": 0.278,
       "step": 1470
     },
     {
+      "epoch": 23.68,
+      "learning_rate": 1.135005973715651e-05,
+      "loss": 0.3334,
       "step": 1480
     },
     {
+      "epoch": 23.84,
+      "learning_rate": 1.1051373954599762e-05,
+      "loss": 0.2626,
       "step": 1490
     },
     {
+      "epoch": 24.0,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 0.2923,
       "step": 1500
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.846674182638106,
+      "eval_f1": 0.846389580543113,
+      "eval_loss": 0.5363038778305054,
+      "eval_precision": 0.84823995361272,
+      "eval_recall": 0.846674182638106,
+      "eval_runtime": 9.4508,
+      "eval_samples_per_second": 187.708,
+      "eval_steps_per_second": 2.963,
+      "step": 1500
+    },
+    {
+      "epoch": 24.16,
+      "learning_rate": 1.0454002389486262e-05,
+      "loss": 0.2874,
       "step": 1510
     },
     {
+      "epoch": 24.32,
+      "learning_rate": 1.015531660692951e-05,
+      "loss": 0.2991,
       "step": 1520
     },
     {
+      "epoch": 24.48,
+      "learning_rate": 9.856630824372761e-06,
+      "loss": 0.2951,
       "step": 1530
     },
     {
+      "epoch": 24.64,
+      "learning_rate": 9.557945041816011e-06,
+      "loss": 0.2664,
       "step": 1540
     },
     {
+      "epoch": 24.8,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.2643,
       "step": 1550
     },
     {
+      "epoch": 24.96,
+      "learning_rate": 8.960573476702509e-06,
+      "loss": 0.303,
       "step": 1560
     },
     {
+      "epoch": 24.99,
+      "eval_accuracy": 0.8483652762119503,
+      "eval_f1": 0.8456910500695487,
+      "eval_loss": 0.543497622013092,
+      "eval_precision": 0.8453137649338565,
+      "eval_recall": 0.8483652762119503,
+      "eval_runtime": 9.4055,
+      "eval_samples_per_second": 188.613,
+      "eval_steps_per_second": 2.977,
+      "step": 1562
+    },
+    {
+      "epoch": 25.12,
+      "learning_rate": 8.661887694145759e-06,
+      "loss": 0.2598,
       "step": 1570
     },
     {
+      "epoch": 25.28,
+      "learning_rate": 8.363201911589009e-06,
+      "loss": 0.2491,
       "step": 1580
     },
     {
+      "epoch": 25.44,
+      "learning_rate": 8.064516129032258e-06,
+      "loss": 0.2478,
       "step": 1590
     },
     {
+      "epoch": 25.6,
+      "learning_rate": 7.765830346475508e-06,
+      "loss": 0.2817,
       "step": 1600
     },
     {
+      "epoch": 25.76,
+      "learning_rate": 7.467144563918758e-06,
+      "loss": 0.2645,
       "step": 1610
     },
     {
+      "epoch": 25.92,
+      "learning_rate": 7.168458781362007e-06,
+      "loss": 0.2523,
       "step": 1620
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.8444193912063134,
+      "eval_f1": 0.8419142587663883,
+      "eval_loss": 0.5499712824821472,
+      "eval_precision": 0.8421658227924053,
+      "eval_recall": 0.8444193912063134,
+      "eval_runtime": 9.4664,
+      "eval_samples_per_second": 187.399,
+      "eval_steps_per_second": 2.958,
+      "step": 1625
+    },
+    {
+      "epoch": 26.08,
+      "learning_rate": 6.869772998805258e-06,
+      "loss": 0.2821,
       "step": 1630
     },
     {
+      "epoch": 26.24,
+      "learning_rate": 6.5710872162485075e-06,
+      "loss": 0.2845,
       "step": 1640
     },
     {
+      "epoch": 26.4,
+      "learning_rate": 6.2724014336917564e-06,
+      "loss": 0.2578,
       "step": 1650
     },
     {
+      "epoch": 26.56,
+      "learning_rate": 5.973715651135006e-06,
+      "loss": 0.2487,
       "step": 1660
     },
     {
+      "epoch": 26.72,
+      "learning_rate": 5.675029868578255e-06,
+      "loss": 0.2626,
       "step": 1670
     },
     {
+      "epoch": 26.88,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 0.2523,
       "step": 1680
     },
     {
+      "epoch": 26.99,
+      "eval_accuracy": 0.8528748590755355,
+      "eval_f1": 0.8529064904562935,
+      "eval_loss": 0.5368608832359314,
+      "eval_precision": 0.85325189512013,
+      "eval_recall": 0.8528748590755355,
+      "eval_runtime": 9.4466,
+      "eval_samples_per_second": 187.792,
+      "eval_steps_per_second": 2.964,
+      "step": 1687
+    },
+    {
+      "epoch": 27.04,
+      "learning_rate": 5.077658303464755e-06,
+      "loss": 0.2445,
       "step": 1690
     },
     {
+      "epoch": 27.2,
+      "learning_rate": 4.7789725209080055e-06,
+      "loss": 0.254,
       "step": 1700
     },
     {
+      "epoch": 27.36,
+      "learning_rate": 4.4802867383512545e-06,
+      "loss": 0.2609,
       "step": 1710
     },
     {
+      "epoch": 27.52,
+      "learning_rate": 4.181600955794504e-06,
+      "loss": 0.2406,
       "step": 1720
     },
     {
+      "epoch": 27.68,
+      "learning_rate": 3.882915173237754e-06,
+      "loss": 0.217,
       "step": 1730
     },
     {
+      "epoch": 27.84,
+      "learning_rate": 3.5842293906810035e-06,
+      "loss": 0.2385,
       "step": 1740
     },
     {
+      "epoch": 28.0,
+      "learning_rate": 3.2855436081242537e-06,
+      "loss": 0.262,
+      "step": 1750
     },
     {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8562570462232244,
+      "eval_f1": 0.8543013145108364,
+      "eval_loss": 0.5373367667198181,
+      "eval_precision": 0.8535856101978109,
+      "eval_recall": 0.8562570462232244,
+      "eval_runtime": 9.4681,
+      "eval_samples_per_second": 187.366,
+      "eval_steps_per_second": 2.957,
       "step": 1750
     },
     {
+      "epoch": 28.16,
+      "learning_rate": 2.986857825567503e-06,
+      "loss": 0.2366,
       "step": 1760
     },
     {
+      "epoch": 28.32,
+      "learning_rate": 2.688172043010753e-06,
+      "loss": 0.2395,
       "step": 1770
     },
     {
+      "epoch": 28.48,
+      "learning_rate": 2.3894862604540028e-06,
+      "loss": 0.221,
       "step": 1780
     },
     {
+      "epoch": 28.64,
+      "learning_rate": 2.090800477897252e-06,
+      "loss": 0.2437,
       "step": 1790
     },
     {
+      "epoch": 28.8,
+      "learning_rate": 1.7921146953405017e-06,
+      "loss": 0.2405,
       "step": 1800
     },
     {
+      "epoch": 28.96,
+      "learning_rate": 1.4934289127837516e-06,
+      "loss": 0.232,
       "step": 1810
     },
     {
+      "epoch": 28.99,
+      "eval_accuracy": 0.8528748590755355,
+      "eval_f1": 0.8515517670522557,
+      "eval_loss": 0.5384246706962585,
+      "eval_precision": 0.8508958605112941,
+      "eval_recall": 0.8528748590755355,
+      "eval_runtime": 9.4835,
+      "eval_samples_per_second": 187.062,
+      "eval_steps_per_second": 2.953,
+      "step": 1812
+    },
+    {
+      "epoch": 29.12,
+      "learning_rate": 1.1947431302270014e-06,
+      "loss": 0.2338,
       "step": 1820
     },
     {
+      "epoch": 29.28,
+      "learning_rate": 8.960573476702509e-07,
+      "loss": 0.2173,
       "step": 1830
     },
     {
+      "epoch": 29.44,
+      "learning_rate": 5.973715651135007e-07,
+      "loss": 0.2244,
       "step": 1840
     },
     {
+      "epoch": 29.6,
+      "learning_rate": 2.9868578255675034e-07,
+      "loss": 0.2391,
       "step": 1850
     },
     {
+      "epoch": 29.76,
+      "learning_rate": 0.0,
+      "loss": 0.2278,
       "step": 1860
     },
     {
+      "epoch": 29.76,
+      "eval_accuracy": 0.8511837655016911,
+      "eval_f1": 0.849520928911175,
+      "eval_loss": 0.5428664088249207,
+      "eval_precision": 0.848929825944967,
+      "eval_recall": 0.8511837655016911,
+      "eval_runtime": 9.3955,
+      "eval_samples_per_second": 188.814,
+      "eval_steps_per_second": 2.98,
+      "step": 1860
     },
     {
+      "epoch": 29.76,
+      "step": 1860,
+      "total_flos": 1.2364841575625785e+19,
+      "train_loss": 0.4955275515074371,
+      "train_runtime": 4173.3159,
+      "train_samples_per_second": 114.743,
+      "train_steps_per_second": 0.446
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1860,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
+  "total_flos": 1.2364841575625785e+19,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }