End of training

Browse files

Files changed (6) hide show

README.md +1 -0
all_results.json +10 -10
eval_results.json +5 -5
runs/Apr08_16-30-28_cs-Precision-7960-Tower/events.out.tfevents.1744144935.cs-Precision-7960-Tower.26085.1 +3 -0
train_results.json +5 -5
trainer_state.json +592 -592

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
 - generated_from_trainer
 datasets:
 - superb

 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
+- audio-classification
 - generated_from_trainer
 datasets:
 - superb

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 4.989355040701315,
-    "eval_accuracy": 0.9810238305383936,
-    "eval_loss": 0.08548342436552048,
-    "eval_runtime": 4.5788,
-    "eval_samples_per_second": 1484.67,
-    "eval_steps_per_second": 46.519,
-    "total_flos": 2.31453318852096e+18,
-    "train_loss": 0.40246317323885467,
-    "train_runtime": 627.2253,
-    "train_samples_per_second": 407.302,
-    "train_steps_per_second": 3.181
 }

 {
     "epoch": 4.989355040701315,
+    "eval_accuracy": 0.9814651368049426,
+    "eval_loss": 0.09822726994752884,
+    "eval_runtime": 5.0668,
+    "eval_samples_per_second": 1341.675,
+    "eval_steps_per_second": 42.038,
+    "total_flos": 2.357895379209216e+18,
+    "train_loss": 0.5734889231528854,
+    "train_runtime": 654.1726,
+    "train_samples_per_second": 390.524,
+    "train_steps_per_second": 3.05
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.989355040701315,
-    "eval_accuracy": 0.9810238305383936,
-    "eval_loss": 0.08548342436552048,
-    "eval_runtime": 4.5788,
-    "eval_samples_per_second": 1484.67,
-    "eval_steps_per_second": 46.519
 }

 {
     "epoch": 4.989355040701315,
+    "eval_accuracy": 0.9814651368049426,
+    "eval_loss": 0.09822726994752884,
+    "eval_runtime": 5.0668,
+    "eval_samples_per_second": 1341.675,
+    "eval_steps_per_second": 42.038
 }

runs/Apr08_16-30-28_cs-Precision-7960-Tower/events.out.tfevents.1744144935.cs-Precision-7960-Tower.26085.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:480df884b4c8da556dd20cd791e8396fab73f9de77d3d0accb84af0b143feecd
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.989355040701315,
-    "total_flos": 2.31453318852096e+18,
-    "train_loss": 0.40246317323885467,
-    "train_runtime": 627.2253,
-    "train_samples_per_second": 407.302,
-    "train_steps_per_second": 3.181
 }

 {
     "epoch": 4.989355040701315,
+    "total_flos": 2.357895379209216e+18,
+    "train_loss": 0.5734889231528854,
+    "train_runtime": 654.1726,
+    "train_samples_per_second": 390.524,
+    "train_steps_per_second": 3.05
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.9810238305383936,
   "best_model_checkpoint": "wav2vec2-base-ft-keyword-spotting/checkpoint-1995",
   "epoch": 4.989355040701315,
   "eval_steps": 500,
@@ -10,1450 +10,1450 @@
   "log_history": [
     {
       "epoch": 0.025046963055729492,
-      "grad_norm": 1.3846150636672974,
       "learning_rate": 1.5e-06,
-      "loss": 2.4917,
       "step": 10
     },
     {
       "epoch": 0.050093926111458985,
-      "grad_norm": 1.5032284259796143,
       "learning_rate": 3e-06,
-      "loss": 2.4701,
       "step": 20
     },
     {
       "epoch": 0.07514088916718847,
-      "grad_norm": 1.4602274894714355,
       "learning_rate": 4.5e-06,
-      "loss": 2.415,
       "step": 30
     },
     {
       "epoch": 0.10018785222291797,
-      "grad_norm": 2.0218751430511475,
       "learning_rate": 6e-06,
-      "loss": 2.3156,
       "step": 40
     },
     {
       "epoch": 0.12523481527864747,
-      "grad_norm": 2.49809193611145,
       "learning_rate": 7.5e-06,
-      "loss": 2.1799,
       "step": 50
     },
     {
       "epoch": 0.15028177833437695,
-      "grad_norm": 2.539499282836914,
       "learning_rate": 9e-06,
-      "loss": 1.9986,
       "step": 60
     },
     {
       "epoch": 0.17532874139010646,
-      "grad_norm": 2.2324798107147217,
       "learning_rate": 1.05e-05,
-      "loss": 1.7848,
       "step": 70
     },
     {
       "epoch": 0.20037570444583594,
-      "grad_norm": 1.8337464332580566,
       "learning_rate": 1.2e-05,
-      "loss": 1.7187,
       "step": 80
     },
     {
       "epoch": 0.22542266750156542,
-      "grad_norm": 1.7367889881134033,
       "learning_rate": 1.3500000000000001e-05,
-      "loss": 1.6049,
       "step": 90
     },
     {
       "epoch": 0.25046963055729493,
-      "grad_norm": 1.1910614967346191,
       "learning_rate": 1.5e-05,
-      "loss": 1.5746,
       "step": 100
     },
     {
       "epoch": 0.27551659361302444,
-      "grad_norm": 0.6088196635246277,
       "learning_rate": 1.65e-05,
-      "loss": 1.6007,
       "step": 110
     },
     {
       "epoch": 0.3005635566687539,
-      "grad_norm": 1.1780052185058594,
       "learning_rate": 1.8e-05,
-      "loss": 1.4912,
       "step": 120
     },
     {
       "epoch": 0.3256105197244834,
-      "grad_norm": 0.6295515894889832,
       "learning_rate": 1.95e-05,
-      "loss": 1.4884,
       "step": 130
     },
     {
       "epoch": 0.3506574827802129,
-      "grad_norm": 1.570447325706482,
       "learning_rate": 2.1e-05,
-      "loss": 1.5284,
       "step": 140
     },
     {
       "epoch": 0.37570444583594237,
-      "grad_norm": 1.6432406902313232,
       "learning_rate": 2.25e-05,
-      "loss": 1.4759,
       "step": 150
     },
     {
       "epoch": 0.4007514088916719,
-      "grad_norm": 1.9464057683944702,
       "learning_rate": 2.4e-05,
-      "loss": 1.4358,
       "step": 160
     },
     {
       "epoch": 0.4257983719474014,
-      "grad_norm": 3.1392250061035156,
       "learning_rate": 2.55e-05,
-      "loss": 1.4103,
       "step": 170
     },
     {
       "epoch": 0.45084533500313084,
-      "grad_norm": 2.4613516330718994,
       "learning_rate": 2.7000000000000002e-05,
-      "loss": 1.3404,
       "step": 180
     },
     {
       "epoch": 0.47589229805886035,
-      "grad_norm": 2.962592363357544,
       "learning_rate": 2.8499999999999998e-05,
-      "loss": 1.3514,
       "step": 190
     },
     {
       "epoch": 0.5009392611145899,
-      "grad_norm": 3.589179039001465,
       "learning_rate": 3e-05,
-      "loss": 1.32,
       "step": 200
     },
     {
       "epoch": 0.5259862241703194,
-      "grad_norm": 7.765381813049316,
       "learning_rate": 2.9832869080779945e-05,
-      "loss": 1.261,
       "step": 210
     },
     {
       "epoch": 0.5510331872260489,
-      "grad_norm": 4.343158721923828,
       "learning_rate": 2.9665738161559886e-05,
-      "loss": 1.1817,
       "step": 220
     },
     {
       "epoch": 0.5760801502817783,
-      "grad_norm": 2.7387561798095703,
       "learning_rate": 2.9498607242339834e-05,
-      "loss": 1.0597,
       "step": 230
     },
     {
       "epoch": 0.6011271133375078,
-      "grad_norm": 3.2945845127105713,
       "learning_rate": 2.933147632311978e-05,
-      "loss": 1.0775,
       "step": 240
     },
     {
       "epoch": 0.6261740763932373,
-      "grad_norm": 3.404000759124756,
       "learning_rate": 2.916434540389972e-05,
-      "loss": 0.944,
       "step": 250
     },
     {
       "epoch": 0.6512210394489668,
-      "grad_norm": 2.9037885665893555,
       "learning_rate": 2.8997214484679665e-05,
-      "loss": 0.965,
       "step": 260
     },
     {
       "epoch": 0.6762680025046963,
-      "grad_norm": 3.4317057132720947,
       "learning_rate": 2.8830083565459613e-05,
-      "loss": 0.8292,
       "step": 270
     },
     {
       "epoch": 0.7013149655604258,
-      "grad_norm": 3.8530466556549072,
       "learning_rate": 2.8662952646239554e-05,
-      "loss": 0.7791,
       "step": 280
     },
     {
       "epoch": 0.7263619286161553,
-      "grad_norm": 3.3247628211975098,
       "learning_rate": 2.84958217270195e-05,
-      "loss": 0.7834,
       "step": 290
     },
     {
       "epoch": 0.7514088916718847,
-      "grad_norm": 3.122251510620117,
       "learning_rate": 2.8328690807799443e-05,
-      "loss": 0.7576,
       "step": 300
     },
     {
       "epoch": 0.7764558547276142,
-      "grad_norm": 5.345429420471191,
       "learning_rate": 2.8161559888579388e-05,
-      "loss": 0.7777,
       "step": 310
     },
     {
       "epoch": 0.8015028177833438,
-      "grad_norm": 3.185194253921509,
       "learning_rate": 2.7994428969359332e-05,
-      "loss": 0.7278,
       "step": 320
     },
     {
       "epoch": 0.8265497808390733,
-      "grad_norm": 2.6544058322906494,
       "learning_rate": 2.7827298050139277e-05,
-      "loss": 0.6651,
       "step": 330
     },
     {
       "epoch": 0.8515967438948028,
-      "grad_norm": 3.633167028427124,
       "learning_rate": 2.7660167130919218e-05,
-      "loss": 0.6521,
       "step": 340
     },
     {
       "epoch": 0.8766437069505323,
-      "grad_norm": 1.6489408016204834,
       "learning_rate": 2.7493036211699166e-05,
-      "loss": 0.6365,
       "step": 350
     },
     {
       "epoch": 0.9016906700062617,
-      "grad_norm": 3.1760778427124023,
       "learning_rate": 2.732590529247911e-05,
-      "loss": 0.5956,
       "step": 360
     },
     {
       "epoch": 0.9267376330619912,
-      "grad_norm": 2.8132238388061523,
       "learning_rate": 2.7158774373259055e-05,
-      "loss": 0.5725,
       "step": 370
     },
     {
       "epoch": 0.9517845961177207,
-      "grad_norm": 3.009735107421875,
-      "learning_rate": 2.6991643454038996e-05,
-      "loss": 0.5173,
       "step": 380
     },
     {
       "epoch": 0.9768315591734502,
-      "grad_norm": 2.352182388305664,
-      "learning_rate": 2.6824512534818944e-05,
-      "loss": 0.5199,
       "step": 390
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.45235970616340637,
-      "learning_rate": 2.665738161559889e-05,
-      "loss": 0.487,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9701382759635186,
-      "eval_loss": 0.3712795078754425,
-      "eval_runtime": 4.5332,
-      "eval_samples_per_second": 1499.6,
-      "eval_steps_per_second": 46.987,
       "step": 400
     },
     {
       "epoch": 1.0250469630557295,
-      "grad_norm": 2.322962999343872,
-      "learning_rate": 2.649025069637883e-05,
-      "loss": 0.4671,
       "step": 410
     },
     {
       "epoch": 1.050093926111459,
-      "grad_norm": 3.166677236557007,
-      "learning_rate": 2.6323119777158774e-05,
-      "loss": 0.4417,
       "step": 420
     },
     {
       "epoch": 1.0751408891671885,
-      "grad_norm": 2.0986714363098145,
-      "learning_rate": 2.6155988857938722e-05,
-      "loss": 0.4148,
       "step": 430
     },
     {
       "epoch": 1.100187852222918,
-      "grad_norm": 3.847125291824341,
-      "learning_rate": 2.5988857938718663e-05,
-      "loss": 0.4359,
       "step": 440
     },
     {
       "epoch": 1.1252348152786475,
-      "grad_norm": 2.775067090988159,
-      "learning_rate": 2.5821727019498608e-05,
-      "loss": 0.3778,
       "step": 450
     },
     {
       "epoch": 1.150281778334377,
-      "grad_norm": 4.5280914306640625,
-      "learning_rate": 2.5654596100278553e-05,
-      "loss": 0.3776,
       "step": 460
     },
     {
       "epoch": 1.1753287413901066,
-      "grad_norm": 2.7972805500030518,
-      "learning_rate": 2.5487465181058497e-05,
-      "loss": 0.3381,
       "step": 470
     },
     {
       "epoch": 1.2003757044458359,
-      "grad_norm": 3.291175603866577,
-      "learning_rate": 2.532033426183844e-05,
-      "loss": 0.3599,
       "step": 480
     },
     {
       "epoch": 1.2254226675015654,
-      "grad_norm": 3.2598955631256104,
-      "learning_rate": 2.5153203342618386e-05,
-      "loss": 0.3365,
       "step": 490
     },
     {
       "epoch": 1.2504696305572949,
-      "grad_norm": 1.4448655843734741,
-      "learning_rate": 2.4986072423398327e-05,
-      "loss": 0.319,
       "step": 500
     },
     {
       "epoch": 1.2755165936130244,
-      "grad_norm": 2.443610191345215,
-      "learning_rate": 2.4818941504178275e-05,
-      "loss": 0.3468,
       "step": 510
     },
     {
       "epoch": 1.300563556668754,
-      "grad_norm": 4.200746536254883,
-      "learning_rate": 2.465181058495822e-05,
-      "loss": 0.3075,
       "step": 520
     },
     {
       "epoch": 1.3256105197244834,
-      "grad_norm": 2.271791458129883,
-      "learning_rate": 2.448467966573816e-05,
-      "loss": 0.3326,
       "step": 530
     },
     {
       "epoch": 1.350657482780213,
-      "grad_norm": 2.7881224155426025,
-      "learning_rate": 2.4317548746518106e-05,
-      "loss": 0.2874,
       "step": 540
     },
     {
       "epoch": 1.3757044458359424,
-      "grad_norm": 1.9204065799713135,
-      "learning_rate": 2.415041782729805e-05,
-      "loss": 0.2942,
       "step": 550
     },
     {
       "epoch": 1.400751408891672,
-      "grad_norm": 3.521867275238037,
-      "learning_rate": 2.3983286908077995e-05,
-      "loss": 0.2733,
       "step": 560
     },
     {
       "epoch": 1.4257983719474014,
-      "grad_norm": 5.327916622161865,
-      "learning_rate": 2.381615598885794e-05,
-      "loss": 0.2843,
       "step": 570
     },
     {
       "epoch": 1.4508453350031307,
-      "grad_norm": 1.7485443353652954,
-      "learning_rate": 2.3649025069637884e-05,
-      "loss": 0.2635,
       "step": 580
     },
     {
       "epoch": 1.4758922980588602,
-      "grad_norm": 1.733283281326294,
-      "learning_rate": 2.3481894150417825e-05,
-      "loss": 0.2598,
       "step": 590
     },
     {
       "epoch": 1.5009392611145898,
-      "grad_norm": 4.292211532592773,
-      "learning_rate": 2.3314763231197773e-05,
-      "loss": 0.2626,
       "step": 600
     },
     {
       "epoch": 1.5259862241703193,
-      "grad_norm": 3.2708067893981934,
-      "learning_rate": 2.3147632311977718e-05,
-      "loss": 0.2783,
       "step": 610
     },
     {
       "epoch": 1.5510331872260488,
-      "grad_norm": 1.9687224626541138,
-      "learning_rate": 2.298050139275766e-05,
-      "loss": 0.2292,
       "step": 620
     },
     {
       "epoch": 1.5760801502817783,
-      "grad_norm": 4.437740802764893,
-      "learning_rate": 2.2813370473537603e-05,
-      "loss": 0.2475,
       "step": 630
     },
     {
       "epoch": 1.6011271133375078,
-      "grad_norm": 1.799039363861084,
-      "learning_rate": 2.264623955431755e-05,
-      "loss": 0.2312,
       "step": 640
     },
     {
       "epoch": 1.6261740763932373,
-      "grad_norm": 2.9007081985473633,
-      "learning_rate": 2.2479108635097492e-05,
-      "loss": 0.2475,
       "step": 650
     },
     {
       "epoch": 1.6512210394489668,
-      "grad_norm": 5.133575439453125,
-      "learning_rate": 2.2311977715877437e-05,
-      "loss": 0.2499,
       "step": 660
     },
     {
       "epoch": 1.6762680025046963,
-      "grad_norm": 4.255336761474609,
-      "learning_rate": 2.214484679665738e-05,
-      "loss": 0.2798,
       "step": 670
     },
     {
       "epoch": 1.7013149655604258,
-      "grad_norm": 2.9616687297821045,
-      "learning_rate": 2.1977715877437326e-05,
-      "loss": 0.2532,
       "step": 680
     },
     {
       "epoch": 1.7263619286161553,
-      "grad_norm": 2.9893698692321777,
-      "learning_rate": 2.181058495821727e-05,
-      "loss": 0.2411,
       "step": 690
     },
     {
       "epoch": 1.7514088916718848,
-      "grad_norm": 1.4978973865509033,
-      "learning_rate": 2.1643454038997215e-05,
-      "loss": 0.2401,
       "step": 700
     },
     {
       "epoch": 1.7764558547276144,
-      "grad_norm": 4.000032901763916,
-      "learning_rate": 2.147632311977716e-05,
-      "loss": 0.2187,
       "step": 710
     },
     {
       "epoch": 1.8015028177833439,
-      "grad_norm": 2.2018449306488037,
-      "learning_rate": 2.1309192200557104e-05,
-      "loss": 0.2366,
       "step": 720
     },
     {
       "epoch": 1.8265497808390734,
-      "grad_norm": 2.023028612136841,
-      "learning_rate": 2.114206128133705e-05,
-      "loss": 0.2389,
       "step": 730
     },
     {
       "epoch": 1.8515967438948029,
-      "grad_norm": 2.1953046321868896,
-      "learning_rate": 2.0974930362116993e-05,
-      "loss": 0.2316,
       "step": 740
     },
     {
       "epoch": 1.8766437069505324,
-      "grad_norm": 2.016090154647827,
-      "learning_rate": 2.0807799442896935e-05,
-      "loss": 0.2276,
       "step": 750
     },
     {
       "epoch": 1.9016906700062617,
-      "grad_norm": 4.887736797332764,
-      "learning_rate": 2.0640668523676883e-05,
-      "loss": 0.1759,
       "step": 760
     },
     {
       "epoch": 1.9267376330619912,
-      "grad_norm": 3.064952850341797,
-      "learning_rate": 2.0473537604456827e-05,
-      "loss": 0.1821,
       "step": 770
     },
     {
       "epoch": 1.9517845961177207,
-      "grad_norm": 3.6720850467681885,
-      "learning_rate": 2.0306406685236768e-05,
-      "loss": 0.2252,
       "step": 780
     },
     {
       "epoch": 1.9768315591734502,
-      "grad_norm": 4.621647357940674,
-      "learning_rate": 2.0139275766016713e-05,
-      "loss": 0.2204,
       "step": 790
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.6409714221954346,
-      "learning_rate": 1.997214484679666e-05,
-      "loss": 0.1701,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9748455428067079,
-      "eval_loss": 0.1344912201166153,
-      "eval_runtime": 4.4272,
-      "eval_samples_per_second": 1535.524,
-      "eval_steps_per_second": 48.112,
       "step": 800
     },
     {
       "epoch": 2.0250469630557295,
-      "grad_norm": 2.7449936866760254,
-      "learning_rate": 1.9805013927576602e-05,
-      "loss": 0.2049,
       "step": 810
     },
     {
       "epoch": 2.050093926111459,
-      "grad_norm": 4.835960388183594,
-      "learning_rate": 1.9637883008356546e-05,
-      "loss": 0.1921,
       "step": 820
     },
     {
       "epoch": 2.0751408891671885,
-      "grad_norm": 3.658618211746216,
-      "learning_rate": 1.947075208913649e-05,
-      "loss": 0.1837,
       "step": 830
     },
     {
       "epoch": 2.100187852222918,
-      "grad_norm": 3.6431124210357666,
-      "learning_rate": 1.9303621169916436e-05,
-      "loss": 0.1865,
       "step": 840
     },
     {
       "epoch": 2.1252348152786475,
-      "grad_norm": 4.338460922241211,
-      "learning_rate": 1.913649025069638e-05,
-      "loss": 0.192,
       "step": 850
     },
     {
       "epoch": 2.150281778334377,
-      "grad_norm": 2.3245649337768555,
-      "learning_rate": 1.8969359331476325e-05,
-      "loss": 0.1676,
       "step": 860
     },
     {
       "epoch": 2.1753287413901066,
-      "grad_norm": 4.586086750030518,
-      "learning_rate": 1.8802228412256266e-05,
-      "loss": 0.1865,
       "step": 870
     },
     {
       "epoch": 2.200375704445836,
-      "grad_norm": 3.0299103260040283,
-      "learning_rate": 1.863509749303621e-05,
-      "loss": 0.1936,
       "step": 880
     },
     {
       "epoch": 2.2254226675015656,
-      "grad_norm": 1.2470777034759521,
-      "learning_rate": 1.846796657381616e-05,
-      "loss": 0.1919,
       "step": 890
     },
     {
       "epoch": 2.250469630557295,
-      "grad_norm": 2.023383378982544,
-      "learning_rate": 1.83008356545961e-05,
-      "loss": 0.1863,
       "step": 900
     },
     {
       "epoch": 2.2755165936130246,
-      "grad_norm": 3.2981998920440674,
-      "learning_rate": 1.8133704735376044e-05,
-      "loss": 0.2287,
       "step": 910
     },
     {
       "epoch": 2.300563556668754,
-      "grad_norm": 1.7662588357925415,
-      "learning_rate": 1.796657381615599e-05,
-      "loss": 0.2036,
       "step": 920
     },
     {
       "epoch": 2.325610519724483,
-      "grad_norm": 2.323029041290283,
-      "learning_rate": 1.7799442896935933e-05,
-      "loss": 0.1698,
       "step": 930
     },
     {
       "epoch": 2.350657482780213,
-      "grad_norm": 3.8338754177093506,
-      "learning_rate": 1.7632311977715878e-05,
-      "loss": 0.1699,
       "step": 940
     },
     {
       "epoch": 2.375704445835942,
-      "grad_norm": 1.8302233219146729,
-      "learning_rate": 1.7465181058495822e-05,
-      "loss": 0.1718,
       "step": 950
     },
     {
       "epoch": 2.4007514088916717,
-      "grad_norm": 3.018829584121704,
-      "learning_rate": 1.7298050139275764e-05,
-      "loss": 0.18,
       "step": 960
     },
     {
       "epoch": 2.425798371947401,
-      "grad_norm": 1.8487874269485474,
-      "learning_rate": 1.713091922005571e-05,
-      "loss": 0.1827,
       "step": 970
     },
     {
       "epoch": 2.4508453350031307,
-      "grad_norm": 3.3210318088531494,
-      "learning_rate": 1.6963788300835656e-05,
-      "loss": 0.1662,
       "step": 980
     },
     {
       "epoch": 2.4758922980588602,
-      "grad_norm": 4.057735919952393,
-      "learning_rate": 1.6796657381615597e-05,
-      "loss": 0.1576,
       "step": 990
     },
     {
       "epoch": 2.5009392611145898,
-      "grad_norm": 2.257659435272217,
-      "learning_rate": 1.6629526462395542e-05,
-      "loss": 0.1733,
       "step": 1000
     },
     {
       "epoch": 2.5259862241703193,
-      "grad_norm": 4.195764064788818,
-      "learning_rate": 1.646239554317549e-05,
-      "loss": 0.1787,
       "step": 1010
     },
     {
       "epoch": 2.5510331872260488,
-      "grad_norm": 2.0992043018341064,
-      "learning_rate": 1.6295264623955434e-05,
-      "loss": 0.1893,
       "step": 1020
     },
     {
       "epoch": 2.5760801502817783,
-      "grad_norm": 4.466301441192627,
-      "learning_rate": 1.6128133704735375e-05,
-      "loss": 0.148,
       "step": 1030
     },
     {
       "epoch": 2.601127113337508,
-      "grad_norm": 4.416186809539795,
-      "learning_rate": 1.596100278551532e-05,
-      "loss": 0.1642,
       "step": 1040
     },
     {
       "epoch": 2.6261740763932373,
-      "grad_norm": 1.4752304553985596,
-      "learning_rate": 1.5793871866295268e-05,
-      "loss": 0.165,
       "step": 1050
     },
     {
       "epoch": 2.651221039448967,
-      "grad_norm": 3.157634735107422,
-      "learning_rate": 1.562674094707521e-05,
-      "loss": 0.1645,
       "step": 1060
     },
     {
       "epoch": 2.6762680025046963,
-      "grad_norm": 2.568713426589966,
-      "learning_rate": 1.5459610027855154e-05,
-      "loss": 0.1806,
       "step": 1070
     },
     {
       "epoch": 2.701314965560426,
-      "grad_norm": 3.1504478454589844,
-      "learning_rate": 1.5292479108635098e-05,
-      "loss": 0.1768,
       "step": 1080
     },
     {
       "epoch": 2.7263619286161553,
-      "grad_norm": 1.673834204673767,
-      "learning_rate": 1.5125348189415043e-05,
-      "loss": 0.1526,
       "step": 1090
     },
     {
       "epoch": 2.751408891671885,
-      "grad_norm": 2.3160338401794434,
-      "learning_rate": 1.4958217270194987e-05,
-      "loss": 0.1309,
       "step": 1100
     },
     {
       "epoch": 2.7764558547276144,
-      "grad_norm": 4.241952419281006,
-      "learning_rate": 1.479108635097493e-05,
-      "loss": 0.1992,
       "step": 1110
     },
     {
       "epoch": 2.801502817783344,
-      "grad_norm": 2.4908902645111084,
-      "learning_rate": 1.4623955431754876e-05,
-      "loss": 0.1632,
       "step": 1120
     },
     {
       "epoch": 2.8265497808390734,
-      "grad_norm": 4.086286544799805,
-      "learning_rate": 1.445682451253482e-05,
-      "loss": 0.1805,
       "step": 1130
     },
     {
       "epoch": 2.851596743894803,
-      "grad_norm": 1.9868454933166504,
-      "learning_rate": 1.4289693593314764e-05,
-      "loss": 0.1579,
       "step": 1140
     },
     {
       "epoch": 2.8766437069505324,
-      "grad_norm": 4.5509934425354,
-      "learning_rate": 1.4122562674094708e-05,
-      "loss": 0.1892,
       "step": 1150
     },
     {
       "epoch": 2.9016906700062615,
-      "grad_norm": 2.554227828979492,
-      "learning_rate": 1.3955431754874653e-05,
-      "loss": 0.185,
       "step": 1160
     },
     {
       "epoch": 2.9267376330619914,
-      "grad_norm": 3.8383281230926514,
-      "learning_rate": 1.3788300835654596e-05,
-      "loss": 0.1869,
       "step": 1170
     },
     {
       "epoch": 2.9517845961177205,
-      "grad_norm": 2.4846155643463135,
-      "learning_rate": 1.362116991643454e-05,
-      "loss": 0.1728,
       "step": 1180
     },
     {
       "epoch": 2.9768315591734504,
-      "grad_norm": 2.692121982574463,
-      "learning_rate": 1.3454038997214485e-05,
-      "loss": 0.1492,
       "step": 1190
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.1535016298294067,
-      "learning_rate": 1.3286908077994428e-05,
-      "loss": 0.1905,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9785230950279494,
-      "eval_loss": 0.100662961602211,
-      "eval_runtime": 4.2957,
-      "eval_samples_per_second": 1582.527,
-      "eval_steps_per_second": 49.585,
       "step": 1200
     },
     {
       "epoch": 3.0250469630557295,
-      "grad_norm": 2.339324474334717,
-      "learning_rate": 1.3119777158774374e-05,
-      "loss": 0.1671,
       "step": 1210
     },
     {
       "epoch": 3.050093926111459,
-      "grad_norm": 1.8304985761642456,
-      "learning_rate": 1.2952646239554317e-05,
-      "loss": 0.1595,
       "step": 1220
     },
     {
       "epoch": 3.0751408891671885,
-      "grad_norm": 1.7035090923309326,
-      "learning_rate": 1.2785515320334262e-05,
-      "loss": 0.1464,
       "step": 1230
     },
     {
       "epoch": 3.100187852222918,
-      "grad_norm": 2.2386112213134766,
-      "learning_rate": 1.2618384401114206e-05,
-      "loss": 0.1828,
       "step": 1240
     },
     {
       "epoch": 3.1252348152786475,
-      "grad_norm": 2.6203246116638184,
-      "learning_rate": 1.245125348189415e-05,
-      "loss": 0.1709,
       "step": 1250
     },
     {
       "epoch": 3.150281778334377,
-      "grad_norm": 3.4411773681640625,
-      "learning_rate": 1.2284122562674095e-05,
-      "loss": 0.1696,
       "step": 1260
     },
     {
       "epoch": 3.1753287413901066,
-      "grad_norm": 1.443657636642456,
-      "learning_rate": 1.211699164345404e-05,
-      "loss": 0.1694,
       "step": 1270
     },
     {
       "epoch": 3.200375704445836,
-      "grad_norm": 3.1852123737335205,
-      "learning_rate": 1.1949860724233983e-05,
-      "loss": 0.1472,
       "step": 1280
     },
     {
       "epoch": 3.2254226675015656,
-      "grad_norm": 3.547802686691284,
-      "learning_rate": 1.1782729805013929e-05,
-      "loss": 0.1367,
       "step": 1290
     },
     {
       "epoch": 3.250469630557295,
-      "grad_norm": 2.098524332046509,
-      "learning_rate": 1.1615598885793872e-05,
-      "loss": 0.1674,
       "step": 1300
     },
     {
       "epoch": 3.2755165936130246,
-      "grad_norm": 2.3405473232269287,
-      "learning_rate": 1.1448467966573816e-05,
-      "loss": 0.1233,
       "step": 1310
     },
     {
       "epoch": 3.300563556668754,
-      "grad_norm": 2.582063913345337,
-      "learning_rate": 1.1281337047353761e-05,
-      "loss": 0.1542,
       "step": 1320
     },
     {
       "epoch": 3.325610519724483,
-      "grad_norm": 2.138692855834961,
-      "learning_rate": 1.1114206128133705e-05,
-      "loss": 0.1583,
       "step": 1330
     },
     {
       "epoch": 3.350657482780213,
-      "grad_norm": 2.5060031414031982,
-      "learning_rate": 1.0947075208913648e-05,
-      "loss": 0.1309,
       "step": 1340
     },
     {
       "epoch": 3.375704445835942,
-      "grad_norm": 5.018398761749268,
-      "learning_rate": 1.0779944289693595e-05,
-      "loss": 0.158,
       "step": 1350
     },
     {
       "epoch": 3.4007514088916717,
-      "grad_norm": 3.4569902420043945,
-      "learning_rate": 1.0612813370473537e-05,
-      "loss": 0.1576,
       "step": 1360
     },
     {
       "epoch": 3.425798371947401,
-      "grad_norm": 2.4191341400146484,
-      "learning_rate": 1.0445682451253482e-05,
-      "loss": 0.1363,
       "step": 1370
     },
     {
       "epoch": 3.4508453350031307,
-      "grad_norm": 1.7096883058547974,
-      "learning_rate": 1.0278551532033427e-05,
-      "loss": 0.1741,
       "step": 1380
     },
     {
       "epoch": 3.4758922980588602,
-      "grad_norm": 1.6938859224319458,
-      "learning_rate": 1.0111420612813371e-05,
-      "loss": 0.1454,
       "step": 1390
     },
     {
       "epoch": 3.5009392611145898,
-      "grad_norm": 0.8238410353660583,
-      "learning_rate": 9.944289693593314e-06,
-      "loss": 0.1603,
       "step": 1400
     },
     {
       "epoch": 3.5259862241703193,
-      "grad_norm": 2.195200204849243,
-      "learning_rate": 9.77715877437326e-06,
-      "loss": 0.1471,
       "step": 1410
     },
     {
       "epoch": 3.5510331872260488,
-      "grad_norm": 1.5268114805221558,
-      "learning_rate": 9.610027855153203e-06,
-      "loss": 0.1308,
       "step": 1420
     },
     {
       "epoch": 3.5760801502817783,
-      "grad_norm": 3.5758233070373535,
-      "learning_rate": 9.44289693593315e-06,
-      "loss": 0.1713,
       "step": 1430
     },
     {
       "epoch": 3.601127113337508,
-      "grad_norm": 2.7455337047576904,
-      "learning_rate": 9.275766016713092e-06,
-      "loss": 0.13,
       "step": 1440
     },
     {
       "epoch": 3.6261740763932373,
-      "grad_norm": 2.4125545024871826,
-      "learning_rate": 9.108635097493037e-06,
-      "loss": 0.1444,
       "step": 1450
     },
     {
       "epoch": 3.651221039448967,
-      "grad_norm": 4.1105852127075195,
-      "learning_rate": 8.941504178272981e-06,
-      "loss": 0.1581,
       "step": 1460
     },
     {
       "epoch": 3.6762680025046963,
-      "grad_norm": 1.781172513961792,
-      "learning_rate": 8.774373259052926e-06,
-      "loss": 0.1413,
       "step": 1470
     },
     {
       "epoch": 3.701314965560426,
-      "grad_norm": 0.9671861529350281,
-      "learning_rate": 8.607242339832869e-06,
-      "loss": 0.155,
       "step": 1480
     },
     {
       "epoch": 3.7263619286161553,
-      "grad_norm": 3.277911424636841,
-      "learning_rate": 8.440111420612815e-06,
-      "loss": 0.1244,
       "step": 1490
     },
     {
       "epoch": 3.751408891671885,
-      "grad_norm": 2.6499757766723633,
-      "learning_rate": 8.272980501392758e-06,
-      "loss": 0.1462,
       "step": 1500
     },
     {
       "epoch": 3.7764558547276144,
-      "grad_norm": 1.484277367591858,
-      "learning_rate": 8.1058495821727e-06,
-      "loss": 0.1522,
       "step": 1510
     },
     {
       "epoch": 3.801502817783344,
-      "grad_norm": 3.2849831581115723,
-      "learning_rate": 7.938718662952647e-06,
-      "loss": 0.1485,
       "step": 1520
     },
     {
       "epoch": 3.8265497808390734,
-      "grad_norm": 2.0737528800964355,
-      "learning_rate": 7.77158774373259e-06,
-      "loss": 0.1243,
       "step": 1530
     },
     {
       "epoch": 3.851596743894803,
-      "grad_norm": 2.977562665939331,
-      "learning_rate": 7.604456824512535e-06,
-      "loss": 0.1266,
       "step": 1540
     },
     {
       "epoch": 3.8766437069505324,
-      "grad_norm": 2.5057878494262695,
-      "learning_rate": 7.43732590529248e-06,
-      "loss": 0.1349,
       "step": 1550
     },
     {
       "epoch": 3.9016906700062615,
-      "grad_norm": 2.0009357929229736,
-      "learning_rate": 7.2701949860724235e-06,
-      "loss": 0.1296,
       "step": 1560
     },
     {
       "epoch": 3.9267376330619914,
-      "grad_norm": 3.119765043258667,
-      "learning_rate": 7.103064066852368e-06,
-      "loss": 0.1308,
       "step": 1570
     },
     {
       "epoch": 3.9517845961177205,
-      "grad_norm": 2.181718111038208,
-      "learning_rate": 6.935933147632313e-06,
-      "loss": 0.1654,
       "step": 1580
     },
     {
       "epoch": 3.9768315591734504,
-      "grad_norm": 3.2763113975524902,
-      "learning_rate": 6.768802228412256e-06,
-      "loss": 0.1541,
       "step": 1590
     },
     {
       "epoch": 4.0,
-      "grad_norm": 3.0005788803100586,
-      "learning_rate": 6.601671309192201e-06,
-      "loss": 0.1365,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.980876728449544,
-      "eval_loss": 0.08496350795030594,
-      "eval_runtime": 4.414,
-      "eval_samples_per_second": 1540.114,
-      "eval_steps_per_second": 48.256,
       "step": 1600
     },
     {
       "epoch": 4.025046963055729,
-      "grad_norm": 3.285486936569214,
-      "learning_rate": 6.4345403899721455e-06,
-      "loss": 0.128,
       "step": 1610
     },
     {
       "epoch": 4.050093926111459,
-      "grad_norm": 2.414086103439331,
-      "learning_rate": 6.267409470752089e-06,
-      "loss": 0.1321,
       "step": 1620
     },
     {
       "epoch": 4.075140889167188,
-      "grad_norm": 2.2890965938568115,
-      "learning_rate": 6.100278551532034e-06,
-      "loss": 0.1298,
       "step": 1630
     },
     {
       "epoch": 4.100187852222918,
-      "grad_norm": 1.8132153749465942,
-      "learning_rate": 5.933147632311978e-06,
-      "loss": 0.1539,
       "step": 1640
     },
     {
       "epoch": 4.125234815278647,
-      "grad_norm": 2.8671135902404785,
-      "learning_rate": 5.766016713091923e-06,
-      "loss": 0.1302,
       "step": 1650
     },
     {
       "epoch": 4.150281778334377,
-      "grad_norm": 2.470564365386963,
-      "learning_rate": 5.598885793871867e-06,
-      "loss": 0.1612,
       "step": 1660
     },
     {
       "epoch": 4.175328741390106,
-      "grad_norm": 2.1133806705474854,
-      "learning_rate": 5.43175487465181e-06,
-      "loss": 0.148,
       "step": 1670
     },
     {
       "epoch": 4.200375704445836,
-      "grad_norm": 1.391147255897522,
-      "learning_rate": 5.264623955431755e-06,
-      "loss": 0.1455,
       "step": 1680
     },
     {
       "epoch": 4.225422667501565,
-      "grad_norm": 2.964405059814453,
-      "learning_rate": 5.0974930362116986e-06,
-      "loss": 0.1244,
       "step": 1690
     },
     {
       "epoch": 4.250469630557295,
-      "grad_norm": 3.051886796951294,
-      "learning_rate": 4.930362116991643e-06,
-      "loss": 0.1544,
       "step": 1700
     },
     {
       "epoch": 4.275516593613024,
-      "grad_norm": 2.3174211978912354,
-      "learning_rate": 4.763231197771588e-06,
-      "loss": 0.1179,
       "step": 1710
     },
     {
       "epoch": 4.300563556668754,
-      "grad_norm": 2.169579267501831,
-      "learning_rate": 4.596100278551532e-06,
-      "loss": 0.1197,
       "step": 1720
     },
     {
       "epoch": 4.325610519724483,
-      "grad_norm": 4.180757999420166,
-      "learning_rate": 4.428969359331476e-06,
-      "loss": 0.1147,
       "step": 1730
     },
     {
       "epoch": 4.350657482780213,
-      "grad_norm": 2.835193634033203,
-      "learning_rate": 4.2618384401114205e-06,
-      "loss": 0.1199,
       "step": 1740
     },
     {
       "epoch": 4.375704445835942,
-      "grad_norm": 2.561140298843384,
-      "learning_rate": 4.094707520891365e-06,
-      "loss": 0.1369,
       "step": 1750
     },
     {
       "epoch": 4.400751408891672,
-      "grad_norm": 1.964847445487976,
-      "learning_rate": 3.927576601671309e-06,
-      "loss": 0.1422,
       "step": 1760
     },
     {
       "epoch": 4.425798371947401,
-      "grad_norm": 3.416602611541748,
-      "learning_rate": 3.7604456824512533e-06,
-      "loss": 0.1258,
       "step": 1770
     },
     {
       "epoch": 4.450845335003131,
-      "grad_norm": 2.517287254333496,
-      "learning_rate": 3.593314763231198e-06,
-      "loss": 0.1334,
       "step": 1780
     },
     {
       "epoch": 4.47589229805886,
-      "grad_norm": 1.725051760673523,
-      "learning_rate": 3.426183844011142e-06,
-      "loss": 0.116,
       "step": 1790
     },
     {
       "epoch": 4.50093926111459,
-      "grad_norm": 3.366607666015625,
-      "learning_rate": 3.259052924791086e-06,
-      "loss": 0.1166,
       "step": 1800
     },
     {
       "epoch": 4.525986224170319,
-      "grad_norm": 4.129775524139404,
-      "learning_rate": 3.0919220055710307e-06,
-      "loss": 0.1238,
       "step": 1810
     },
     {
       "epoch": 4.551033187226049,
-      "grad_norm": 1.5678294897079468,
-      "learning_rate": 2.924791086350975e-06,
-      "loss": 0.1409,
       "step": 1820
     },
     {
       "epoch": 4.576080150281778,
-      "grad_norm": 2.8961803913116455,
-      "learning_rate": 2.7576601671309194e-06,
-      "loss": 0.1002,
       "step": 1830
     },
     {
       "epoch": 4.601127113337508,
-      "grad_norm": 1.3110554218292236,
-      "learning_rate": 2.5905292479108636e-06,
-      "loss": 0.0937,
       "step": 1840
     },
     {
       "epoch": 4.626174076393237,
-      "grad_norm": 3.0743277072906494,
-      "learning_rate": 2.4233983286908077e-06,
-      "loss": 0.1362,
       "step": 1850
     },
     {
       "epoch": 4.651221039448966,
-      "grad_norm": 3.078073263168335,
-      "learning_rate": 2.2562674094707523e-06,
-      "loss": 0.1542,
       "step": 1860
     },
     {
       "epoch": 4.676268002504696,
-      "grad_norm": 1.4623353481292725,
-      "learning_rate": 2.0891364902506964e-06,
-      "loss": 0.1279,
       "step": 1870
     },
     {
       "epoch": 4.701314965560426,
-      "grad_norm": 0.6655158996582031,
-      "learning_rate": 1.922005571030641e-06,
-      "loss": 0.0937,
       "step": 1880
     },
     {
       "epoch": 4.726361928616155,
-      "grad_norm": 2.3055014610290527,
-      "learning_rate": 1.7548746518105849e-06,
-      "loss": 0.1278,
       "step": 1890
     },
     {
       "epoch": 4.751408891671884,
-      "grad_norm": 2.902233839035034,
-      "learning_rate": 1.5877437325905292e-06,
-      "loss": 0.1067,
       "step": 1900
     },
     {
       "epoch": 4.776455854727614,
-      "grad_norm": 1.5290515422821045,
-      "learning_rate": 1.4206128133704736e-06,
-      "loss": 0.1299,
       "step": 1910
     },
     {
       "epoch": 4.801502817783343,
-      "grad_norm": 2.1846730709075928,
-      "learning_rate": 1.253481894150418e-06,
-      "loss": 0.0939,
       "step": 1920
     },
     {
       "epoch": 4.826549780839073,
-      "grad_norm": 1.173969030380249,
-      "learning_rate": 1.0863509749303623e-06,
-      "loss": 0.1181,
       "step": 1930
     },
     {
       "epoch": 4.851596743894802,
-      "grad_norm": 4.177393913269043,
-      "learning_rate": 9.192200557103064e-07,
-      "loss": 0.1373,
       "step": 1940
     },
     {
       "epoch": 4.876643706950532,
-      "grad_norm": 1.459058403968811,
-      "learning_rate": 7.520891364902508e-07,
-      "loss": 0.1161,
       "step": 1950
     },
     {
       "epoch": 4.9016906700062615,
-      "grad_norm": 0.865409255027771,
-      "learning_rate": 5.84958217270195e-07,
-      "loss": 0.1233,
       "step": 1960
     },
     {
       "epoch": 4.926737633061991,
-      "grad_norm": 1.5550708770751953,
-      "learning_rate": 4.178272980501393e-07,
-      "loss": 0.1172,
       "step": 1970
     },
     {
       "epoch": 4.9517845961177205,
-      "grad_norm": 1.4279484748840332,
-      "learning_rate": 2.506963788300836e-07,
-      "loss": 0.1313,
       "step": 1980
     },
     {
       "epoch": 4.97683155917345,
-      "grad_norm": 1.5015976428985596,
-      "learning_rate": 8.356545961002785e-08,
-      "loss": 0.1317,
       "step": 1990
     },
     {
       "epoch": 4.989355040701315,
-      "eval_accuracy": 0.9810238305383936,
-      "eval_loss": 0.08548342436552048,
-      "eval_runtime": 4.864,
-      "eval_samples_per_second": 1397.623,
-      "eval_steps_per_second": 43.791,
       "step": 1995
     },
     {
       "epoch": 4.989355040701315,
       "step": 1995,
-      "total_flos": 2.31453318852096e+18,
-      "train_loss": 0.40246317323885467,
-      "train_runtime": 627.2253,
-      "train_samples_per_second": 407.302,
-      "train_steps_per_second": 3.181
     }
   ],
   "logging_steps": 10,
@@ -1473,7 +1473,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.31453318852096e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9814651368049426,
   "best_model_checkpoint": "wav2vec2-base-ft-keyword-spotting/checkpoint-1995",
   "epoch": 4.989355040701315,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.025046963055729492,
+      "grad_norm": 2.144172430038452,
       "learning_rate": 1.5e-06,
+      "loss": 3.8317,
       "step": 10
     },
     {
       "epoch": 0.050093926111458985,
+      "grad_norm": 3.0447957515716553,
       "learning_rate": 3e-06,
+      "loss": 4.1331,
       "step": 20
     },
     {
       "epoch": 0.07514088916718847,
+      "grad_norm": 3.1870126724243164,
       "learning_rate": 4.5e-06,
+      "loss": 4.0889,
       "step": 30
     },
     {
       "epoch": 0.10018785222291797,
+      "grad_norm": 4.074451923370361,
       "learning_rate": 6e-06,
+      "loss": 3.9025,
       "step": 40
     },
     {
       "epoch": 0.12523481527864747,
+      "grad_norm": 5.182351112365723,
       "learning_rate": 7.5e-06,
+      "loss": 3.6201,
       "step": 50
     },
     {
       "epoch": 0.15028177833437695,
+      "grad_norm": 5.756130218505859,
       "learning_rate": 9e-06,
+      "loss": 3.1977,
       "step": 60
     },
     {
       "epoch": 0.17532874139010646,
+      "grad_norm": 5.65469217300415,
       "learning_rate": 1.05e-05,
+      "loss": 2.7121,
       "step": 70
     },
     {
       "epoch": 0.20037570444583594,
+      "grad_norm": 5.120871067047119,
       "learning_rate": 1.2e-05,
+      "loss": 2.4593,
       "step": 80
     },
     {
       "epoch": 0.22542266750156542,
+      "grad_norm": 4.952624320983887,
       "learning_rate": 1.3500000000000001e-05,
+      "loss": 2.2216,
       "step": 90
     },
     {
       "epoch": 0.25046963055729493,
+      "grad_norm": 4.202530384063721,
       "learning_rate": 1.5e-05,
+      "loss": 2.0977,
       "step": 100
     },
     {
       "epoch": 0.27551659361302444,
+      "grad_norm": 3.235758066177368,
       "learning_rate": 1.65e-05,
+      "loss": 2.0442,
       "step": 110
     },
     {
       "epoch": 0.3005635566687539,
+      "grad_norm": 3.456002712249756,
       "learning_rate": 1.8e-05,
+      "loss": 1.8601,
       "step": 120
     },
     {
       "epoch": 0.3256105197244834,
+      "grad_norm": 1.5474969148635864,
       "learning_rate": 1.95e-05,
+      "loss": 1.7964,
       "step": 130
     },
     {
       "epoch": 0.3506574827802129,
+      "grad_norm": 1.7901959419250488,
       "learning_rate": 2.1e-05,
+      "loss": 1.8098,
       "step": 140
     },
     {
       "epoch": 0.37570444583594237,
+      "grad_norm": 1.2036372423171997,
       "learning_rate": 2.25e-05,
+      "loss": 1.7429,
       "step": 150
     },
     {
       "epoch": 0.4007514088916719,
+      "grad_norm": 0.6613264083862305,
       "learning_rate": 2.4e-05,
+      "loss": 1.7313,
       "step": 160
     },
     {
       "epoch": 0.4257983719474014,
+      "grad_norm": 1.468883991241455,
       "learning_rate": 2.55e-05,
+      "loss": 1.7528,
       "step": 170
     },
     {
       "epoch": 0.45084533500313084,
+      "grad_norm": 2.4236254692077637,
       "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.642,
       "step": 180
     },
     {
       "epoch": 0.47589229805886035,
+      "grad_norm": 10.500153541564941,
       "learning_rate": 2.8499999999999998e-05,
+      "loss": 1.6462,
       "step": 190
     },
     {
       "epoch": 0.5009392611145899,
+      "grad_norm": 8.173652648925781,
       "learning_rate": 3e-05,
+      "loss": 1.6049,
       "step": 200
     },
     {
       "epoch": 0.5259862241703194,
+      "grad_norm": 4.767404556274414,
       "learning_rate": 2.9832869080779945e-05,
+      "loss": 1.5754,
       "step": 210
     },
     {
       "epoch": 0.5510331872260489,
+      "grad_norm": 2.0099925994873047,
       "learning_rate": 2.9665738161559886e-05,
+      "loss": 1.5001,
       "step": 220
     },
     {
       "epoch": 0.5760801502817783,
+      "grad_norm": 2.7814888954162598,
       "learning_rate": 2.9498607242339834e-05,
+      "loss": 1.4049,
       "step": 230
     },
     {
       "epoch": 0.6011271133375078,
+      "grad_norm": 4.7790846824646,
       "learning_rate": 2.933147632311978e-05,
+      "loss": 1.5321,
       "step": 240
     },
     {
       "epoch": 0.6261740763932373,
+      "grad_norm": 3.758580207824707,
       "learning_rate": 2.916434540389972e-05,
+      "loss": 1.4002,
       "step": 250
     },
     {
       "epoch": 0.6512210394489668,
+      "grad_norm": 5.455554008483887,
       "learning_rate": 2.8997214484679665e-05,
+      "loss": 1.4013,
       "step": 260
     },
     {
       "epoch": 0.6762680025046963,
+      "grad_norm": 5.183338165283203,
       "learning_rate": 2.8830083565459613e-05,
+      "loss": 1.2016,
       "step": 270
     },
     {
       "epoch": 0.7013149655604258,
+      "grad_norm": 3.5465261936187744,
       "learning_rate": 2.8662952646239554e-05,
+      "loss": 1.1541,
       "step": 280
     },
     {
       "epoch": 0.7263619286161553,
+      "grad_norm": 8.002464294433594,
       "learning_rate": 2.84958217270195e-05,
+      "loss": 1.1754,
       "step": 290
     },
     {
       "epoch": 0.7514088916718847,
+      "grad_norm": 4.145716190338135,
       "learning_rate": 2.8328690807799443e-05,
+      "loss": 1.1651,
       "step": 300
     },
     {
       "epoch": 0.7764558547276142,
+      "grad_norm": 8.420044898986816,
       "learning_rate": 2.8161559888579388e-05,
+      "loss": 1.2086,
       "step": 310
     },
     {
       "epoch": 0.8015028177833438,
+      "grad_norm": 2.530792713165283,
       "learning_rate": 2.7994428969359332e-05,
+      "loss": 1.1337,
       "step": 320
     },
     {
       "epoch": 0.8265497808390733,
+      "grad_norm": 3.45489501953125,
       "learning_rate": 2.7827298050139277e-05,
+      "loss": 1.0499,
       "step": 330
     },
     {
       "epoch": 0.8515967438948028,
+      "grad_norm": 5.169933795928955,
       "learning_rate": 2.7660167130919218e-05,
+      "loss": 1.1298,
       "step": 340
     },
     {
       "epoch": 0.8766437069505323,
+      "grad_norm": 5.91841459274292,
       "learning_rate": 2.7493036211699166e-05,
+      "loss": 1.1476,
       "step": 350
     },
     {
       "epoch": 0.9016906700062617,
+      "grad_norm": 4.016351699829102,
       "learning_rate": 2.732590529247911e-05,
+      "loss": 1.0944,
       "step": 360
     },
     {
       "epoch": 0.9267376330619912,
+      "grad_norm": 5.553752899169922,
       "learning_rate": 2.7158774373259055e-05,
+      "loss": 1.0822,
       "step": 370
     },
     {
       "epoch": 0.9517845961177207,
+      "grad_norm": 4.519126892089844,
+      "learning_rate": 2.7008356545961002e-05,
+      "loss": 1.0057,
       "step": 380
     },
     {
       "epoch": 0.9768315591734502,
+      "grad_norm": 2.7625792026519775,
+      "learning_rate": 2.6841225626740946e-05,
+      "loss": 1.009,
       "step": 390
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.0362297296524048,
+      "learning_rate": 2.6674094707520894e-05,
+      "loss": 0.8747,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9340982641953516,
+      "eval_loss": 0.806678831577301,
+      "eval_runtime": 4.4599,
+      "eval_samples_per_second": 1524.249,
+      "eval_steps_per_second": 47.759,
       "step": 400
     },
     {
       "epoch": 1.0250469630557295,
+      "grad_norm": 7.034424304962158,
+      "learning_rate": 2.6506963788300836e-05,
+      "loss": 0.8779,
       "step": 410
     },
     {
       "epoch": 1.050093926111459,
+      "grad_norm": 5.3810014724731445,
+      "learning_rate": 2.633983286908078e-05,
+      "loss": 0.7878,
       "step": 420
     },
     {
       "epoch": 1.0751408891671885,
+      "grad_norm": 3.344200372695923,
+      "learning_rate": 2.6172701949860725e-05,
+      "loss": 0.762,
       "step": 430
     },
     {
       "epoch": 1.100187852222918,
+      "grad_norm": 6.402628421783447,
+      "learning_rate": 2.600557103064067e-05,
+      "loss": 0.7631,
       "step": 440
     },
     {
       "epoch": 1.1252348152786475,
+      "grad_norm": 4.863397121429443,
+      "learning_rate": 2.5838440111420614e-05,
+      "loss": 0.6772,
       "step": 450
     },
     {
       "epoch": 1.150281778334377,
+      "grad_norm": 6.484178066253662,
+      "learning_rate": 2.567130919220056e-05,
+      "loss": 0.6461,
       "step": 460
     },
     {
       "epoch": 1.1753287413901066,
+      "grad_norm": 3.2635133266448975,
+      "learning_rate": 2.55041782729805e-05,
+      "loss": 0.5984,
       "step": 470
     },
     {
       "epoch": 1.2003757044458359,
+      "grad_norm": 2.40271258354187,
+      "learning_rate": 2.5337047353760448e-05,
+      "loss": 0.606,
       "step": 480
     },
     {
       "epoch": 1.2254226675015654,
+      "grad_norm": 2.1505284309387207,
+      "learning_rate": 2.5169916434540392e-05,
+      "loss": 0.5553,
       "step": 490
     },
     {
       "epoch": 1.2504696305572949,
+      "grad_norm": 2.476496934890747,
+      "learning_rate": 2.5002785515320333e-05,
+      "loss": 0.5238,
       "step": 500
     },
     {
       "epoch": 1.2755165936130244,
+      "grad_norm": 4.137519359588623,
+      "learning_rate": 2.4835654596100278e-05,
+      "loss": 0.5148,
       "step": 510
     },
     {
       "epoch": 1.300563556668754,
+      "grad_norm": 5.227903842926025,
+      "learning_rate": 2.4668523676880226e-05,
+      "loss": 0.4863,
       "step": 520
     },
     {
       "epoch": 1.3256105197244834,
+      "grad_norm": 4.056149482727051,
+      "learning_rate": 2.4501392757660167e-05,
+      "loss": 0.49,
       "step": 530
     },
     {
       "epoch": 1.350657482780213,
+      "grad_norm": 6.162842273712158,
+      "learning_rate": 2.433426183844011e-05,
+      "loss": 0.4264,
       "step": 540
     },
     {
       "epoch": 1.3757044458359424,
+      "grad_norm": 4.439515113830566,
+      "learning_rate": 2.4167130919220056e-05,
+      "loss": 0.4449,
       "step": 550
     },
     {
       "epoch": 1.400751408891672,
+      "grad_norm": 4.906720161437988,
+      "learning_rate": 2.4e-05,
+      "loss": 0.408,
       "step": 560
     },
     {
       "epoch": 1.4257983719474014,
+      "grad_norm": 5.718549728393555,
+      "learning_rate": 2.3832869080779945e-05,
+      "loss": 0.4143,
       "step": 570
     },
     {
       "epoch": 1.4508453350031307,
+      "grad_norm": 3.9077138900756836,
+      "learning_rate": 2.366573816155989e-05,
+      "loss": 0.3716,
       "step": 580
     },
     {
       "epoch": 1.4758922980588602,
+      "grad_norm": 3.5204200744628906,
+      "learning_rate": 2.349860724233983e-05,
+      "loss": 0.3932,
       "step": 590
     },
     {
       "epoch": 1.5009392611145898,
+      "grad_norm": 5.870133399963379,
+      "learning_rate": 2.333147632311978e-05,
+      "loss": 0.3932,
       "step": 600
     },
     {
       "epoch": 1.5259862241703193,
+      "grad_norm": 5.287498950958252,
+      "learning_rate": 2.3164345403899723e-05,
+      "loss": 0.4031,
       "step": 610
     },
     {
       "epoch": 1.5510331872260488,
+      "grad_norm": 5.271251201629639,
+      "learning_rate": 2.2997214484679665e-05,
+      "loss": 0.3467,
       "step": 620
     },
     {
       "epoch": 1.5760801502817783,
+      "grad_norm": 5.845817565917969,
+      "learning_rate": 2.283008356545961e-05,
+      "loss": 0.3593,
       "step": 630
     },
     {
       "epoch": 1.6011271133375078,
+      "grad_norm": 3.02872896194458,
+      "learning_rate": 2.2662952646239557e-05,
+      "loss": 0.3535,
       "step": 640
     },
     {
       "epoch": 1.6261740763932373,
+      "grad_norm": 2.3705966472625732,
+      "learning_rate": 2.2495821727019498e-05,
+      "loss": 0.3313,
       "step": 650
     },
     {
       "epoch": 1.6512210394489668,
+      "grad_norm": 3.9336166381835938,
+      "learning_rate": 2.2328690807799443e-05,
+      "loss": 0.374,
       "step": 660
     },
     {
       "epoch": 1.6762680025046963,
+      "grad_norm": 6.896333694458008,
+      "learning_rate": 2.2161559888579387e-05,
+      "loss": 0.359,
       "step": 670
     },
     {
       "epoch": 1.7013149655604258,
+      "grad_norm": 3.1803808212280273,
+      "learning_rate": 2.1994428969359335e-05,
+      "loss": 0.3215,
       "step": 680
     },
     {
       "epoch": 1.7263619286161553,
+      "grad_norm": 3.6727025508880615,
+      "learning_rate": 2.1827298050139276e-05,
+      "loss": 0.3313,
       "step": 690
     },
     {
       "epoch": 1.7514088916718848,
+      "grad_norm": 4.481452941894531,
+      "learning_rate": 2.166016713091922e-05,
+      "loss": 0.3075,
       "step": 700
     },
     {
       "epoch": 1.7764558547276144,
+      "grad_norm": 4.977258205413818,
+      "learning_rate": 2.1493036211699166e-05,
+      "loss": 0.2814,
       "step": 710
     },
     {
       "epoch": 1.8015028177833439,
+      "grad_norm": 4.018652439117432,
+      "learning_rate": 2.1325905292479107e-05,
+      "loss": 0.2902,
       "step": 720
     },
     {
       "epoch": 1.8265497808390734,
+      "grad_norm": 6.154052734375,
+      "learning_rate": 2.1158774373259055e-05,
+      "loss": 0.3123,
       "step": 730
     },
     {
       "epoch": 1.8515967438948029,
+      "grad_norm": 3.7956981658935547,
+      "learning_rate": 2.0991643454039e-05,
+      "loss": 0.3119,
       "step": 740
     },
     {
       "epoch": 1.8766437069505324,
+      "grad_norm": 6.320951461791992,
+      "learning_rate": 2.082451253481894e-05,
+      "loss": 0.2874,
       "step": 750
     },
     {
       "epoch": 1.9016906700062617,
+      "grad_norm": 2.6970086097717285,
+      "learning_rate": 2.0657381615598885e-05,
+      "loss": 0.2889,
       "step": 760
     },
     {
       "epoch": 1.9267376330619912,
+      "grad_norm": 4.386446952819824,
+      "learning_rate": 2.0490250696378833e-05,
+      "loss": 0.2529,
       "step": 770
     },
     {
       "epoch": 1.9517845961177207,
+      "grad_norm": 5.870710372924805,
+      "learning_rate": 2.0323119777158774e-05,
+      "loss": 0.2819,
       "step": 780
     },
     {
       "epoch": 1.9768315591734502,
+      "grad_norm": 5.930877685546875,
+      "learning_rate": 2.015598885793872e-05,
+      "loss": 0.2725,
       "step": 790
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.3753320872783661,
+      "learning_rate": 1.9988857938718663e-05,
+      "loss": 0.2332,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9745513386290086,
+      "eval_loss": 0.17788007855415344,
+      "eval_runtime": 4.4101,
+      "eval_samples_per_second": 1541.463,
+      "eval_steps_per_second": 48.298,
       "step": 800
     },
     {
       "epoch": 2.0250469630557295,
+      "grad_norm": 6.34937047958374,
+      "learning_rate": 1.9821727019498608e-05,
+      "loss": 0.2545,
       "step": 810
     },
     {
       "epoch": 2.050093926111459,
+      "grad_norm": 4.1271138191223145,
+      "learning_rate": 1.9654596100278552e-05,
+      "loss": 0.2497,
       "step": 820
     },
     {
       "epoch": 2.0751408891671885,
+      "grad_norm": 5.419626712799072,
+      "learning_rate": 1.9487465181058497e-05,
+      "loss": 0.2502,
       "step": 830
     },
     {
       "epoch": 2.100187852222918,
+      "grad_norm": 6.219632148742676,
+      "learning_rate": 1.9320334261838438e-05,
+      "loss": 0.2492,
       "step": 840
     },
     {
       "epoch": 2.1252348152786475,
+      "grad_norm": 6.462090492248535,
+      "learning_rate": 1.9153203342618386e-05,
+      "loss": 0.2517,
       "step": 850
     },
     {
       "epoch": 2.150281778334377,
+      "grad_norm": 3.6385743618011475,
+      "learning_rate": 1.898607242339833e-05,
+      "loss": 0.2393,
       "step": 860
     },
     {
       "epoch": 2.1753287413901066,
+      "grad_norm": 4.627376556396484,
+      "learning_rate": 1.8818941504178272e-05,
+      "loss": 0.2414,
       "step": 870
     },
     {
       "epoch": 2.200375704445836,
+      "grad_norm": 5.165160179138184,
+      "learning_rate": 1.8651810584958216e-05,
+      "loss": 0.2357,
       "step": 880
     },
     {
       "epoch": 2.2254226675015656,
+      "grad_norm": 1.4684484004974365,
+      "learning_rate": 1.8484679665738164e-05,
+      "loss": 0.2548,
       "step": 890
     },
     {
       "epoch": 2.250469630557295,
+      "grad_norm": 3.5594701766967773,
+      "learning_rate": 1.8317548746518105e-05,
+      "loss": 0.2403,
       "step": 900
     },
     {
       "epoch": 2.2755165936130246,
+      "grad_norm": 3.314188003540039,
+      "learning_rate": 1.815041782729805e-05,
+      "loss": 0.2788,
       "step": 910
     },
     {
       "epoch": 2.300563556668754,
+      "grad_norm": 2.3456945419311523,
+      "learning_rate": 1.7983286908077995e-05,
+      "loss": 0.2707,
       "step": 920
     },
     {
       "epoch": 2.325610519724483,
+      "grad_norm": 3.4486682415008545,
+      "learning_rate": 1.781615598885794e-05,
+      "loss": 0.2304,
       "step": 930
     },
     {
       "epoch": 2.350657482780213,
+      "grad_norm": 3.3779501914978027,
+      "learning_rate": 1.7649025069637884e-05,
+      "loss": 0.2318,
       "step": 940
     },
     {
       "epoch": 2.375704445835942,
+      "grad_norm": 1.7540189027786255,
+      "learning_rate": 1.7481894150417828e-05,
+      "loss": 0.2125,
       "step": 950
     },
     {
       "epoch": 2.4007514088916717,
+      "grad_norm": 8.057242393493652,
+      "learning_rate": 1.731476323119777e-05,
+      "loss": 0.2407,
       "step": 960
     },
     {
       "epoch": 2.425798371947401,
+      "grad_norm": 3.5279042720794678,
+      "learning_rate": 1.7147632311977717e-05,
+      "loss": 0.2432,
       "step": 970
     },
     {
       "epoch": 2.4508453350031307,
+      "grad_norm": 4.324340343475342,
+      "learning_rate": 1.6980501392757662e-05,
+      "loss": 0.2316,
       "step": 980
     },
     {
       "epoch": 2.4758922980588602,
+      "grad_norm": 3.12505841255188,
+      "learning_rate": 1.6813370473537606e-05,
+      "loss": 0.2226,
       "step": 990
     },
     {
       "epoch": 2.5009392611145898,
+      "grad_norm": 3.6332638263702393,
+      "learning_rate": 1.6646239554317548e-05,
+      "loss": 0.2305,
       "step": 1000
     },
     {
       "epoch": 2.5259862241703193,
+      "grad_norm": 3.011505126953125,
+      "learning_rate": 1.6479108635097496e-05,
+      "loss": 0.2361,
       "step": 1010
     },
     {
       "epoch": 2.5510331872260488,
+      "grad_norm": 3.6663644313812256,
+      "learning_rate": 1.631197771587744e-05,
+      "loss": 0.2398,
       "step": 1020
     },
     {
       "epoch": 2.5760801502817783,
+      "grad_norm": 3.6134729385375977,
+      "learning_rate": 1.614484679665738e-05,
+      "loss": 0.1777,
       "step": 1030
     },
     {
       "epoch": 2.601127113337508,
+      "grad_norm": 3.180910587310791,
+      "learning_rate": 1.5977715877437326e-05,
+      "loss": 0.2304,
       "step": 1040
     },
     {
       "epoch": 2.6261740763932373,
+      "grad_norm": 2.667623281478882,
+      "learning_rate": 1.581058495821727e-05,
+      "loss": 0.1787,
       "step": 1050
     },
     {
       "epoch": 2.651221039448967,
+      "grad_norm": 6.972463130950928,
+      "learning_rate": 1.5643454038997215e-05,
+      "loss": 0.2026,
       "step": 1060
     },
     {
       "epoch": 2.6762680025046963,
+      "grad_norm": 1.4821382761001587,
+      "learning_rate": 1.547632311977716e-05,
+      "loss": 0.2295,
       "step": 1070
     },
     {
       "epoch": 2.701314965560426,
+      "grad_norm": 3.339320421218872,
+      "learning_rate": 1.5309192200557104e-05,
+      "loss": 0.2234,
       "step": 1080
     },
     {
       "epoch": 2.7263619286161553,
+      "grad_norm": 3.3274917602539062,
+      "learning_rate": 1.5142061281337047e-05,
+      "loss": 0.1899,
       "step": 1090
     },
     {
       "epoch": 2.751408891671885,
+      "grad_norm": 3.077637195587158,
+      "learning_rate": 1.4974930362116992e-05,
+      "loss": 0.1747,
       "step": 1100
     },
     {
       "epoch": 2.7764558547276144,
+      "grad_norm": 4.980368137359619,
+      "learning_rate": 1.4807799442896936e-05,
+      "loss": 0.2359,
       "step": 1110
     },
     {
       "epoch": 2.801502817783344,
+      "grad_norm": 3.46724534034729,
+      "learning_rate": 1.464066852367688e-05,
+      "loss": 0.1945,
       "step": 1120
     },
     {
       "epoch": 2.8265497808390734,
+      "grad_norm": 6.3585710525512695,
+      "learning_rate": 1.4473537604456825e-05,
+      "loss": 0.2356,
       "step": 1130
     },
     {
       "epoch": 2.851596743894803,
+      "grad_norm": 3.6611506938934326,
+      "learning_rate": 1.4306406685236768e-05,
+      "loss": 0.223,
       "step": 1140
     },
     {
       "epoch": 2.8766437069505324,
+      "grad_norm": 3.0758209228515625,
+      "learning_rate": 1.4139275766016714e-05,
+      "loss": 0.2675,
       "step": 1150
     },
     {
       "epoch": 2.9016906700062615,
+      "grad_norm": 3.0930421352386475,
+      "learning_rate": 1.3972144846796657e-05,
+      "loss": 0.2342,
       "step": 1160
     },
     {
       "epoch": 2.9267376330619914,
+      "grad_norm": 3.915057897567749,
+      "learning_rate": 1.3805013927576602e-05,
+      "loss": 0.2089,
       "step": 1170
     },
     {
       "epoch": 2.9517845961177205,
+      "grad_norm": 3.755885601043701,
+      "learning_rate": 1.3637883008356546e-05,
+      "loss": 0.2251,
       "step": 1180
     },
     {
       "epoch": 2.9768315591734504,
+      "grad_norm": 3.1619045734405518,
+      "learning_rate": 1.3470752089136491e-05,
+      "loss": 0.1927,
       "step": 1190
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.681858539581299,
+      "learning_rate": 1.3303621169916434e-05,
+      "loss": 0.217,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9766107678729038,
+      "eval_loss": 0.1263045072555542,
+      "eval_runtime": 4.7057,
+      "eval_samples_per_second": 1444.62,
+      "eval_steps_per_second": 45.264,
       "step": 1200
     },
     {
       "epoch": 3.0250469630557295,
+      "grad_norm": 4.34127140045166,
+      "learning_rate": 1.313649025069638e-05,
+      "loss": 0.2222,
       "step": 1210
     },
     {
       "epoch": 3.050093926111459,
+      "grad_norm": 2.2270660400390625,
+      "learning_rate": 1.2969359331476323e-05,
+      "loss": 0.1822,
       "step": 1220
     },
     {
       "epoch": 3.0751408891671885,
+      "grad_norm": 3.879969358444214,
+      "learning_rate": 1.2802228412256267e-05,
+      "loss": 0.1947,
       "step": 1230
     },
     {
       "epoch": 3.100187852222918,
+      "grad_norm": 4.284245491027832,
+      "learning_rate": 1.2635097493036212e-05,
+      "loss": 0.2126,
       "step": 1240
     },
     {
       "epoch": 3.1252348152786475,
+      "grad_norm": 3.0802762508392334,
+      "learning_rate": 1.2467966573816157e-05,
+      "loss": 0.1954,
       "step": 1250
     },
     {
       "epoch": 3.150281778334377,
+      "grad_norm": 4.699860095977783,
+      "learning_rate": 1.2300835654596101e-05,
+      "loss": 0.2189,
       "step": 1260
     },
     {
       "epoch": 3.1753287413901066,
+      "grad_norm": 4.755823612213135,
+      "learning_rate": 1.2133704735376046e-05,
+      "loss": 0.2019,
       "step": 1270
     },
     {
       "epoch": 3.200375704445836,
+      "grad_norm": 4.778765678405762,
+      "learning_rate": 1.1966573816155989e-05,
+      "loss": 0.1987,
       "step": 1280
     },
     {
       "epoch": 3.2254226675015656,
+      "grad_norm": 4.719218730926514,
+      "learning_rate": 1.1799442896935935e-05,
+      "loss": 0.1947,
       "step": 1290
     },
     {
       "epoch": 3.250469630557295,
+      "grad_norm": 4.547497272491455,
+      "learning_rate": 1.1632311977715878e-05,
+      "loss": 0.2097,
       "step": 1300
     },
     {
       "epoch": 3.2755165936130246,
+      "grad_norm": 2.1130096912384033,
+      "learning_rate": 1.1465181058495822e-05,
+      "loss": 0.1327,
       "step": 1310
     },
     {
       "epoch": 3.300563556668754,
+      "grad_norm": 4.512012958526611,
+      "learning_rate": 1.1298050139275767e-05,
+      "loss": 0.178,
       "step": 1320
     },
     {
       "epoch": 3.325610519724483,
+      "grad_norm": 2.9694018363952637,
+      "learning_rate": 1.1130919220055711e-05,
+      "loss": 0.2077,
       "step": 1330
     },
     {
       "epoch": 3.350657482780213,
+      "grad_norm": 2.5430564880371094,
+      "learning_rate": 1.0963788300835654e-05,
+      "loss": 0.1774,
       "step": 1340
     },
     {
       "epoch": 3.375704445835942,
+      "grad_norm": 5.131649971008301,
+      "learning_rate": 1.0796657381615599e-05,
+      "loss": 0.2013,
       "step": 1350
     },
     {
       "epoch": 3.4007514088916717,
+      "grad_norm": 3.391754627227783,
+      "learning_rate": 1.0629526462395543e-05,
+      "loss": 0.1772,
       "step": 1360
     },
     {
       "epoch": 3.425798371947401,
+      "grad_norm": 3.4772632122039795,
+      "learning_rate": 1.0462395543175486e-05,
+      "loss": 0.1597,
       "step": 1370
     },
     {
       "epoch": 3.4508453350031307,
+      "grad_norm": 3.5944013595581055,
+      "learning_rate": 1.0295264623955432e-05,
+      "loss": 0.2192,
       "step": 1380
     },
     {
       "epoch": 3.4758922980588602,
+      "grad_norm": 2.526901960372925,
+      "learning_rate": 1.0128133704735375e-05,
+      "loss": 0.168,
       "step": 1390
     },
     {
       "epoch": 3.5009392611145898,
+      "grad_norm": 3.234485626220703,
+      "learning_rate": 9.961002785515322e-06,
+      "loss": 0.2007,
       "step": 1400
     },
     {
       "epoch": 3.5259862241703193,
+      "grad_norm": 4.3917622566223145,
+      "learning_rate": 9.793871866295264e-06,
+      "loss": 0.1766,
       "step": 1410
     },
     {
       "epoch": 3.5510331872260488,
+      "grad_norm": 1.4780800342559814,
+      "learning_rate": 9.626740947075209e-06,
+      "loss": 0.1738,
       "step": 1420
     },
     {
       "epoch": 3.5760801502817783,
+      "grad_norm": 3.670740842819214,
+      "learning_rate": 9.459610027855154e-06,
+      "loss": 0.2033,
       "step": 1430
     },
     {
       "epoch": 3.601127113337508,
+      "grad_norm": 4.08475923538208,
+      "learning_rate": 9.292479108635098e-06,
+      "loss": 0.1638,
       "step": 1440
     },
     {
       "epoch": 3.6261740763932373,
+      "grad_norm": 3.445945978164673,
+      "learning_rate": 9.125348189415041e-06,
+      "loss": 0.1854,
       "step": 1450
     },
     {
       "epoch": 3.651221039448967,
+      "grad_norm": 3.1884312629699707,
+      "learning_rate": 8.958217270194987e-06,
+      "loss": 0.1967,
       "step": 1460
     },
     {
       "epoch": 3.6762680025046963,
+      "grad_norm": 1.9130624532699585,
+      "learning_rate": 8.79108635097493e-06,
+      "loss": 0.1618,
       "step": 1470
     },
     {
       "epoch": 3.701314965560426,
+      "grad_norm": 1.0646212100982666,
+      "learning_rate": 8.623955431754875e-06,
+      "loss": 0.1816,
       "step": 1480
     },
     {
       "epoch": 3.7263619286161553,
+      "grad_norm": 3.629429817199707,
+      "learning_rate": 8.45682451253482e-06,
+      "loss": 0.1432,
       "step": 1490
     },
     {
       "epoch": 3.751408891671885,
+      "grad_norm": 2.1418120861053467,
+      "learning_rate": 8.289693593314764e-06,
+      "loss": 0.1662,
       "step": 1500
     },
     {
       "epoch": 3.7764558547276144,
+      "grad_norm": 3.682490825653076,
+      "learning_rate": 8.122562674094707e-06,
+      "loss": 0.1819,
       "step": 1510
     },
     {
       "epoch": 3.801502817783344,
+      "grad_norm": 2.9112191200256348,
+      "learning_rate": 7.955431754874653e-06,
+      "loss": 0.1785,
       "step": 1520
     },
     {
       "epoch": 3.8265497808390734,
+      "grad_norm": 3.727522134780884,
+      "learning_rate": 7.788300835654596e-06,
+      "loss": 0.1476,
       "step": 1530
     },
     {
       "epoch": 3.851596743894803,
+      "grad_norm": 4.77044153213501,
+      "learning_rate": 7.621169916434541e-06,
+      "loss": 0.1668,
       "step": 1540
     },
     {
       "epoch": 3.8766437069505324,
+      "grad_norm": 2.953248977661133,
+      "learning_rate": 7.454038997214485e-06,
+      "loss": 0.1712,
       "step": 1550
     },
     {
       "epoch": 3.9016906700062615,
+      "grad_norm": 4.06650972366333,
+      "learning_rate": 7.2869080779944286e-06,
+      "loss": 0.1621,
       "step": 1560
     },
     {
       "epoch": 3.9267376330619914,
+      "grad_norm": 4.628715991973877,
+      "learning_rate": 7.119777158774373e-06,
+      "loss": 0.1513,
       "step": 1570
     },
     {
       "epoch": 3.9517845961177205,
+      "grad_norm": 2.5671701431274414,
+      "learning_rate": 6.952646239554318e-06,
+      "loss": 0.1918,
       "step": 1580
     },
     {
       "epoch": 3.9768315591734504,
+      "grad_norm": 4.511129379272461,
+      "learning_rate": 6.785515320334261e-06,
+      "loss": 0.1957,
       "step": 1590
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.4342707395553589,
+      "learning_rate": 6.618384401114206e-06,
+      "loss": 0.1529,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9805825242718447,
+      "eval_loss": 0.10449180752038956,
+      "eval_runtime": 4.637,
+      "eval_samples_per_second": 1466.037,
+      "eval_steps_per_second": 45.935,
       "step": 1600
     },
     {
       "epoch": 4.025046963055729,
+      "grad_norm": 3.8492510318756104,
+      "learning_rate": 6.4512534818941505e-06,
+      "loss": 0.1797,
       "step": 1610
     },
     {
       "epoch": 4.050093926111459,
+      "grad_norm": 4.300637245178223,
+      "learning_rate": 6.284122562674095e-06,
+      "loss": 0.1598,
       "step": 1620
     },
     {
       "epoch": 4.075140889167188,
+      "grad_norm": 1.9370712041854858,
+      "learning_rate": 6.116991643454039e-06,
+      "loss": 0.1746,
       "step": 1630
     },
     {
       "epoch": 4.100187852222918,
+      "grad_norm": 2.7867672443389893,
+      "learning_rate": 5.949860724233983e-06,
+      "loss": 0.1913,
       "step": 1640
     },
     {
       "epoch": 4.125234815278647,
+      "grad_norm": 3.536440372467041,
+      "learning_rate": 5.782729805013928e-06,
+      "loss": 0.1731,
       "step": 1650
     },
     {
       "epoch": 4.150281778334377,
+      "grad_norm": 3.2297356128692627,
+      "learning_rate": 5.615598885793872e-06,
+      "loss": 0.2019,
       "step": 1660
     },
     {
       "epoch": 4.175328741390106,
+      "grad_norm": 5.139032363891602,
+      "learning_rate": 5.448467966573816e-06,
+      "loss": 0.1793,
       "step": 1670
     },
     {
       "epoch": 4.200375704445836,
+      "grad_norm": 3.031764030456543,
+      "learning_rate": 5.281337047353761e-06,
+      "loss": 0.1836,
       "step": 1680
     },
     {
       "epoch": 4.225422667501565,
+      "grad_norm": 2.6612586975097656,
+      "learning_rate": 5.114206128133705e-06,
+      "loss": 0.1629,
       "step": 1690
     },
     {
       "epoch": 4.250469630557295,
+      "grad_norm": 2.8296072483062744,
+      "learning_rate": 4.947075208913649e-06,
+      "loss": 0.1691,
       "step": 1700
     },
     {
       "epoch": 4.275516593613024,
+      "grad_norm": 4.683578968048096,
+      "learning_rate": 4.7799442896935936e-06,
+      "loss": 0.1489,
       "step": 1710
     },
     {
       "epoch": 4.300563556668754,
+      "grad_norm": 3.7361319065093994,
+      "learning_rate": 4.612813370473538e-06,
+      "loss": 0.1453,
       "step": 1720
     },
     {
       "epoch": 4.325610519724483,
+      "grad_norm": 4.293661117553711,
+      "learning_rate": 4.445682451253482e-06,
+      "loss": 0.1445,
       "step": 1730
     },
     {
       "epoch": 4.350657482780213,
+      "grad_norm": 3.1756207942962646,
+      "learning_rate": 4.278551532033426e-06,
+      "loss": 0.1523,
       "step": 1740
     },
     {
       "epoch": 4.375704445835942,
+      "grad_norm": 3.921405792236328,
+      "learning_rate": 4.111420612813371e-06,
+      "loss": 0.1603,
       "step": 1750
     },
     {
       "epoch": 4.400751408891672,
+      "grad_norm": 2.8336334228515625,
+      "learning_rate": 3.944289693593315e-06,
+      "loss": 0.1764,
       "step": 1760
     },
     {
       "epoch": 4.425798371947401,
+      "grad_norm": 3.7013275623321533,
+      "learning_rate": 3.7771587743732592e-06,
+      "loss": 0.1481,
       "step": 1770
     },
     {
       "epoch": 4.450845335003131,
+      "grad_norm": 1.9302759170532227,
+      "learning_rate": 3.6100278551532034e-06,
+      "loss": 0.1526,
       "step": 1780
     },
     {
       "epoch": 4.47589229805886,
+      "grad_norm": 4.772688865661621,
+      "learning_rate": 3.4428969359331475e-06,
+      "loss": 0.1595,
       "step": 1790
     },
     {
       "epoch": 4.50093926111459,
+      "grad_norm": 3.1509013175964355,
+      "learning_rate": 3.275766016713092e-06,
+      "loss": 0.1384,
       "step": 1800
     },
     {
       "epoch": 4.525986224170319,
+      "grad_norm": 2.2213551998138428,
+      "learning_rate": 3.108635097493036e-06,
+      "loss": 0.1542,
       "step": 1810
     },
     {
       "epoch": 4.551033187226049,
+      "grad_norm": 2.7349748611450195,
+      "learning_rate": 2.9415041782729803e-06,
+      "loss": 0.1739,
       "step": 1820
     },
     {
       "epoch": 4.576080150281778,
+      "grad_norm": 5.009521961212158,
+      "learning_rate": 2.774373259052925e-06,
+      "loss": 0.1355,
       "step": 1830
     },
     {
       "epoch": 4.601127113337508,
+      "grad_norm": 3.5362050533294678,
+      "learning_rate": 2.607242339832869e-06,
+      "loss": 0.1335,
       "step": 1840
     },
     {
       "epoch": 4.626174076393237,
+      "grad_norm": 4.31157922744751,
+      "learning_rate": 2.4401114206128136e-06,
+      "loss": 0.1848,
       "step": 1850
     },
     {
       "epoch": 4.651221039448966,
+      "grad_norm": 3.6075448989868164,
+      "learning_rate": 2.2729805013927577e-06,
+      "loss": 0.1763,
       "step": 1860
     },
     {
       "epoch": 4.676268002504696,
+      "grad_norm": 3.1636250019073486,
+      "learning_rate": 2.1058495821727023e-06,
+      "loss": 0.1672,
       "step": 1870
     },
     {
       "epoch": 4.701314965560426,
+      "grad_norm": 0.7837923169136047,
+      "learning_rate": 1.9387186629526464e-06,
+      "loss": 0.1223,
       "step": 1880
     },
     {
       "epoch": 4.726361928616155,
+      "grad_norm": 3.2040278911590576,
+      "learning_rate": 1.7715877437325906e-06,
+      "loss": 0.1676,
       "step": 1890
     },
     {
       "epoch": 4.751408891671884,
+      "grad_norm": 2.6808199882507324,
+      "learning_rate": 1.604456824512535e-06,
+      "loss": 0.1606,
       "step": 1900
     },
     {
       "epoch": 4.776455854727614,
+      "grad_norm": 2.356374979019165,
+      "learning_rate": 1.437325905292479e-06,
+      "loss": 0.1655,
       "step": 1910
     },
     {
       "epoch": 4.801502817783343,
+      "grad_norm": 3.077162504196167,
+      "learning_rate": 1.2701949860724234e-06,
+      "loss": 0.1332,
       "step": 1920
     },
     {
       "epoch": 4.826549780839073,
+      "grad_norm": 3.580504894256592,
+      "learning_rate": 1.1030640668523677e-06,
+      "loss": 0.1687,
       "step": 1930
     },
     {
       "epoch": 4.851596743894802,
+      "grad_norm": 4.193363189697266,
+      "learning_rate": 9.35933147632312e-07,
+      "loss": 0.163,
       "step": 1940
     },
     {
       "epoch": 4.876643706950532,
+      "grad_norm": 3.2785427570343018,
+      "learning_rate": 7.688022284122563e-07,
+      "loss": 0.1546,
       "step": 1950
     },
     {
       "epoch": 4.9016906700062615,
+      "grad_norm": 2.1263206005096436,
+      "learning_rate": 6.016713091922006e-07,
+      "loss": 0.1445,
       "step": 1960
     },
     {
       "epoch": 4.926737633061991,
+      "grad_norm": 1.8054914474487305,
+      "learning_rate": 4.3454038997214486e-07,
+      "loss": 0.1489,
       "step": 1970
     },
     {
       "epoch": 4.9517845961177205,
+      "grad_norm": 2.179539680480957,
+      "learning_rate": 2.6740947075208915e-07,
+      "loss": 0.1632,
       "step": 1980
     },
     {
       "epoch": 4.97683155917345,
+      "grad_norm": 2.8142571449279785,
+      "learning_rate": 1.0027855153203343e-07,
+      "loss": 0.15,
       "step": 1990
     },
     {
       "epoch": 4.989355040701315,
+      "eval_accuracy": 0.9814651368049426,
+      "eval_loss": 0.09822726994752884,
+      "eval_runtime": 4.7671,
+      "eval_samples_per_second": 1426.026,
+      "eval_steps_per_second": 44.681,
       "step": 1995
     },
     {
       "epoch": 4.989355040701315,
       "step": 1995,
+      "total_flos": 2.357895379209216e+18,
+      "train_loss": 0.5734889231528854,
+      "train_runtime": 654.1726,
+      "train_samples_per_second": 390.524,
+      "train_steps_per_second": 3.05
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.357895379209216e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null