nguyenkhoa
/

dinov2_Liveness_detection_v2.2

+{
+    "epoch": 5.0,
+    "total_flos": 1.9922182705152e+18,
+    "train_loss": 0.09219677979975939,
+    "train_runtime": 12464.8013,
+    "train_samples_per_second": 32.09,
+    "train_steps_per_second": 0.251
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "total_flos": 1.9922182705152e+18,
+    "train_loss": 0.09219677979975939,
+    "train_runtime": 12464.8013,
+    "train_samples_per_second": 32.09,
+    "train_steps_per_second": 0.251
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1695 @@

+{
+  "best_metric": 0.08957825601100922,
+  "best_model_checkpoint": "./dinov2_Liveness_detection_v2.2/checkpoint-1792",
+  "epoch": 5.0,
+  "eval_steps": 128,
+  "global_step": 3125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0256,
+      "grad_norm": 34.66463088989258,
+      "learning_rate": 4.9792e-05,
+      "loss": 1.4705,
+      "step": 16
+    },
+    {
+      "epoch": 0.0512,
+      "grad_norm": 22.070404052734375,
+      "learning_rate": 4.9536e-05,
+      "loss": 0.6239,
+      "step": 32
+    },
+    {
+      "epoch": 0.0768,
+      "grad_norm": 4.249419689178467,
+      "learning_rate": 4.928e-05,
+      "loss": 0.4289,
+      "step": 48
+    },
+    {
+      "epoch": 0.1024,
+      "grad_norm": 6.337409496307373,
+      "learning_rate": 4.9024000000000004e-05,
+      "loss": 0.4128,
+      "step": 64
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 24.880699157714844,
+      "learning_rate": 4.8768000000000005e-05,
+      "loss": 0.396,
+      "step": 80
+    },
+    {
+      "epoch": 0.1536,
+      "grad_norm": 10.70703125,
+      "learning_rate": 4.8512e-05,
+      "loss": 0.3921,
+      "step": 96
+    },
+    {
+      "epoch": 0.1792,
+      "grad_norm": 9.0236234664917,
+      "learning_rate": 4.8256e-05,
+      "loss": 0.2849,
+      "step": 112
+    },
+    {
+      "epoch": 0.2048,
+      "grad_norm": 10.472875595092773,
+      "learning_rate": 4.8e-05,
+      "loss": 0.3279,
+      "step": 128
+    },
+    {
+      "epoch": 0.2048,
+      "eval_accuracy": 0.87485,
+      "eval_f1": 0.8772126420661694,
+      "eval_loss": 0.28580960631370544,
+      "eval_precision": 0.8773451087999092,
+      "eval_recall": 0.87485,
+      "eval_runtime": 319.5546,
+      "eval_samples_per_second": 62.587,
+      "eval_steps_per_second": 7.823,
+      "step": 128
+    },
+    {
+      "epoch": 0.2304,
+      "grad_norm": 6.47001314163208,
+      "learning_rate": 4.7744e-05,
+      "loss": 0.264,
+      "step": 144
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 10.121650695800781,
+      "learning_rate": 4.7488000000000003e-05,
+      "loss": 0.2465,
+      "step": 160
+    },
+    {
+      "epoch": 0.2816,
+      "grad_norm": 11.107807159423828,
+      "learning_rate": 4.7232000000000005e-05,
+      "loss": 0.2455,
+      "step": 176
+    },
+    {
+      "epoch": 0.3072,
+      "grad_norm": 11.646367073059082,
+      "learning_rate": 4.6976000000000006e-05,
+      "loss": 0.1951,
+      "step": 192
+    },
+    {
+      "epoch": 0.3328,
+      "grad_norm": 17.932363510131836,
+      "learning_rate": 4.672e-05,
+      "loss": 0.2101,
+      "step": 208
+    },
+    {
+      "epoch": 0.3584,
+      "grad_norm": 7.72909688949585,
+      "learning_rate": 4.6464e-05,
+      "loss": 0.2173,
+      "step": 224
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 9.573624610900879,
+      "learning_rate": 4.6208e-05,
+      "loss": 0.2235,
+      "step": 240
+    },
+    {
+      "epoch": 0.4096,
+      "grad_norm": 40.75331497192383,
+      "learning_rate": 4.5952e-05,
+      "loss": 0.2389,
+      "step": 256
+    },
+    {
+      "epoch": 0.4096,
+      "eval_accuracy": 0.8881,
+      "eval_f1": 0.8818825953674535,
+      "eval_loss": 0.2695896029472351,
+      "eval_precision": 0.9196205778824599,
+      "eval_recall": 0.8881,
+      "eval_runtime": 283.6671,
+      "eval_samples_per_second": 70.505,
+      "eval_steps_per_second": 8.813,
+      "step": 256
+    },
+    {
+      "epoch": 0.4352,
+      "grad_norm": 11.891749382019043,
+      "learning_rate": 4.5696e-05,
+      "loss": 0.21,
+      "step": 272
+    },
+    {
+      "epoch": 0.4608,
+      "grad_norm": 9.512396812438965,
+      "learning_rate": 4.5440000000000005e-05,
+      "loss": 0.1958,
+      "step": 288
+    },
+    {
+      "epoch": 0.4864,
+      "grad_norm": 24.531909942626953,
+      "learning_rate": 4.5184000000000006e-05,
+      "loss": 0.1701,
+      "step": 304
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 17.82181167602539,
+      "learning_rate": 4.4928e-05,
+      "loss": 0.2031,
+      "step": 320
+    },
+    {
+      "epoch": 0.5376,
+      "grad_norm": 6.475971698760986,
+      "learning_rate": 4.4672e-05,
+      "loss": 0.215,
+      "step": 336
+    },
+    {
+      "epoch": 0.5632,
+      "grad_norm": 19.699085235595703,
+      "learning_rate": 4.4416e-05,
+      "loss": 0.177,
+      "step": 352
+    },
+    {
+      "epoch": 0.5888,
+      "grad_norm": 9.223369598388672,
+      "learning_rate": 4.4160000000000004e-05,
+      "loss": 0.1452,
+      "step": 368
+    },
+    {
+      "epoch": 0.6144,
+      "grad_norm": 30.872596740722656,
+      "learning_rate": 4.3904e-05,
+      "loss": 0.186,
+      "step": 384
+    },
+    {
+      "epoch": 0.6144,
+      "eval_accuracy": 0.93825,
+      "eval_f1": 0.9386177153669228,
+      "eval_loss": 0.16135859489440918,
+      "eval_precision": 0.9380610433042933,
+      "eval_recall": 0.93825,
+      "eval_runtime": 282.8431,
+      "eval_samples_per_second": 70.711,
+      "eval_steps_per_second": 8.839,
+      "step": 384
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 30.67617416381836,
+      "learning_rate": 4.3648e-05,
+      "loss": 0.1859,
+      "step": 400
+    },
+    {
+      "epoch": 0.6656,
+      "grad_norm": 15.600126266479492,
+      "learning_rate": 4.3392e-05,
+      "loss": 0.202,
+      "step": 416
+    },
+    {
+      "epoch": 0.6912,
+      "grad_norm": 23.811962127685547,
+      "learning_rate": 4.3136e-05,
+      "loss": 0.1852,
+      "step": 432
+    },
+    {
+      "epoch": 0.7168,
+      "grad_norm": 20.95099639892578,
+      "learning_rate": 4.288e-05,
+      "loss": 0.1413,
+      "step": 448
+    },
+    {
+      "epoch": 0.7424,
+      "grad_norm": 15.215927124023438,
+      "learning_rate": 4.2624000000000004e-05,
+      "loss": 0.179,
+      "step": 464
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 10.095976829528809,
+      "learning_rate": 4.2368000000000005e-05,
+      "loss": 0.1521,
+      "step": 480
+    },
+    {
+      "epoch": 0.7936,
+      "grad_norm": 18.2394962310791,
+      "learning_rate": 4.2112e-05,
+      "loss": 0.1557,
+      "step": 496
+    },
+    {
+      "epoch": 0.8192,
+      "grad_norm": 7.70241641998291,
+      "learning_rate": 4.1856e-05,
+      "loss": 0.2048,
+      "step": 512
+    },
+    {
+      "epoch": 0.8192,
+      "eval_accuracy": 0.94035,
+      "eval_f1": 0.9410615921845757,
+      "eval_loss": 0.1568000316619873,
+      "eval_precision": 0.9414679285734555,
+      "eval_recall": 0.94035,
+      "eval_runtime": 284.3732,
+      "eval_samples_per_second": 70.33,
+      "eval_steps_per_second": 8.791,
+      "step": 512
+    },
+    {
+      "epoch": 0.8448,
+      "grad_norm": 10.704535484313965,
+      "learning_rate": 4.16e-05,
+      "loss": 0.1693,
+      "step": 528
+    },
+    {
+      "epoch": 0.8704,
+      "grad_norm": 8.581585884094238,
+      "learning_rate": 4.1344e-05,
+      "loss": 0.1326,
+      "step": 544
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 17.267370223999023,
+      "learning_rate": 4.1088000000000004e-05,
+      "loss": 0.1503,
+      "step": 560
+    },
+    {
+      "epoch": 0.9216,
+      "grad_norm": 8.601036071777344,
+      "learning_rate": 4.0832000000000005e-05,
+      "loss": 0.1338,
+      "step": 576
+    },
+    {
+      "epoch": 0.9472,
+      "grad_norm": 18.970775604248047,
+      "learning_rate": 4.0576000000000006e-05,
+      "loss": 0.1366,
+      "step": 592
+    },
+    {
+      "epoch": 0.9728,
+      "grad_norm": 6.951398849487305,
+      "learning_rate": 4.032e-05,
+      "loss": 0.1658,
+      "step": 608
+    },
+    {
+      "epoch": 0.9984,
+      "grad_norm": 14.18687915802002,
+      "learning_rate": 4.0064e-05,
+      "loss": 0.1244,
+      "step": 624
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 13.171905517578125,
+      "learning_rate": 3.9808e-05,
+      "loss": 0.1662,
+      "step": 640
+    },
+    {
+      "epoch": 1.024,
+      "eval_accuracy": 0.94265,
+      "eval_f1": 0.9433015607417117,
+      "eval_loss": 0.14737515151500702,
+      "eval_precision": 0.9436242855642897,
+      "eval_recall": 0.94265,
+      "eval_runtime": 284.6998,
+      "eval_samples_per_second": 70.249,
+      "eval_steps_per_second": 8.781,
+      "step": 640
+    },
+    {
+      "epoch": 1.0496,
+      "grad_norm": 26.666791915893555,
+      "learning_rate": 3.9552000000000003e-05,
+      "loss": 0.1282,
+      "step": 656
+    },
+    {
+      "epoch": 1.0752,
+      "grad_norm": 11.280467987060547,
+      "learning_rate": 3.9296e-05,
+      "loss": 0.1114,
+      "step": 672
+    },
+    {
+      "epoch": 1.1008,
+      "grad_norm": 7.130141258239746,
+      "learning_rate": 3.9040000000000006e-05,
+      "loss": 0.1101,
+      "step": 688
+    },
+    {
+      "epoch": 1.1264,
+      "grad_norm": 20.67454719543457,
+      "learning_rate": 3.878400000000001e-05,
+      "loss": 0.0994,
+      "step": 704
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 12.668320655822754,
+      "learning_rate": 3.8528e-05,
+      "loss": 0.1557,
+      "step": 720
+    },
+    {
+      "epoch": 1.1776,
+      "grad_norm": 14.848088264465332,
+      "learning_rate": 3.8272e-05,
+      "loss": 0.1284,
+      "step": 736
+    },
+    {
+      "epoch": 1.2032,
+      "grad_norm": 11.244462966918945,
+      "learning_rate": 3.8016e-05,
+      "loss": 0.1082,
+      "step": 752
+    },
+    {
+      "epoch": 1.2288000000000001,
+      "grad_norm": 6.845088005065918,
+      "learning_rate": 3.776e-05,
+      "loss": 0.1257,
+      "step": 768
+    },
+    {
+      "epoch": 1.2288000000000001,
+      "eval_accuracy": 0.9578,
+      "eval_f1": 0.9573020715487597,
+      "eval_loss": 0.11855915188789368,
+      "eval_precision": 0.9603942863304861,
+      "eval_recall": 0.9578,
+      "eval_runtime": 282.4873,
+      "eval_samples_per_second": 70.8,
+      "eval_steps_per_second": 8.85,
+      "step": 768
+    },
+    {
+      "epoch": 1.2544,
+      "grad_norm": 20.235675811767578,
+      "learning_rate": 3.7504e-05,
+      "loss": 0.1093,
+      "step": 784
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 11.13853931427002,
+      "learning_rate": 3.7248e-05,
+      "loss": 0.1085,
+      "step": 800
+    },
+    {
+      "epoch": 1.3056,
+      "grad_norm": 8.145424842834473,
+      "learning_rate": 3.699200000000001e-05,
+      "loss": 0.1143,
+      "step": 816
+    },
+    {
+      "epoch": 1.3312,
+      "grad_norm": 7.372732162475586,
+      "learning_rate": 3.6736e-05,
+      "loss": 0.1001,
+      "step": 832
+    },
+    {
+      "epoch": 1.3568,
+      "grad_norm": 15.379700660705566,
+      "learning_rate": 3.648e-05,
+      "loss": 0.1251,
+      "step": 848
+    },
+    {
+      "epoch": 1.3824,
+      "grad_norm": 10.976445198059082,
+      "learning_rate": 3.6224000000000004e-05,
+      "loss": 0.0952,
+      "step": 864
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 16.909706115722656,
+      "learning_rate": 3.5968e-05,
+      "loss": 0.1199,
+      "step": 880
+    },
+    {
+      "epoch": 1.4336,
+      "grad_norm": 17.032054901123047,
+      "learning_rate": 3.5712e-05,
+      "loss": 0.1215,
+      "step": 896
+    },
+    {
+      "epoch": 1.4336,
+      "eval_accuracy": 0.9556,
+      "eval_f1": 0.9559899884084567,
+      "eval_loss": 0.12017901241779327,
+      "eval_precision": 0.956118373847158,
+      "eval_recall": 0.9556,
+      "eval_runtime": 283.5072,
+      "eval_samples_per_second": 70.545,
+      "eval_steps_per_second": 8.818,
+      "step": 896
+    },
+    {
+      "epoch": 1.4592,
+      "grad_norm": 29.543867111206055,
+      "learning_rate": 3.5456e-05,
+      "loss": 0.116,
+      "step": 912
+    },
+    {
+      "epoch": 1.4848,
+      "grad_norm": 9.891976356506348,
+      "learning_rate": 3.52e-05,
+      "loss": 0.106,
+      "step": 928
+    },
+    {
+      "epoch": 1.5104,
+      "grad_norm": 10.544168472290039,
+      "learning_rate": 3.4943999999999996e-05,
+      "loss": 0.0881,
+      "step": 944
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 7.543793678283691,
+      "learning_rate": 3.4688000000000004e-05,
+      "loss": 0.0995,
+      "step": 960
+    },
+    {
+      "epoch": 1.5615999999999999,
+      "grad_norm": 13.808887481689453,
+      "learning_rate": 3.4432000000000005e-05,
+      "loss": 0.0864,
+      "step": 976
+    },
+    {
+      "epoch": 1.5872000000000002,
+      "grad_norm": 17.851945877075195,
+      "learning_rate": 3.4176e-05,
+      "loss": 0.1073,
+      "step": 992
+    },
+    {
+      "epoch": 1.6128,
+      "grad_norm": 12.95018196105957,
+      "learning_rate": 3.392e-05,
+      "loss": 0.0776,
+      "step": 1008
+    },
+    {
+      "epoch": 1.6383999999999999,
+      "grad_norm": 4.886596202850342,
+      "learning_rate": 3.3664e-05,
+      "loss": 0.0917,
+      "step": 1024
+    },
+    {
+      "epoch": 1.6383999999999999,
+      "eval_accuracy": 0.9611,
+      "eval_f1": 0.9611166892749899,
+      "eval_loss": 0.10448341071605682,
+      "eval_precision": 0.9610692328386163,
+      "eval_recall": 0.9611,
+      "eval_runtime": 281.5004,
+      "eval_samples_per_second": 71.048,
+      "eval_steps_per_second": 8.881,
+      "step": 1024
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 10.328375816345215,
+      "learning_rate": 3.3408e-05,
+      "loss": 0.1157,
+      "step": 1040
+    },
+    {
+      "epoch": 1.6896,
+      "grad_norm": 12.873481750488281,
+      "learning_rate": 3.3152e-05,
+      "loss": 0.0981,
+      "step": 1056
+    },
+    {
+      "epoch": 1.7151999999999998,
+      "grad_norm": 8.897006034851074,
+      "learning_rate": 3.2896e-05,
+      "loss": 0.0922,
+      "step": 1072
+    },
+    {
+      "epoch": 1.7408000000000001,
+      "grad_norm": 10.708754539489746,
+      "learning_rate": 3.2640000000000006e-05,
+      "loss": 0.0981,
+      "step": 1088
+    },
+    {
+      "epoch": 1.7664,
+      "grad_norm": 5.463771343231201,
+      "learning_rate": 3.2384e-05,
+      "loss": 0.099,
+      "step": 1104
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 9.746946334838867,
+      "learning_rate": 3.2128e-05,
+      "loss": 0.0931,
+      "step": 1120
+    },
+    {
+      "epoch": 1.8176,
+      "grad_norm": 10.415765762329102,
+      "learning_rate": 3.1872e-05,
+      "loss": 0.1072,
+      "step": 1136
+    },
+    {
+      "epoch": 1.8432,
+      "grad_norm": 15.399734497070312,
+      "learning_rate": 3.1616000000000004e-05,
+      "loss": 0.1256,
+      "step": 1152
+    },
+    {
+      "epoch": 1.8432,
+      "eval_accuracy": 0.96325,
+      "eval_f1": 0.9629677002648841,
+      "eval_loss": 0.09713909775018692,
+      "eval_precision": 0.9645426077641248,
+      "eval_recall": 0.96325,
+      "eval_runtime": 278.3663,
+      "eval_samples_per_second": 71.848,
+      "eval_steps_per_second": 8.981,
+      "step": 1152
+    },
+    {
+      "epoch": 1.8688,
+      "grad_norm": 18.964815139770508,
+      "learning_rate": 3.136e-05,
+      "loss": 0.0833,
+      "step": 1168
+    },
+    {
+      "epoch": 1.8944,
+      "grad_norm": 19.32863426208496,
+      "learning_rate": 3.1104e-05,
+      "loss": 0.1033,
+      "step": 1184
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 13.44693660736084,
+      "learning_rate": 3.0848e-05,
+      "loss": 0.082,
+      "step": 1200
+    },
+    {
+      "epoch": 1.9456,
+      "grad_norm": 6.130032539367676,
+      "learning_rate": 3.0592e-05,
+      "loss": 0.1034,
+      "step": 1216
+    },
+    {
+      "epoch": 1.9712,
+      "grad_norm": 25.041440963745117,
+      "learning_rate": 3.0336000000000002e-05,
+      "loss": 0.0925,
+      "step": 1232
+    },
+    {
+      "epoch": 1.9968,
+      "grad_norm": 21.437124252319336,
+      "learning_rate": 3.0080000000000003e-05,
+      "loss": 0.073,
+      "step": 1248
+    },
+    {
+      "epoch": 2.0224,
+      "grad_norm": 5.39111852645874,
+      "learning_rate": 2.9824e-05,
+      "loss": 0.0664,
+      "step": 1264
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 23.514789581298828,
+      "learning_rate": 2.9568000000000002e-05,
+      "loss": 0.0676,
+      "step": 1280
+    },
+    {
+      "epoch": 2.048,
+      "eval_accuracy": 0.9487,
+      "eval_f1": 0.9477085652077598,
+      "eval_loss": 0.1523836851119995,
+      "eval_precision": 0.954484900593093,
+      "eval_recall": 0.9487,
+      "eval_runtime": 281.1485,
+      "eval_samples_per_second": 71.137,
+      "eval_steps_per_second": 8.892,
+      "step": 1280
+    },
+    {
+      "epoch": 2.0736,
+      "grad_norm": 13.302830696105957,
+      "learning_rate": 2.9312e-05,
+      "loss": 0.0653,
+      "step": 1296
+    },
+    {
+      "epoch": 2.0992,
+      "grad_norm": 3.786924123764038,
+      "learning_rate": 2.9056e-05,
+      "loss": 0.1038,
+      "step": 1312
+    },
+    {
+      "epoch": 2.1248,
+      "grad_norm": 13.609587669372559,
+      "learning_rate": 2.88e-05,
+      "loss": 0.0521,
+      "step": 1328
+    },
+    {
+      "epoch": 2.1504,
+      "grad_norm": 12.58696174621582,
+      "learning_rate": 2.8544000000000003e-05,
+      "loss": 0.0736,
+      "step": 1344
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 8.014899253845215,
+      "learning_rate": 2.8288000000000004e-05,
+      "loss": 0.0594,
+      "step": 1360
+    },
+    {
+      "epoch": 2.2016,
+      "grad_norm": 43.778987884521484,
+      "learning_rate": 2.8032000000000002e-05,
+      "loss": 0.0668,
+      "step": 1376
+    },
+    {
+      "epoch": 2.2272,
+      "grad_norm": 16.46095085144043,
+      "learning_rate": 2.7776000000000003e-05,
+      "loss": 0.0521,
+      "step": 1392
+    },
+    {
+      "epoch": 2.2528,
+      "grad_norm": 14.682294845581055,
+      "learning_rate": 2.752e-05,
+      "loss": 0.0458,
+      "step": 1408
+    },
+    {
+      "epoch": 2.2528,
+      "eval_accuracy": 0.9641,
+      "eval_f1": 0.9643031804596063,
+      "eval_loss": 0.1148511990904808,
+      "eval_precision": 0.9642012329521269,
+      "eval_recall": 0.9641,
+      "eval_runtime": 278.1179,
+      "eval_samples_per_second": 71.912,
+      "eval_steps_per_second": 8.989,
+      "step": 1408
+    },
+    {
+      "epoch": 2.2784,
+      "grad_norm": 16.87139892578125,
+      "learning_rate": 2.7264000000000002e-05,
+      "loss": 0.0573,
+      "step": 1424
+    },
+    {
+      "epoch": 2.304,
+      "grad_norm": 15.872309684753418,
+      "learning_rate": 2.7008e-05,
+      "loss": 0.0572,
+      "step": 1440
+    },
+    {
+      "epoch": 2.3296,
+      "grad_norm": 7.687776565551758,
+      "learning_rate": 2.6752e-05,
+      "loss": 0.0425,
+      "step": 1456
+    },
+    {
+      "epoch": 2.3552,
+      "grad_norm": 4.777771949768066,
+      "learning_rate": 2.6496e-05,
+      "loss": 0.0428,
+      "step": 1472
+    },
+    {
+      "epoch": 2.3808,
+      "grad_norm": 13.205519676208496,
+      "learning_rate": 2.6240000000000003e-05,
+      "loss": 0.0637,
+      "step": 1488
+    },
+    {
+      "epoch": 2.4064,
+      "grad_norm": 11.858043670654297,
+      "learning_rate": 2.5984000000000004e-05,
+      "loss": 0.0967,
+      "step": 1504
+    },
+    {
+      "epoch": 2.432,
+      "grad_norm": 9.521114349365234,
+      "learning_rate": 2.5728e-05,
+      "loss": 0.0656,
+      "step": 1520
+    },
+    {
+      "epoch": 2.4576000000000002,
+      "grad_norm": 12.698617935180664,
+      "learning_rate": 2.5472000000000003e-05,
+      "loss": 0.0462,
+      "step": 1536
+    },
+    {
+      "epoch": 2.4576000000000002,
+      "eval_accuracy": 0.96305,
+      "eval_f1": 0.9632364288008687,
+      "eval_loss": 0.12331197410821915,
+      "eval_precision": 0.9630746783109622,
+      "eval_recall": 0.96305,
+      "eval_runtime": 281.1929,
+      "eval_samples_per_second": 71.126,
+      "eval_steps_per_second": 8.891,
+      "step": 1536
+    },
+    {
+      "epoch": 2.4832,
+      "grad_norm": 9.886771202087402,
+      "learning_rate": 2.5216e-05,
+      "loss": 0.0601,
+      "step": 1552
+    },
+    {
+      "epoch": 2.5088,
+      "grad_norm": 10.044967651367188,
+      "learning_rate": 2.496e-05,
+      "loss": 0.0513,
+      "step": 1568
+    },
+    {
+      "epoch": 2.5343999999999998,
+      "grad_norm": 6.7596282958984375,
+      "learning_rate": 2.4704000000000003e-05,
+      "loss": 0.0553,
+      "step": 1584
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 11.670364379882812,
+      "learning_rate": 2.4448e-05,
+      "loss": 0.055,
+      "step": 1600
+    },
+    {
+      "epoch": 2.5856,
+      "grad_norm": 11.451431274414062,
+      "learning_rate": 2.4192e-05,
+      "loss": 0.0596,
+      "step": 1616
+    },
+    {
+      "epoch": 2.6112,
+      "grad_norm": 10.542276382446289,
+      "learning_rate": 2.3936e-05,
+      "loss": 0.0736,
+      "step": 1632
+    },
+    {
+      "epoch": 2.6368,
+      "grad_norm": 5.758074760437012,
+      "learning_rate": 2.3680000000000004e-05,
+      "loss": 0.051,
+      "step": 1648
+    },
+    {
+      "epoch": 2.6624,
+      "grad_norm": 10.516912460327148,
+      "learning_rate": 2.3424e-05,
+      "loss": 0.0453,
+      "step": 1664
+    },
+    {
+      "epoch": 2.6624,
+      "eval_accuracy": 0.96715,
+      "eval_f1": 0.9669626011452112,
+      "eval_loss": 0.10297044366598129,
+      "eval_precision": 0.967941822724822,
+      "eval_recall": 0.96715,
+      "eval_runtime": 279.502,
+      "eval_samples_per_second": 71.556,
+      "eval_steps_per_second": 8.944,
+      "step": 1664
+    },
+    {
+      "epoch": 2.6879999999999997,
+      "grad_norm": 12.392754554748535,
+      "learning_rate": 2.3168000000000002e-05,
+      "loss": 0.0553,
+      "step": 1680
+    },
+    {
+      "epoch": 2.7136,
+      "grad_norm": 17.765338897705078,
+      "learning_rate": 2.2912e-05,
+      "loss": 0.0532,
+      "step": 1696
+    },
+    {
+      "epoch": 2.7392,
+      "grad_norm": 9.730329513549805,
+      "learning_rate": 2.2656e-05,
+      "loss": 0.0371,
+      "step": 1712
+    },
+    {
+      "epoch": 2.7648,
+      "grad_norm": 13.465132713317871,
+      "learning_rate": 2.2400000000000002e-05,
+      "loss": 0.0596,
+      "step": 1728
+    },
+    {
+      "epoch": 2.7904,
+      "grad_norm": 27.750364303588867,
+      "learning_rate": 2.2144e-05,
+      "loss": 0.0484,
+      "step": 1744
+    },
+    {
+      "epoch": 2.816,
+      "grad_norm": 3.0103964805603027,
+      "learning_rate": 2.1888e-05,
+      "loss": 0.0701,
+      "step": 1760
+    },
+    {
+      "epoch": 2.8416,
+      "grad_norm": 10.96268081665039,
+      "learning_rate": 2.1632000000000002e-05,
+      "loss": 0.0533,
+      "step": 1776
+    },
+    {
+      "epoch": 2.8672,
+      "grad_norm": 12.069666862487793,
+      "learning_rate": 2.1376e-05,
+      "loss": 0.0631,
+      "step": 1792
+    },
+    {
+      "epoch": 2.8672,
+      "eval_accuracy": 0.967,
+      "eval_f1": 0.9671810050273864,
+      "eval_loss": 0.08957825601100922,
+      "eval_precision": 0.9671147410539459,
+      "eval_recall": 0.967,
+      "eval_runtime": 277.5967,
+      "eval_samples_per_second": 72.047,
+      "eval_steps_per_second": 9.006,
+      "step": 1792
+    },
+    {
+      "epoch": 2.8928000000000003,
+      "grad_norm": 13.720245361328125,
+      "learning_rate": 2.112e-05,
+      "loss": 0.0535,
+      "step": 1808
+    },
+    {
+      "epoch": 2.9184,
+      "grad_norm": 6.320708751678467,
+      "learning_rate": 2.0864e-05,
+      "loss": 0.0649,
+      "step": 1824
+    },
+    {
+      "epoch": 2.944,
+      "grad_norm": 5.463020324707031,
+      "learning_rate": 2.0608000000000003e-05,
+      "loss": 0.048,
+      "step": 1840
+    },
+    {
+      "epoch": 2.9696,
+      "grad_norm": 4.433831691741943,
+      "learning_rate": 2.0352e-05,
+      "loss": 0.0586,
+      "step": 1856
+    },
+    {
+      "epoch": 2.9952,
+      "grad_norm": 17.39836883544922,
+      "learning_rate": 2.0096000000000002e-05,
+      "loss": 0.049,
+      "step": 1872
+    },
+    {
+      "epoch": 3.0208,
+      "grad_norm": 14.647570610046387,
+      "learning_rate": 1.984e-05,
+      "loss": 0.0342,
+      "step": 1888
+    },
+    {
+      "epoch": 3.0464,
+      "grad_norm": 14.295393943786621,
+      "learning_rate": 1.9584e-05,
+      "loss": 0.0388,
+      "step": 1904
+    },
+    {
+      "epoch": 3.072,
+      "grad_norm": 11.012173652648926,
+      "learning_rate": 1.9328000000000002e-05,
+      "loss": 0.0358,
+      "step": 1920
+    },
+    {
+      "epoch": 3.072,
+      "eval_accuracy": 0.9735,
+      "eval_f1": 0.9734189039509762,
+      "eval_loss": 0.09655638784170151,
+      "eval_precision": 0.973788868583104,
+      "eval_recall": 0.9735,
+      "eval_runtime": 279.0333,
+      "eval_samples_per_second": 71.676,
+      "eval_steps_per_second": 8.96,
+      "step": 1920
+    },
+    {
+      "epoch": 3.0976,
+      "grad_norm": 9.099358558654785,
+      "learning_rate": 1.9072e-05,
+      "loss": 0.0188,
+      "step": 1936
+    },
+    {
+      "epoch": 3.1232,
+      "grad_norm": 13.887655258178711,
+      "learning_rate": 1.8816e-05,
+      "loss": 0.0317,
+      "step": 1952
+    },
+    {
+      "epoch": 3.1488,
+      "grad_norm": 19.007081985473633,
+      "learning_rate": 1.856e-05,
+      "loss": 0.0259,
+      "step": 1968
+    },
+    {
+      "epoch": 3.1744,
+      "grad_norm": 11.445087432861328,
+      "learning_rate": 1.8304000000000003e-05,
+      "loss": 0.0372,
+      "step": 1984
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 20.101608276367188,
+      "learning_rate": 1.8048e-05,
+      "loss": 0.0223,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2256,
+      "grad_norm": 20.436317443847656,
+      "learning_rate": 1.7792000000000002e-05,
+      "loss": 0.0274,
+      "step": 2016
+    },
+    {
+      "epoch": 3.2512,
+      "grad_norm": 11.57426929473877,
+      "learning_rate": 1.7536e-05,
+      "loss": 0.03,
+      "step": 2032
+    },
+    {
+      "epoch": 3.2768,
+      "grad_norm": 10.924423217773438,
+      "learning_rate": 1.728e-05,
+      "loss": 0.0229,
+      "step": 2048
+    },
+    {
+      "epoch": 3.2768,
+      "eval_accuracy": 0.96745,
+      "eval_f1": 0.9676427047404297,
+      "eval_loss": 0.12504249811172485,
+      "eval_precision": 0.967625634978291,
+      "eval_recall": 0.96745,
+      "eval_runtime": 280.1996,
+      "eval_samples_per_second": 71.378,
+      "eval_steps_per_second": 8.922,
+      "step": 2048
+    },
+    {
+      "epoch": 3.3024,
+      "grad_norm": 26.28428077697754,
+      "learning_rate": 1.7024e-05,
+      "loss": 0.0282,
+      "step": 2064
+    },
+    {
+      "epoch": 3.328,
+      "grad_norm": 1.8928290605545044,
+      "learning_rate": 1.6768e-05,
+      "loss": 0.0245,
+      "step": 2080
+    },
+    {
+      "epoch": 3.3536,
+      "grad_norm": 2.3847615718841553,
+      "learning_rate": 1.6512e-05,
+      "loss": 0.0273,
+      "step": 2096
+    },
+    {
+      "epoch": 3.3792,
+      "grad_norm": 43.50973892211914,
+      "learning_rate": 1.6256e-05,
+      "loss": 0.0485,
+      "step": 2112
+    },
+    {
+      "epoch": 3.4048,
+      "grad_norm": 3.1951754093170166,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0312,
+      "step": 2128
+    },
+    {
+      "epoch": 3.4304,
+      "grad_norm": 8.364577293395996,
+      "learning_rate": 1.5744e-05,
+      "loss": 0.0308,
+      "step": 2144
+    },
+    {
+      "epoch": 3.456,
+      "grad_norm": 15.640523910522461,
+      "learning_rate": 1.5487999999999998e-05,
+      "loss": 0.0174,
+      "step": 2160
+    },
+    {
+      "epoch": 3.4816,
+      "grad_norm": 17.16481590270996,
+      "learning_rate": 1.5232000000000003e-05,
+      "loss": 0.0272,
+      "step": 2176
+    },
+    {
+      "epoch": 3.4816,
+      "eval_accuracy": 0.96915,
+      "eval_f1": 0.9692869954564767,
+      "eval_loss": 0.11478219926357269,
+      "eval_precision": 0.9691824640029512,
+      "eval_recall": 0.96915,
+      "eval_runtime": 281.6325,
+      "eval_samples_per_second": 71.015,
+      "eval_steps_per_second": 8.877,
+      "step": 2176
+    },
+    {
+      "epoch": 3.5072,
+      "grad_norm": 1.0738009214401245,
+      "learning_rate": 1.4976000000000002e-05,
+      "loss": 0.0255,
+      "step": 2192
+    },
+    {
+      "epoch": 3.5328,
+      "grad_norm": 41.19829177856445,
+      "learning_rate": 1.472e-05,
+      "loss": 0.031,
+      "step": 2208
+    },
+    {
+      "epoch": 3.5584,
+      "grad_norm": 15.848438262939453,
+      "learning_rate": 1.4463999999999999e-05,
+      "loss": 0.0377,
+      "step": 2224
+    },
+    {
+      "epoch": 3.584,
+      "grad_norm": 2.093379020690918,
+      "learning_rate": 1.4208000000000002e-05,
+      "loss": 0.0244,
+      "step": 2240
+    },
+    {
+      "epoch": 3.6096,
+      "grad_norm": 8.310689926147461,
+      "learning_rate": 1.3952000000000001e-05,
+      "loss": 0.0203,
+      "step": 2256
+    },
+    {
+      "epoch": 3.6352,
+      "grad_norm": 24.2000675201416,
+      "learning_rate": 1.3696e-05,
+      "loss": 0.0408,
+      "step": 2272
+    },
+    {
+      "epoch": 3.6608,
+      "grad_norm": 13.623507499694824,
+      "learning_rate": 1.344e-05,
+      "loss": 0.0214,
+      "step": 2288
+    },
+    {
+      "epoch": 3.6864,
+      "grad_norm": 18.911640167236328,
+      "learning_rate": 1.3184000000000001e-05,
+      "loss": 0.0253,
+      "step": 2304
+    },
+    {
+      "epoch": 3.6864,
+      "eval_accuracy": 0.97565,
+      "eval_f1": 0.9755495544379561,
+      "eval_loss": 0.11298450827598572,
+      "eval_precision": 0.9760774584693096,
+      "eval_recall": 0.97565,
+      "eval_runtime": 280.3093,
+      "eval_samples_per_second": 71.35,
+      "eval_steps_per_second": 8.919,
+      "step": 2304
+    },
+    {
+      "epoch": 3.7119999999999997,
+      "grad_norm": 1.1341925859451294,
+      "learning_rate": 1.2928e-05,
+      "loss": 0.0197,
+      "step": 2320
+    },
+    {
+      "epoch": 3.7376,
+      "grad_norm": 13.4550142288208,
+      "learning_rate": 1.2672e-05,
+      "loss": 0.0361,
+      "step": 2336
+    },
+    {
+      "epoch": 3.7632,
+      "grad_norm": 15.61780834197998,
+      "learning_rate": 1.2416000000000001e-05,
+      "loss": 0.0393,
+      "step": 2352
+    },
+    {
+      "epoch": 3.7888,
+      "grad_norm": 13.786069869995117,
+      "learning_rate": 1.216e-05,
+      "loss": 0.0442,
+      "step": 2368
+    },
+    {
+      "epoch": 3.8144,
+      "grad_norm": 17.309276580810547,
+      "learning_rate": 1.1904000000000002e-05,
+      "loss": 0.0208,
+      "step": 2384
+    },
+    {
+      "epoch": 3.84,
+      "grad_norm": 2.970080614089966,
+      "learning_rate": 1.1648000000000001e-05,
+      "loss": 0.0335,
+      "step": 2400
+    },
+    {
+      "epoch": 3.8656,
+      "grad_norm": 14.395270347595215,
+      "learning_rate": 1.1392e-05,
+      "loss": 0.0296,
+      "step": 2416
+    },
+    {
+      "epoch": 3.8912,
+      "grad_norm": 33.41287612915039,
+      "learning_rate": 1.1136e-05,
+      "loss": 0.0249,
+      "step": 2432
+    },
+    {
+      "epoch": 3.8912,
+      "eval_accuracy": 0.97155,
+      "eval_f1": 0.971651659709645,
+      "eval_loss": 0.1090923324227333,
+      "eval_precision": 0.9715421641079485,
+      "eval_recall": 0.97155,
+      "eval_runtime": 282.2386,
+      "eval_samples_per_second": 70.862,
+      "eval_steps_per_second": 8.858,
+      "step": 2432
+    },
+    {
+      "epoch": 3.9168,
+      "grad_norm": 5.735462188720703,
+      "learning_rate": 1.088e-05,
+      "loss": 0.0246,
+      "step": 2448
+    },
+    {
+      "epoch": 3.9424,
+      "grad_norm": 9.76904582977295,
+      "learning_rate": 1.0624e-05,
+      "loss": 0.0189,
+      "step": 2464
+    },
+    {
+      "epoch": 3.968,
+      "grad_norm": 21.996170043945312,
+      "learning_rate": 1.0368e-05,
+      "loss": 0.0232,
+      "step": 2480
+    },
+    {
+      "epoch": 3.9936,
+      "grad_norm": 12.781206130981445,
+      "learning_rate": 1.0112e-05,
+      "loss": 0.0315,
+      "step": 2496
+    },
+    {
+      "epoch": 4.0192,
+      "grad_norm": 1.531118631362915,
+      "learning_rate": 9.856e-06,
+      "loss": 0.0092,
+      "step": 2512
+    },
+    {
+      "epoch": 4.0448,
+      "grad_norm": 4.409332752227783,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.0066,
+      "step": 2528
+    },
+    {
+      "epoch": 4.0704,
+      "grad_norm": 19.169538497924805,
+      "learning_rate": 9.344e-06,
+      "loss": 0.0131,
+      "step": 2544
+    },
+    {
+      "epoch": 4.096,
+      "grad_norm": 2.931497573852539,
+      "learning_rate": 9.088e-06,
+      "loss": 0.0049,
+      "step": 2560
+    },
+    {
+      "epoch": 4.096,
+      "eval_accuracy": 0.97555,
+      "eval_f1": 0.9755704234666928,
+      "eval_loss": 0.1419830322265625,
+      "eval_precision": 0.9755193219728142,
+      "eval_recall": 0.97555,
+      "eval_runtime": 279.3028,
+      "eval_samples_per_second": 71.607,
+      "eval_steps_per_second": 8.951,
+      "step": 2560
+    },
+    {
+      "epoch": 4.1216,
+      "grad_norm": 56.46807861328125,
+      "learning_rate": 8.832e-06,
+      "loss": 0.0083,
+      "step": 2576
+    },
+    {
+      "epoch": 4.1472,
+      "grad_norm": 7.309184551239014,
+      "learning_rate": 8.576e-06,
+      "loss": 0.009,
+      "step": 2592
+    },
+    {
+      "epoch": 4.1728,
+      "grad_norm": 0.3025994896888733,
+      "learning_rate": 8.32e-06,
+      "loss": 0.0117,
+      "step": 2608
+    },
+    {
+      "epoch": 4.1984,
+      "grad_norm": 2.3376545906066895,
+      "learning_rate": 8.064000000000001e-06,
+      "loss": 0.0158,
+      "step": 2624
+    },
+    {
+      "epoch": 4.224,
+      "grad_norm": 0.007340936455875635,
+      "learning_rate": 7.808e-06,
+      "loss": 0.0063,
+      "step": 2640
+    },
+    {
+      "epoch": 4.2496,
+      "grad_norm": 49.095787048339844,
+      "learning_rate": 7.552000000000001e-06,
+      "loss": 0.0086,
+      "step": 2656
+    },
+    {
+      "epoch": 4.2752,
+      "grad_norm": 0.7440342307090759,
+      "learning_rate": 7.296e-06,
+      "loss": 0.0067,
+      "step": 2672
+    },
+    {
+      "epoch": 4.3008,
+      "grad_norm": 0.016900308430194855,
+      "learning_rate": 7.04e-06,
+      "loss": 0.0159,
+      "step": 2688
+    },
+    {
+      "epoch": 4.3008,
+      "eval_accuracy": 0.9775,
+      "eval_f1": 0.9774367192636422,
+      "eval_loss": 0.14225812256336212,
+      "eval_precision": 0.977734598030591,
+      "eval_recall": 0.9775,
+      "eval_runtime": 279.9457,
+      "eval_samples_per_second": 71.442,
+      "eval_steps_per_second": 8.93,
+      "step": 2688
+    },
+    {
+      "epoch": 4.3264,
+      "grad_norm": 0.04318913444876671,
+      "learning_rate": 6.784e-06,
+      "loss": 0.0113,
+      "step": 2704
+    },
+    {
+      "epoch": 4.352,
+      "grad_norm": 24.88129234313965,
+      "learning_rate": 6.528000000000001e-06,
+      "loss": 0.0064,
+      "step": 2720
+    },
+    {
+      "epoch": 4.3776,
+      "grad_norm": 0.3640088140964508,
+      "learning_rate": 6.272e-06,
+      "loss": 0.0105,
+      "step": 2736
+    },
+    {
+      "epoch": 4.4032,
+      "grad_norm": 0.05440501868724823,
+      "learning_rate": 6.0160000000000005e-06,
+      "loss": 0.0179,
+      "step": 2752
+    },
+    {
+      "epoch": 4.4288,
+      "grad_norm": 0.35142025351524353,
+      "learning_rate": 5.76e-06,
+      "loss": 0.0052,
+      "step": 2768
+    },
+    {
+      "epoch": 4.4544,
+      "grad_norm": 17.978708267211914,
+      "learning_rate": 5.504e-06,
+      "loss": 0.0052,
+      "step": 2784
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 0.02156807854771614,
+      "learning_rate": 5.248e-06,
+      "loss": 0.007,
+      "step": 2800
+    },
+    {
+      "epoch": 4.5056,
+      "grad_norm": 0.010784478858113289,
+      "learning_rate": 4.992e-06,
+      "loss": 0.0026,
+      "step": 2816
+    },
+    {
+      "epoch": 4.5056,
+      "eval_accuracy": 0.9774,
+      "eval_f1": 0.9773457166351697,
+      "eval_loss": 0.1453547328710556,
+      "eval_precision": 0.9775879326882146,
+      "eval_recall": 0.9774,
+      "eval_runtime": 282.3251,
+      "eval_samples_per_second": 70.84,
+      "eval_steps_per_second": 8.855,
+      "step": 2816
+    },
+    {
+      "epoch": 4.5312,
+      "grad_norm": 27.997182846069336,
+      "learning_rate": 4.736e-06,
+      "loss": 0.0098,
+      "step": 2832
+    },
+    {
+      "epoch": 4.5568,
+      "grad_norm": 0.01749483309686184,
+      "learning_rate": 4.48e-06,
+      "loss": 0.0065,
+      "step": 2848
+    },
+    {
+      "epoch": 4.5824,
+      "grad_norm": 0.020929008722305298,
+      "learning_rate": 4.2240000000000006e-06,
+      "loss": 0.0023,
+      "step": 2864
+    },
+    {
+      "epoch": 4.608,
+      "grad_norm": 25.257774353027344,
+      "learning_rate": 3.968e-06,
+      "loss": 0.0093,
+      "step": 2880
+    },
+    {
+      "epoch": 4.6336,
+      "grad_norm": 0.07572409510612488,
+      "learning_rate": 3.712e-06,
+      "loss": 0.0043,
+      "step": 2896
+    },
+    {
+      "epoch": 4.6592,
+      "grad_norm": 0.010246412828564644,
+      "learning_rate": 3.456e-06,
+      "loss": 0.004,
+      "step": 2912
+    },
+    {
+      "epoch": 4.6848,
+      "grad_norm": 6.125358581542969,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.0053,
+      "step": 2928
+    },
+    {
+      "epoch": 4.7104,
+      "grad_norm": 10.814197540283203,
+      "learning_rate": 2.944e-06,
+      "loss": 0.0059,
+      "step": 2944
+    },
+    {
+      "epoch": 4.7104,
+      "eval_accuracy": 0.9785,
+      "eval_f1": 0.9784932444241875,
+      "eval_loss": 0.14451073110103607,
+      "eval_precision": 0.9785149243735634,
+      "eval_recall": 0.9785,
+      "eval_runtime": 276.5263,
+      "eval_samples_per_second": 72.326,
+      "eval_steps_per_second": 9.041,
+      "step": 2944
+    },
+    {
+      "epoch": 4.736,
+      "grad_norm": 31.85561180114746,
+      "learning_rate": 2.6880000000000004e-06,
+      "loss": 0.0073,
+      "step": 2960
+    },
+    {
+      "epoch": 4.7616,
+      "grad_norm": 6.0043182373046875,
+      "learning_rate": 2.432e-06,
+      "loss": 0.0197,
+      "step": 2976
+    },
+    {
+      "epoch": 4.7872,
+      "grad_norm": 2.259871244430542,
+      "learning_rate": 2.1760000000000004e-06,
+      "loss": 0.0044,
+      "step": 2992
+    },
+    {
+      "epoch": 4.8128,
+      "grad_norm": 24.58582305908203,
+      "learning_rate": 1.92e-06,
+      "loss": 0.0173,
+      "step": 3008
+    },
+    {
+      "epoch": 4.8384,
+      "grad_norm": 18.684513092041016,
+      "learning_rate": 1.6639999999999999e-06,
+      "loss": 0.0017,
+      "step": 3024
+    },
+    {
+      "epoch": 4.864,
+      "grad_norm": 0.005354017019271851,
+      "learning_rate": 1.4080000000000001e-06,
+      "loss": 0.0033,
+      "step": 3040
+    },
+    {
+      "epoch": 4.8896,
+      "grad_norm": 5.149356365203857,
+      "learning_rate": 1.1520000000000002e-06,
+      "loss": 0.0138,
+      "step": 3056
+    },
+    {
+      "epoch": 4.9152000000000005,
+      "grad_norm": 0.019161969423294067,
+      "learning_rate": 8.96e-07,
+      "loss": 0.0011,
+      "step": 3072
+    },
+    {
+      "epoch": 4.9152000000000005,
+      "eval_accuracy": 0.9781,
+      "eval_f1": 0.9780509764198836,
+      "eval_loss": 0.13070251047611237,
+      "eval_precision": 0.9782672483328131,
+      "eval_recall": 0.9781,
+      "eval_runtime": 276.4215,
+      "eval_samples_per_second": 72.353,
+      "eval_steps_per_second": 9.044,
+      "step": 3072
+    },
+    {
+      "epoch": 4.9408,
+      "grad_norm": 6.959413528442383,
+      "learning_rate": 6.4e-07,
+      "loss": 0.01,
+      "step": 3088
+    },
+    {
+      "epoch": 4.9664,
+      "grad_norm": 26.619112014770508,
+      "learning_rate": 3.8400000000000005e-07,
+      "loss": 0.008,
+      "step": 3104
+    },
+    {
+      "epoch": 4.992,
+      "grad_norm": 2.544370412826538,
+      "learning_rate": 1.28e-07,
+      "loss": 0.0028,
+      "step": 3120
+    },
+    {
+      "epoch": 5.0,
+      "step": 3125,
+      "total_flos": 1.9922182705152e+18,
+      "train_loss": 0.09219677979975939,
+      "train_runtime": 12464.8013,
+      "train_samples_per_second": 32.09,
+      "train_steps_per_second": 0.251
+    }
+  ],
+  "logging_steps": 16,
+  "max_steps": 3125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 128,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.9922182705152e+18,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}