End of training

Browse files

Files changed (5) hide show

README.md +5 -5
all_results.json +14 -14
test_results.json +9 -9
train_results.json +6 -6
trainer_state.json +505 -467

README.md CHANGED Viewed

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4661
-- Accuracy: 0.9399
-- F1 Score: 0.9222
-- Recall: 0.9304
-- Precision: 0.9146
 ## Model description

 This model is a fine-tuned version of [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4632
+- Accuracy: 0.9408
+- F1 Score: 0.9253
+- Recall: 0.9343
+- Precision: 0.9169
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 32.900432900432904,
-    "eval_accuracy": 0.9312686769899484,
-    "eval_f1_score": 0.9167547336443177,
-    "eval_loss": 0.6494598388671875,
-    "eval_precision": 0.9175186124029386,
-    "eval_recall": 0.916118129711967,
-    "eval_runtime": 6.63,
-    "eval_samples_per_second": 555.203,
-    "eval_steps_per_second": 8.748,
-    "total_flos": 8228992941651000.0,
-    "train_loss": 0.6119064652292352,
-    "train_runtime": 3347.1951,
-    "train_samples_per_second": 152.964,
-    "train_steps_per_second": 1.195
 }

 {
+    "epoch": 34.78260869565217,
+    "eval_accuracy": 0.9407608695652174,
+    "eval_f1_score": 0.9252844986926706,
+    "eval_loss": 0.4632340669631958,
+    "eval_precision": 0.9169145670543192,
+    "eval_recall": 0.9342956374641919,
+    "eval_runtime": 6.9014,
+    "eval_samples_per_second": 533.224,
+    "eval_steps_per_second": 8.404,
+    "total_flos": 8542898522220600.0,
+    "train_loss": 0.44249137926101684,
+    "train_runtime": 3485.9803,
+    "train_samples_per_second": 146.874,
+    "train_steps_per_second": 1.147
 }

test_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 32.900432900432904,
-    "eval_accuracy": 0.9312686769899484,
-    "eval_f1_score": 0.9167547336443177,
-    "eval_loss": 0.6494598388671875,
-    "eval_precision": 0.9175186124029386,
-    "eval_recall": 0.916118129711967,
-    "eval_runtime": 6.63,
-    "eval_samples_per_second": 555.203,
-    "eval_steps_per_second": 8.748
 }

 {
+    "epoch": 34.78260869565217,
+    "eval_accuracy": 0.9407608695652174,
+    "eval_f1_score": 0.9252844986926706,
+    "eval_loss": 0.4632340669631958,
+    "eval_precision": 0.9169145670543192,
+    "eval_recall": 0.9342956374641919,
+    "eval_runtime": 6.9014,
+    "eval_samples_per_second": 533.224,
+    "eval_steps_per_second": 8.404
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 32.900432900432904,
-    "total_flos": 8228992941651000.0,
-    "train_loss": 0.6119064652292352,
-    "train_runtime": 3347.1951,
-    "train_samples_per_second": 152.964,
-    "train_steps_per_second": 1.195
 }

 {
+    "epoch": 34.78260869565217,
+    "total_flos": 8542898522220600.0,
+    "train_loss": 0.44249137926101684,
+    "train_runtime": 3485.9803,
+    "train_samples_per_second": 146.874,
+    "train_steps_per_second": 1.147
 }

trainer_state.json CHANGED Viewed

@@ -1,743 +1,781 @@
 {
-  "best_metric": 0.9167547336443177,
-  "best_model_checkpoint": "cls_comment-phobert-base-v2-v3.2/checkpoint-2800",
-  "epoch": 32.900432900432904,
   "eval_steps": 100,
-  "global_step": 3800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.8658008658008658,
-      "grad_norm": 1.4310975074768066,
       "learning_rate": 2.5e-06,
-      "loss": 1.8746,
       "step": 100
     },
     {
-      "epoch": 0.8658008658008658,
-      "eval_accuracy": 0.4004346644933442,
-      "eval_f1_score": 0.08169599556602468,
-      "eval_loss": 1.7251219749450684,
-      "eval_precision": 0.057204952070477745,
       "eval_recall": 0.14285714285714285,
-      "eval_runtime": 6.1571,
-      "eval_samples_per_second": 597.843,
-      "eval_steps_per_second": 9.42,
       "step": 100
     },
     {
-      "epoch": 1.7316017316017316,
-      "grad_norm": 2.5783257484436035,
       "learning_rate": 5e-06,
-      "loss": 1.591,
       "step": 200
     },
     {
-      "epoch": 1.7316017316017316,
-      "eval_accuracy": 0.6454767726161369,
-      "eval_f1_score": 0.28627620756927996,
-      "eval_loss": 1.3510475158691406,
-      "eval_precision": 0.2774898302724703,
-      "eval_recall": 0.3126508980240324,
-      "eval_runtime": 6.5489,
-      "eval_samples_per_second": 562.075,
-      "eval_steps_per_second": 8.856,
       "step": 200
     },
     {
-      "epoch": 2.5974025974025974,
-      "grad_norm": 3.353203058242798,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 1.2461,
       "step": 300
     },
     {
-      "epoch": 2.5974025974025974,
-      "eval_accuracy": 0.7813094267861994,
-      "eval_f1_score": 0.5632519066393918,
-      "eval_loss": 1.0290194749832153,
-      "eval_precision": 0.5618434026987791,
-      "eval_recall": 0.5669755803157759,
-      "eval_runtime": 6.4743,
-      "eval_samples_per_second": 568.559,
-      "eval_steps_per_second": 8.959,
       "step": 300
     },
     {
-      "epoch": 3.463203463203463,
-      "grad_norm": 4.798435688018799,
       "learning_rate": 1e-05,
-      "loss": 0.9936,
       "step": 400
     },
     {
-      "epoch": 3.463203463203463,
-      "eval_accuracy": 0.8280358598207009,
-      "eval_f1_score": 0.6070778914740699,
-      "eval_loss": 0.8636265397071838,
-      "eval_precision": 0.7310493883538899,
-      "eval_recall": 0.6261307402558046,
-      "eval_runtime": 6.467,
-      "eval_samples_per_second": 569.194,
-      "eval_steps_per_second": 8.969,
       "step": 400
     },
     {
-      "epoch": 4.329004329004329,
-      "grad_norm": 3.696899175643921,
       "learning_rate": 9.722222222222223e-06,
-      "loss": 0.846,
       "step": 500
     },
     {
-      "epoch": 4.329004329004329,
-      "eval_accuracy": 0.8606356968215159,
-      "eval_f1_score": 0.6995601762325577,
-      "eval_loss": 0.7818133234977722,
-      "eval_precision": 0.7378679571747613,
-      "eval_recall": 0.7000527411412641,
-      "eval_runtime": 6.4735,
-      "eval_samples_per_second": 568.624,
-      "eval_steps_per_second": 8.96,
       "step": 500
     },
     {
-      "epoch": 5.194805194805195,
-      "grad_norm": 3.5592989921569824,
       "learning_rate": 9.444444444444445e-06,
-      "loss": 0.7528,
       "step": 600
     },
     {
-      "epoch": 5.194805194805195,
-      "eval_accuracy": 0.8845422439554469,
-      "eval_f1_score": 0.7880662770504314,
-      "eval_loss": 0.7183576226234436,
-      "eval_precision": 0.885479708387116,
-      "eval_recall": 0.7747483039105137,
-      "eval_runtime": 6.4771,
-      "eval_samples_per_second": 568.311,
-      "eval_steps_per_second": 8.955,
       "step": 600
     },
     {
-      "epoch": 6.0606060606060606,
-      "grad_norm": 6.572245121002197,
       "learning_rate": 9.166666666666666e-06,
-      "loss": 0.6829,
       "step": 700
     },
     {
-      "epoch": 6.0606060606060606,
-      "eval_accuracy": 0.9065471339309971,
-      "eval_f1_score": 0.8721427577623805,
-      "eval_loss": 0.6787899136543274,
-      "eval_precision": 0.8877491000810773,
-      "eval_recall": 0.8621653634986893,
-      "eval_runtime": 6.5011,
-      "eval_samples_per_second": 566.21,
-      "eval_steps_per_second": 8.922,
       "step": 700
     },
     {
-      "epoch": 6.926406926406926,
-      "grad_norm": 6.824036121368408,
       "learning_rate": 8.888888888888888e-06,
-      "loss": 0.6318,
       "step": 800
     },
     {
-      "epoch": 6.926406926406926,
-      "eval_accuracy": 0.9060038033143167,
-      "eval_f1_score": 0.8771840566593205,
-      "eval_loss": 0.6685603857040405,
-      "eval_precision": 0.8735081717688525,
-      "eval_recall": 0.8843353255680675,
-      "eval_runtime": 6.4595,
-      "eval_samples_per_second": 569.856,
-      "eval_steps_per_second": 8.979,
       "step": 800
     },
     {
-      "epoch": 7.792207792207792,
-      "grad_norm": 6.760078430175781,
       "learning_rate": 8.611111111111112e-06,
-      "loss": 0.5946,
       "step": 900
     },
     {
-      "epoch": 7.792207792207792,
-      "eval_accuracy": 0.9054604726976365,
-      "eval_f1_score": 0.883019750226862,
-      "eval_loss": 0.6709757447242737,
-      "eval_precision": 0.8941393272626895,
-      "eval_recall": 0.8778851118086725,
-      "eval_runtime": 6.449,
-      "eval_samples_per_second": 570.787,
-      "eval_steps_per_second": 8.994,
       "step": 900
     },
     {
-      "epoch": 8.658008658008658,
-      "grad_norm": 3.9726505279541016,
       "learning_rate": 8.333333333333334e-06,
-      "loss": 0.5787,
       "step": 1000
     },
     {
-      "epoch": 8.658008658008658,
-      "eval_accuracy": 0.9231187177397446,
-      "eval_f1_score": 0.9046349674986128,
-      "eval_loss": 0.6429829597473145,
-      "eval_precision": 0.9136176302840415,
-      "eval_recall": 0.8968630181032563,
-      "eval_runtime": 6.5577,
-      "eval_samples_per_second": 561.323,
-      "eval_steps_per_second": 8.845,
       "step": 1000
     },
     {
-      "epoch": 9.523809523809524,
-      "grad_norm": 3.6529064178466797,
       "learning_rate": 8.055555555555557e-06,
-      "loss": 0.5465,
       "step": 1100
     },
     {
-      "epoch": 9.523809523809524,
-      "eval_accuracy": 0.9233903830480847,
-      "eval_f1_score": 0.9029393609974734,
-      "eval_loss": 0.6390886306762695,
-      "eval_precision": 0.907538747359747,
-      "eval_recall": 0.8996010541333774,
-      "eval_runtime": 6.5373,
-      "eval_samples_per_second": 563.078,
-      "eval_steps_per_second": 8.872,
       "step": 1100
     },
     {
-      "epoch": 10.38961038961039,
-      "grad_norm": 3.7719361782073975,
       "learning_rate": 7.77777777777778e-06,
-      "loss": 0.5351,
       "step": 1200
     },
     {
-      "epoch": 10.38961038961039,
-      "eval_accuracy": 0.9163270850312415,
-      "eval_f1_score": 0.9009696239334336,
-      "eval_loss": 0.6590227484703064,
-      "eval_precision": 0.9032173500628025,
-      "eval_recall": 0.9028948724760895,
-      "eval_runtime": 6.4561,
-      "eval_samples_per_second": 570.16,
-      "eval_steps_per_second": 8.984,
       "step": 1200
     },
     {
-      "epoch": 11.255411255411255,
-      "grad_norm": 5.107598304748535,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 0.5253,
       "step": 1300
     },
     {
-      "epoch": 11.255411255411255,
-      "eval_accuracy": 0.9171420809562619,
-      "eval_f1_score": 0.8992270643983542,
-      "eval_loss": 0.6565839648246765,
-      "eval_precision": 0.9002180733865013,
-      "eval_recall": 0.9017115405053154,
-      "eval_runtime": 6.4934,
-      "eval_samples_per_second": 566.885,
-      "eval_steps_per_second": 8.932,
       "step": 1300
     },
     {
-      "epoch": 12.121212121212121,
-      "grad_norm": 1.914890170097351,
       "learning_rate": 7.222222222222223e-06,
-      "loss": 0.5129,
       "step": 1400
     },
     {
-      "epoch": 12.121212121212121,
-      "eval_accuracy": 0.9214887258897039,
-      "eval_f1_score": 0.8995353215155666,
-      "eval_loss": 0.6489275097846985,
-      "eval_precision": 0.8852784844592642,
-      "eval_recall": 0.9156833236681746,
-      "eval_runtime": 6.4876,
-      "eval_samples_per_second": 567.393,
-      "eval_steps_per_second": 8.94,
       "step": 1400
     },
     {
-      "epoch": 12.987012987012987,
-      "grad_norm": 4.1629638671875,
       "learning_rate": 6.944444444444445e-06,
-      "loss": 0.507,
       "step": 1500
     },
     {
-      "epoch": 12.987012987012987,
-      "eval_accuracy": 0.9187720728063027,
-      "eval_f1_score": 0.895959427062996,
-      "eval_loss": 0.6600282192230225,
-      "eval_precision": 0.8850994841694488,
-      "eval_recall": 0.9084482921055681,
-      "eval_runtime": 6.4633,
-      "eval_samples_per_second": 569.52,
-      "eval_steps_per_second": 8.974,
       "step": 1500
     },
     {
-      "epoch": 13.852813852813853,
-      "grad_norm": 4.176562786102295,
       "learning_rate": 6.666666666666667e-06,
-      "loss": 0.498,
       "step": 1600
     },
     {
-      "epoch": 13.852813852813853,
-      "eval_accuracy": 0.926107036131486,
-      "eval_f1_score": 0.9037600142315002,
-      "eval_loss": 0.6435835957527161,
-      "eval_precision": 0.910555642535469,
-      "eval_recall": 0.8986425893474609,
-      "eval_runtime": 6.5159,
-      "eval_samples_per_second": 564.923,
-      "eval_steps_per_second": 8.901,
       "step": 1600
     },
     {
-      "epoch": 14.718614718614718,
-      "grad_norm": 5.224420547485352,
       "learning_rate": 6.3888888888888885e-06,
-      "loss": 0.4928,
       "step": 1700
     },
     {
-      "epoch": 14.718614718614718,
-      "eval_accuracy": 0.928280358598207,
-      "eval_f1_score": 0.9090054325068483,
-      "eval_loss": 0.6421458125114441,
-      "eval_precision": 0.9050797676652048,
-      "eval_recall": 0.9139087669260643,
-      "eval_runtime": 6.5241,
-      "eval_samples_per_second": 564.214,
-      "eval_steps_per_second": 8.89,
       "step": 1700
     },
     {
-      "epoch": 15.584415584415584,
-      "grad_norm": 2.502448081970215,
       "learning_rate": 6.111111111111112e-06,
-      "loss": 0.488,
       "step": 1800
     },
     {
-      "epoch": 15.584415584415584,
-      "eval_accuracy": 0.9242053789731052,
-      "eval_f1_score": 0.9069760243433789,
-      "eval_loss": 0.6526629328727722,
-      "eval_precision": 0.8984062209172313,
-      "eval_recall": 0.9170624424146544,
-      "eval_runtime": 6.5117,
-      "eval_samples_per_second": 565.294,
-      "eval_steps_per_second": 8.907,
       "step": 1800
     },
     {
-      "epoch": 16.450216450216452,
-      "grad_norm": 5.522485256195068,
       "learning_rate": 5.833333333333334e-06,
-      "loss": 0.4855,
       "step": 1900
     },
     {
-      "epoch": 16.450216450216452,
-      "eval_accuracy": 0.9288236892148872,
-      "eval_f1_score": 0.9103550521971505,
-      "eval_loss": 0.6503170728683472,
-      "eval_precision": 0.910387283571616,
-      "eval_recall": 0.9118040778151767,
-      "eval_runtime": 6.4567,
-      "eval_samples_per_second": 570.109,
-      "eval_steps_per_second": 8.983,
       "step": 1900
     },
     {
-      "epoch": 17.316017316017316,
-      "grad_norm": 1.1161519289016724,
       "learning_rate": 5.555555555555557e-06,
-      "loss": 0.4827,
       "step": 2000
     },
     {
-      "epoch": 17.316017316017316,
-      "eval_accuracy": 0.9263787014398261,
-      "eval_f1_score": 0.9082943419356964,
-      "eval_loss": 0.6522781252861023,
-      "eval_precision": 0.9101325540545261,
-      "eval_recall": 0.9076634535056071,
-      "eval_runtime": 6.493,
-      "eval_samples_per_second": 566.921,
-      "eval_steps_per_second": 8.933,
       "step": 2000
     },
     {
-      "epoch": 18.181818181818183,
-      "grad_norm": 4.889358997344971,
       "learning_rate": 5.2777777777777785e-06,
-      "loss": 0.4806,
       "step": 2100
     },
     {
-      "epoch": 18.181818181818183,
-      "eval_accuracy": 0.9225753871230644,
-      "eval_f1_score": 0.9070433565843993,
-      "eval_loss": 0.6726859211921692,
-      "eval_precision": 0.9069272643426315,
-      "eval_recall": 0.9107096842915502,
-      "eval_runtime": 6.4653,
-      "eval_samples_per_second": 569.347,
-      "eval_steps_per_second": 8.971,
       "step": 2100
     },
     {
-      "epoch": 19.047619047619047,
-      "grad_norm": 6.80066442489624,
       "learning_rate": 5e-06,
-      "loss": 0.475,
       "step": 2200
     },
     {
-      "epoch": 19.047619047619047,
-      "eval_accuracy": 0.9187720728063027,
-      "eval_f1_score": 0.8987625395496276,
-      "eval_loss": 0.6789355278015137,
-      "eval_precision": 0.8924568384004198,
-      "eval_recall": 0.9075582377741745,
-      "eval_runtime": 6.491,
-      "eval_samples_per_second": 567.09,
-      "eval_steps_per_second": 8.935,
       "step": 2200
     },
     {
-      "epoch": 19.913419913419915,
-      "grad_norm": 3.8123650550842285,
       "learning_rate": 4.722222222222222e-06,
-      "loss": 0.4769,
       "step": 2300
     },
     {
-      "epoch": 19.913419913419915,
-      "eval_accuracy": 0.923933713664765,
-      "eval_f1_score": 0.9047374447084814,
-      "eval_loss": 0.6616267561912537,
-      "eval_precision": 0.8994764750545533,
-      "eval_recall": 0.9115051728602043,
-      "eval_runtime": 6.4602,
-      "eval_samples_per_second": 569.799,
-      "eval_steps_per_second": 8.978,
       "step": 2300
     },
     {
-      "epoch": 20.77922077922078,
-      "grad_norm": 1.6108217239379883,
       "learning_rate": 4.444444444444444e-06,
-      "loss": 0.4717,
       "step": 2400
     },
     {
-      "epoch": 20.77922077922078,
-      "eval_accuracy": 0.9266503667481663,
-      "eval_f1_score": 0.9044367225449236,
-      "eval_loss": 0.6538987159729004,
-      "eval_precision": 0.904842224712077,
-      "eval_recall": 0.9051169350428675,
-      "eval_runtime": 6.4574,
-      "eval_samples_per_second": 570.043,
-      "eval_steps_per_second": 8.982,
       "step": 2400
     },
     {
-      "epoch": 21.645021645021647,
-      "grad_norm": 6.592935562133789,
       "learning_rate": 4.166666666666667e-06,
-      "loss": 0.4714,
       "step": 2500
     },
     {
-      "epoch": 21.645021645021647,
-      "eval_accuracy": 0.9285520239065471,
-      "eval_f1_score": 0.9087470694900519,
-      "eval_loss": 0.6579604148864746,
-      "eval_precision": 0.8978341455168631,
-      "eval_recall": 0.9209883408258847,
-      "eval_runtime": 6.5174,
-      "eval_samples_per_second": 564.798,
-      "eval_steps_per_second": 8.899,
       "step": 2500
     },
     {
-      "epoch": 22.51082251082251,
-      "grad_norm": 0.9003086090087891,
       "learning_rate": 3.88888888888889e-06,
-      "loss": 0.4674,
       "step": 2600
     },
     {
-      "epoch": 22.51082251082251,
-      "eval_accuracy": 0.9280086932898669,
-      "eval_f1_score": 0.9102326432475396,
-      "eval_loss": 0.653831958770752,
-      "eval_precision": 0.9087887802985566,
-      "eval_recall": 0.9121197185082034,
-      "eval_runtime": 6.5375,
-      "eval_samples_per_second": 563.063,
-      "eval_steps_per_second": 8.872,
       "step": 2600
     },
     {
-      "epoch": 23.376623376623378,
-      "grad_norm": 1.9655799865722656,
       "learning_rate": 3.6111111111111115e-06,
-      "loss": 0.4647,
       "step": 2700
     },
     {
-      "epoch": 23.376623376623378,
-      "eval_accuracy": 0.9236620483564248,
-      "eval_f1_score": 0.9094309387183797,
-      "eval_loss": 0.6711372137069702,
-      "eval_precision": 0.9020675048042391,
-      "eval_recall": 0.918588197629796,
-      "eval_runtime": 6.5134,
-      "eval_samples_per_second": 565.141,
-      "eval_steps_per_second": 8.905,
       "step": 2700
     },
     {
-      "epoch": 24.242424242424242,
-      "grad_norm": 0.5603305697441101,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.4641,
       "step": 2800
     },
     {
-      "epoch": 24.242424242424242,
-      "eval_accuracy": 0.9312686769899484,
-      "eval_f1_score": 0.9167547336443177,
-      "eval_loss": 0.6494598388671875,
-      "eval_precision": 0.9175186124029386,
-      "eval_recall": 0.916118129711967,
-      "eval_runtime": 6.4912,
-      "eval_samples_per_second": 567.075,
-      "eval_steps_per_second": 8.935,
       "step": 2800
     },
     {
-      "epoch": 25.10822510822511,
-      "grad_norm": 1.2995818853378296,
       "learning_rate": 3.055555555555556e-06,
-      "loss": 0.4661,
       "step": 2900
     },
     {
-      "epoch": 25.10822510822511,
-      "eval_accuracy": 0.9290953545232273,
-      "eval_f1_score": 0.9106664499520731,
-      "eval_loss": 0.652369499206543,
-      "eval_precision": 0.9096933035627524,
-      "eval_recall": 0.9120934117697305,
-      "eval_runtime": 6.4925,
-      "eval_samples_per_second": 566.963,
-      "eval_steps_per_second": 8.933,
       "step": 2900
     },
     {
-      "epoch": 25.974025974025974,
-      "grad_norm": 10.505922317504883,
       "learning_rate": 2.7777777777777783e-06,
-      "loss": 0.4642,
       "step": 3000
     },
     {
-      "epoch": 25.974025974025974,
-      "eval_accuracy": 0.9271936973648465,
-      "eval_f1_score": 0.9085564052221086,
-      "eval_loss": 0.6616336107254028,
-      "eval_precision": 0.9023635662998748,
-      "eval_recall": 0.9157819747531982,
-      "eval_runtime": 6.4399,
-      "eval_samples_per_second": 571.589,
-      "eval_steps_per_second": 9.006,
       "step": 3000
     },
     {
-      "epoch": 26.83982683982684,
-      "grad_norm": 4.1924147605896,
       "learning_rate": 2.5e-06,
-      "loss": 0.4634,
       "step": 3100
     },
     {
-      "epoch": 26.83982683982684,
-      "eval_accuracy": 0.9271936973648465,
-      "eval_f1_score": 0.9100073358373931,
-      "eval_loss": 0.6607591509819031,
-      "eval_precision": 0.9048187850917044,
-      "eval_recall": 0.9157366847293898,
-      "eval_runtime": 6.5377,
-      "eval_samples_per_second": 563.04,
-      "eval_steps_per_second": 8.872,
       "step": 3100
     },
     {
-      "epoch": 27.705627705627705,
-      "grad_norm": 7.721441268920898,
       "learning_rate": 2.222222222222222e-06,
-      "loss": 0.4621,
       "step": 3200
     },
     {
-      "epoch": 27.705627705627705,
-      "eval_accuracy": 0.9301820157565879,
-      "eval_f1_score": 0.9127105272463062,
-      "eval_loss": 0.6603537797927856,
-      "eval_precision": 0.9082151611261499,
-      "eval_recall": 0.9180282237862402,
-      "eval_runtime": 6.4947,
-      "eval_samples_per_second": 566.767,
-      "eval_steps_per_second": 8.93,
       "step": 3200
     },
     {
-      "epoch": 28.571428571428573,
-      "grad_norm": 1.0750694274902344,
       "learning_rate": 1.944444444444445e-06,
-      "loss": 0.4607,
       "step": 3300
     },
     {
-      "epoch": 28.571428571428573,
-      "eval_accuracy": 0.9274653626731867,
-      "eval_f1_score": 0.9094908279169074,
-      "eval_loss": 0.667899489402771,
-      "eval_precision": 0.9042256864356671,
-      "eval_recall": 0.9157890000544793,
-      "eval_runtime": 6.482,
-      "eval_samples_per_second": 567.883,
-      "eval_steps_per_second": 8.948,
       "step": 3300
     },
     {
-      "epoch": 29.437229437229437,
-      "grad_norm": 2.3283915519714355,
       "learning_rate": 1.6666666666666667e-06,
-      "loss": 0.4605,
       "step": 3400
     },
     {
-      "epoch": 29.437229437229437,
-      "eval_accuracy": 0.9293670198315676,
-      "eval_f1_score": 0.9127762875853428,
-      "eval_loss": 0.6584461331367493,
-      "eval_precision": 0.9121226216148021,
-      "eval_recall": 0.9142481162001624,
-      "eval_runtime": 6.4486,
-      "eval_samples_per_second": 570.824,
-      "eval_steps_per_second": 8.994,
       "step": 3400
     },
     {
-      "epoch": 30.303030303030305,
-      "grad_norm": 4.329758644104004,
       "learning_rate": 1.3888888888888892e-06,
-      "loss": 0.4594,
       "step": 3500
     },
     {
-      "epoch": 30.303030303030305,
-      "eval_accuracy": 0.9274653626731867,
-      "eval_f1_score": 0.9102966977526281,
-      "eval_loss": 0.6636437773704529,
-      "eval_precision": 0.9077902692921593,
-      "eval_recall": 0.9134549746607524,
-      "eval_runtime": 6.4772,
-      "eval_samples_per_second": 568.299,
-      "eval_steps_per_second": 8.954,
       "step": 3500
     },
     {
-      "epoch": 31.16883116883117,
-      "grad_norm": 3.934568166732788,
       "learning_rate": 1.111111111111111e-06,
-      "loss": 0.4603,
       "step": 3600
     },
     {
-      "epoch": 31.16883116883117,
-      "eval_accuracy": 0.928280358598207,
-      "eval_f1_score": 0.9114072690530889,
-      "eval_loss": 0.6612041592597961,
-      "eval_precision": 0.9094899873929566,
-      "eval_recall": 0.914101214818058,
-      "eval_runtime": 6.4876,
-      "eval_samples_per_second": 567.392,
-      "eval_steps_per_second": 8.94,
       "step": 3600
     },
     {
-      "epoch": 32.03463203463203,
-      "grad_norm": 0.5543671250343323,
       "learning_rate": 8.333333333333333e-07,
-      "loss": 0.4589,
       "step": 3700
     },
     {
-      "epoch": 32.03463203463203,
-      "eval_accuracy": 0.928280358598207,
-      "eval_f1_score": 0.9107083833184353,
-      "eval_loss": 0.6628167629241943,
-      "eval_precision": 0.9029268059220896,
-      "eval_recall": 0.9195858845392287,
-      "eval_runtime": 6.5055,
-      "eval_samples_per_second": 565.83,
-      "eval_steps_per_second": 8.916,
       "step": 3700
     },
     {
-      "epoch": 32.900432900432904,
-      "grad_norm": 0.0647527351975441,
       "learning_rate": 5.555555555555555e-07,
-      "loss": 0.4594,
       "step": 3800
     },
     {
-      "epoch": 32.900432900432904,
-      "eval_accuracy": 0.9293670198315676,
-      "eval_f1_score": 0.9120990650711008,
-      "eval_loss": 0.6589987277984619,
-      "eval_precision": 0.9101638270119666,
-      "eval_recall": 0.9147659563783218,
-      "eval_runtime": 6.5732,
-      "eval_samples_per_second": 560.0,
-      "eval_steps_per_second": 8.824,
       "step": 3800
     },
     {
-      "epoch": 32.900432900432904,
-      "step": 3800,
-      "total_flos": 8228992941651000.0,
-      "train_loss": 0.6119064652292352,
-      "train_runtime": 3347.1951,
-      "train_samples_per_second": 152.964,
-      "train_steps_per_second": 1.195
     }
   ],
   "logging_steps": 100,
@@ -745,7 +783,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 35,
   "save_steps": 100,
-  "total_flos": 8228992941651000.0,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9252844986926706,
+  "best_model_checkpoint": "cls_comment-phobert-base-v2-v3.2/checkpoint-3100",
+  "epoch": 34.78260869565217,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 1.2893089056015015,
       "learning_rate": 2.5e-06,
+      "loss": 1.854,
       "step": 100
     },
     {
+      "epoch": 0.8695652173913043,
+      "eval_accuracy": 0.39945652173913043,
+      "eval_f1_score": 0.08155339805825243,
+      "eval_loss": 1.6864124536514282,
+      "eval_precision": 0.057065217391304345,
       "eval_recall": 0.14285714285714285,
+      "eval_runtime": 6.5919,
+      "eval_samples_per_second": 558.265,
+      "eval_steps_per_second": 8.799,
       "step": 100
     },
     {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 2.0746519565582275,
       "learning_rate": 5e-06,
+      "loss": 1.5604,
       "step": 200
     },
     {
+      "epoch": 1.7391304347826086,
+      "eval_accuracy": 0.6105978260869566,
+      "eval_f1_score": 0.25042278548863744,
+      "eval_loss": 1.309004306793213,
+      "eval_precision": 0.26708593024189137,
+      "eval_recall": 0.28186218782707295,
+      "eval_runtime": 7.0459,
+      "eval_samples_per_second": 522.292,
+      "eval_steps_per_second": 8.232,
       "step": 200
     },
     {
+      "epoch": 2.608695652173913,
+      "grad_norm": 4.827264785766602,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 1.1923,
       "step": 300
     },
     {
+      "epoch": 2.608695652173913,
+      "eval_accuracy": 0.7864130434782609,
+      "eval_f1_score": 0.5714767047654633,
+      "eval_loss": 0.9517147541046143,
+      "eval_precision": 0.5673620359300847,
+      "eval_recall": 0.5777445829004313,
+      "eval_runtime": 6.8687,
+      "eval_samples_per_second": 535.761,
+      "eval_steps_per_second": 8.444,
       "step": 300
     },
     {
+      "epoch": 3.4782608695652173,
+      "grad_norm": 4.206140041351318,
       "learning_rate": 1e-05,
+      "loss": 0.9214,
       "step": 400
     },
     {
+      "epoch": 3.4782608695652173,
+      "eval_accuracy": 0.8372282608695653,
+      "eval_f1_score": 0.612409568465097,
+      "eval_loss": 0.7528494000434875,
+      "eval_precision": 0.5976542381939991,
+      "eval_recall": 0.6291693604106213,
+      "eval_runtime": 6.9093,
+      "eval_samples_per_second": 532.619,
+      "eval_steps_per_second": 8.395,
       "step": 400
     },
     {
+      "epoch": 4.3478260869565215,
+      "grad_norm": 6.886340618133545,
       "learning_rate": 9.722222222222223e-06,
+      "loss": 0.758,
       "step": 500
     },
     {
+      "epoch": 4.3478260869565215,
+      "eval_accuracy": 0.8668478260869565,
+      "eval_f1_score": 0.6659473695330357,
+      "eval_loss": 0.632614016532898,
+      "eval_precision": 0.7570108636149265,
+      "eval_recall": 0.6622064392166015,
+      "eval_runtime": 6.8829,
+      "eval_samples_per_second": 534.659,
+      "eval_steps_per_second": 8.427,
       "step": 500
     },
     {
+      "epoch": 5.217391304347826,
+      "grad_norm": 4.610263347625732,
       "learning_rate": 9.444444444444445e-06,
+      "loss": 0.6389,
       "step": 600
     },
     {
+      "epoch": 5.217391304347826,
+      "eval_accuracy": 0.8913043478260869,
+      "eval_f1_score": 0.7803940110099798,
+      "eval_loss": 0.5609962940216064,
+      "eval_precision": 0.8994163127752409,
+      "eval_recall": 0.7578106168705178,
+      "eval_runtime": 6.9524,
+      "eval_samples_per_second": 529.313,
+      "eval_steps_per_second": 8.342,
       "step": 600
     },
     {
+      "epoch": 6.086956521739131,
+      "grad_norm": 6.5632171630859375,
       "learning_rate": 9.166666666666666e-06,
+      "loss": 0.5577,
       "step": 700
     },
     {
+      "epoch": 6.086956521739131,
+      "eval_accuracy": 0.9097826086956522,
+      "eval_f1_score": 0.8772239546861178,
+      "eval_loss": 0.518897533416748,
+      "eval_precision": 0.8848760614607966,
+      "eval_recall": 0.8751998390346817,
+      "eval_runtime": 6.9449,
+      "eval_samples_per_second": 529.887,
+      "eval_steps_per_second": 8.351,
       "step": 700
     },
     {
+      "epoch": 6.956521739130435,
+      "grad_norm": 5.276834487915039,
       "learning_rate": 8.888888888888888e-06,
+      "loss": 0.4924,
       "step": 800
     },
     {
+      "epoch": 6.956521739130435,
+      "eval_accuracy": 0.9157608695652174,
+      "eval_f1_score": 0.8882818429280892,
+      "eval_loss": 0.4865158498287201,
+      "eval_precision": 0.8951806726540267,
+      "eval_recall": 0.8830561339196462,
+      "eval_runtime": 6.9591,
+      "eval_samples_per_second": 528.805,
+      "eval_steps_per_second": 8.334,
       "step": 800
     },
     {
+      "epoch": 7.826086956521739,
+      "grad_norm": 5.703993320465088,
       "learning_rate": 8.611111111111112e-06,
+      "loss": 0.4466,
       "step": 900
     },
     {
+      "epoch": 7.826086956521739,
+      "eval_accuracy": 0.9233695652173913,
+      "eval_f1_score": 0.901100351532045,
+      "eval_loss": 0.4718396067619324,
+      "eval_precision": 0.9035627892941535,
+      "eval_recall": 0.8999623519233246,
+      "eval_runtime": 6.8799,
+      "eval_samples_per_second": 534.892,
+      "eval_steps_per_second": 8.43,
       "step": 900
     },
     {
+      "epoch": 8.695652173913043,
+      "grad_norm": 4.013239860534668,
       "learning_rate": 8.333333333333334e-06,
+      "loss": 0.4074,
       "step": 1000
     },
     {
+      "epoch": 8.695652173913043,
+      "eval_accuracy": 0.9241847826086956,
+      "eval_f1_score": 0.9036524938306566,
+      "eval_loss": 0.46144258975982666,
+      "eval_precision": 0.9074895946702142,
+      "eval_recall": 0.9022880305381644,
+      "eval_runtime": 6.8809,
+      "eval_samples_per_second": 534.81,
+      "eval_steps_per_second": 8.429,
       "step": 1000
     },
     {
+      "epoch": 9.565217391304348,
+      "grad_norm": 5.082529067993164,
       "learning_rate": 8.055555555555557e-06,
+      "loss": 0.3986,
       "step": 1100
     },
     {
+      "epoch": 9.565217391304348,
+      "eval_accuracy": 0.9236413043478261,
+      "eval_f1_score": 0.9049050960720594,
+      "eval_loss": 0.4672768712043762,
+      "eval_precision": 0.898138404827953,
+      "eval_recall": 0.9136899119280064,
+      "eval_runtime": 6.9211,
+      "eval_samples_per_second": 531.711,
+      "eval_steps_per_second": 8.38,
       "step": 1100
     },
     {
+      "epoch": 10.434782608695652,
+      "grad_norm": 7.0753984451293945,
       "learning_rate": 7.77777777777778e-06,
+      "loss": 0.3673,
       "step": 1200
     },
     {
+      "epoch": 10.434782608695652,
+      "eval_accuracy": 0.9307065217391305,
+      "eval_f1_score": 0.9133756100183478,
+      "eval_loss": 0.45040827989578247,
+      "eval_precision": 0.9213133583473806,
+      "eval_recall": 0.9059425908375184,
+      "eval_runtime": 6.9128,
+      "eval_samples_per_second": 532.346,
+      "eval_steps_per_second": 8.39,
       "step": 1200
     },
     {
+      "epoch": 11.304347826086957,
+      "grad_norm": 3.027184247970581,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 0.3579,
       "step": 1300
     },
     {
+      "epoch": 11.304347826086957,
+      "eval_accuracy": 0.9315217391304348,
+      "eval_f1_score": 0.9144976601484841,
+      "eval_loss": 0.447768896818161,
+      "eval_precision": 0.9123115041297183,
+      "eval_recall": 0.9179810133876928,
+      "eval_runtime": 6.8813,
+      "eval_samples_per_second": 534.78,
+      "eval_steps_per_second": 8.429,
       "step": 1300
     },
     {
+      "epoch": 12.173913043478262,
+      "grad_norm": 6.544119834899902,
       "learning_rate": 7.222222222222223e-06,
+      "loss": 0.3408,
       "step": 1400
     },
     {
+      "epoch": 12.173913043478262,
+      "eval_accuracy": 0.9315217391304348,
+      "eval_f1_score": 0.9125839928840032,
+      "eval_loss": 0.44630134105682373,
+      "eval_precision": 0.9160798318219715,
+      "eval_recall": 0.9101140451493557,
+      "eval_runtime": 6.8705,
+      "eval_samples_per_second": 535.626,
+      "eval_steps_per_second": 8.442,
       "step": 1400
     },
     {
+      "epoch": 13.043478260869565,
+      "grad_norm": 1.1837869882583618,
       "learning_rate": 6.944444444444445e-06,
+      "loss": 0.3316,
       "step": 1500
     },
     {
+      "epoch": 13.043478260869565,
+      "eval_accuracy": 0.9304347826086956,
+      "eval_f1_score": 0.9114310919979555,
+      "eval_loss": 0.4618222713470459,
+      "eval_precision": 0.901534612430018,
+      "eval_recall": 0.9233297132434791,
+      "eval_runtime": 6.8807,
+      "eval_samples_per_second": 534.826,
+      "eval_steps_per_second": 8.429,
       "step": 1500
     },
     {
+      "epoch": 13.91304347826087,
+      "grad_norm": 4.6852030754089355,
       "learning_rate": 6.666666666666667e-06,
+      "loss": 0.321,
       "step": 1600
     },
     {
+      "epoch": 13.91304347826087,
+      "eval_accuracy": 0.936141304347826,
+      "eval_f1_score": 0.9177928085220054,
+      "eval_loss": 0.4429613947868347,
+      "eval_precision": 0.9162566862756574,
+      "eval_recall": 0.9203372711492189,
+      "eval_runtime": 6.8962,
+      "eval_samples_per_second": 533.625,
+      "eval_steps_per_second": 8.41,
       "step": 1600
     },
     {
+      "epoch": 14.782608695652174,
+      "grad_norm": 2.1539549827575684,
       "learning_rate": 6.3888888888888885e-06,
+      "loss": 0.3113,
       "step": 1700
     },
     {
+      "epoch": 14.782608695652174,
+      "eval_accuracy": 0.9394021739130435,
+      "eval_f1_score": 0.9206336007621322,
+      "eval_loss": 0.4418139159679413,
+      "eval_precision": 0.9180154745670104,
+      "eval_recall": 0.9233295456017971,
+      "eval_runtime": 6.9165,
+      "eval_samples_per_second": 532.064,
+      "eval_steps_per_second": 8.386,
       "step": 1700
     },
     {
+      "epoch": 15.652173913043478,
+      "grad_norm": 2.5465943813323975,
       "learning_rate": 6.111111111111112e-06,
+      "loss": 0.3085,
       "step": 1800
     },
     {
+      "epoch": 15.652173913043478,
+      "eval_accuracy": 0.9391304347826087,
+      "eval_f1_score": 0.9213651720221497,
+      "eval_loss": 0.4470200836658478,
+      "eval_precision": 0.9206502407175643,
+      "eval_recall": 0.922553969144098,
+      "eval_runtime": 6.9262,
+      "eval_samples_per_second": 531.315,
+      "eval_steps_per_second": 8.374,
       "step": 1800
     },
     {
+      "epoch": 16.52173913043478,
+      "grad_norm": 8.969688415527344,
       "learning_rate": 5.833333333333334e-06,
+      "loss": 0.304,
       "step": 1900
     },
     {
+      "epoch": 16.52173913043478,
+      "eval_accuracy": 0.9369565217391305,
+      "eval_f1_score": 0.9171053942846182,
+      "eval_loss": 0.45003601908683777,
+      "eval_precision": 0.9217182621997301,
+      "eval_recall": 0.91362601629383,
+      "eval_runtime": 6.9417,
+      "eval_samples_per_second": 530.127,
+      "eval_steps_per_second": 8.355,
       "step": 1900
     },
     {
+      "epoch": 17.391304347826086,
+      "grad_norm": 3.3478808403015137,
       "learning_rate": 5.555555555555557e-06,
+      "loss": 0.2967,
       "step": 2000
     },
     {
+      "epoch": 17.391304347826086,
+      "eval_accuracy": 0.9345108695652173,
+      "eval_f1_score": 0.914860205961535,
+      "eval_loss": 0.4604756832122803,
+      "eval_precision": 0.9174677942056463,
+      "eval_recall": 0.9135354812885799,
+      "eval_runtime": 6.887,
+      "eval_samples_per_second": 534.339,
+      "eval_steps_per_second": 8.422,
       "step": 2000
     },
     {
+      "epoch": 18.26086956521739,
+      "grad_norm": 3.5150227546691895,
       "learning_rate": 5.2777777777777785e-06,
+      "loss": 0.2956,
       "step": 2100
     },
     {
+      "epoch": 18.26086956521739,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_f1_score": 0.9144840902438658,
+      "eval_loss": 0.4595490097999573,
+      "eval_precision": 0.9061017033815302,
+      "eval_recall": 0.9237607012127841,
+      "eval_runtime": 6.9021,
+      "eval_samples_per_second": 533.174,
+      "eval_steps_per_second": 8.403,
       "step": 2100
     },
     {
+      "epoch": 19.130434782608695,
+      "grad_norm": 4.217600345611572,
       "learning_rate": 5e-06,
+      "loss": 0.2874,
       "step": 2200
     },
     {
+      "epoch": 19.130434782608695,
+      "eval_accuracy": 0.9377717391304348,
+      "eval_f1_score": 0.9185420530822453,
+      "eval_loss": 0.46195611357688904,
+      "eval_precision": 0.9178792739937973,
+      "eval_recall": 0.9200392265430211,
+      "eval_runtime": 6.9164,
+      "eval_samples_per_second": 532.068,
+      "eval_steps_per_second": 8.386,
       "step": 2200
     },
     {
+      "epoch": 20.0,
+      "grad_norm": 0.156525120139122,
       "learning_rate": 4.722222222222222e-06,
+      "loss": 0.2891,
       "step": 2300
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.936141304347826,
+      "eval_f1_score": 0.9167307484171513,
+      "eval_loss": 0.46016111969947815,
+      "eval_precision": 0.9166336381524655,
+      "eval_recall": 0.9182092584681624,
+      "eval_runtime": 6.8971,
+      "eval_samples_per_second": 533.56,
+      "eval_steps_per_second": 8.409,
       "step": 2300
     },
     {
+      "epoch": 20.869565217391305,
+      "grad_norm": 4.048396587371826,
       "learning_rate": 4.444444444444444e-06,
+      "loss": 0.2862,
       "step": 2400
     },
     {
+      "epoch": 20.869565217391305,
+      "eval_accuracy": 0.933695652173913,
+      "eval_f1_score": 0.9149466518195882,
+      "eval_loss": 0.4600348472595215,
+      "eval_precision": 0.9133193957379392,
+      "eval_recall": 0.9168769591028961,
+      "eval_runtime": 6.9003,
+      "eval_samples_per_second": 533.307,
+      "eval_steps_per_second": 8.405,
       "step": 2400
     },
     {
+      "epoch": 21.73913043478261,
+      "grad_norm": 5.180253505706787,
       "learning_rate": 4.166666666666667e-06,
+      "loss": 0.2851,
       "step": 2500
     },
     {
+      "epoch": 21.73913043478261,
+      "eval_accuracy": 0.9372282608695652,
+      "eval_f1_score": 0.9184411791946457,
+      "eval_loss": 0.45560210943222046,
+      "eval_precision": 0.9094890172985339,
+      "eval_recall": 0.928221748402003,
+      "eval_runtime": 6.865,
+      "eval_samples_per_second": 536.051,
+      "eval_steps_per_second": 8.449,
       "step": 2500
     },
     {
+      "epoch": 22.608695652173914,
+      "grad_norm": 8.518896102905273,
       "learning_rate": 3.88888888888889e-06,
+      "loss": 0.2798,
       "step": 2600
     },
     {
+      "epoch": 22.608695652173914,
+      "eval_accuracy": 0.9404891304347827,
+      "eval_f1_score": 0.9222790200318222,
+      "eval_loss": 0.45864006876945496,
+      "eval_precision": 0.9155654158942171,
+      "eval_recall": 0.9296298254069438,
+      "eval_runtime": 6.9078,
+      "eval_samples_per_second": 532.73,
+      "eval_steps_per_second": 8.396,
       "step": 2600
     },
     {
+      "epoch": 23.47826086956522,
+      "grad_norm": 0.2805568277835846,
       "learning_rate": 3.6111111111111115e-06,
+      "loss": 0.2787,
       "step": 2700
     },
     {
+      "epoch": 23.47826086956522,
+      "eval_accuracy": 0.9407608695652174,
+      "eval_f1_score": 0.9250258258102347,
+      "eval_loss": 0.4546903967857361,
+      "eval_precision": 0.9222845189859414,
+      "eval_recall": 0.9280424440067916,
+      "eval_runtime": 6.9071,
+      "eval_samples_per_second": 532.784,
+      "eval_steps_per_second": 8.397,
       "step": 2700
     },
     {
+      "epoch": 24.347826086956523,
+      "grad_norm": 0.33725014328956604,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.2806,
       "step": 2800
     },
     {
+      "epoch": 24.347826086956523,
+      "eval_accuracy": 0.9380434782608695,
+      "eval_f1_score": 0.9187707000303608,
+      "eval_loss": 0.45898741483688354,
+      "eval_precision": 0.9123560681843038,
+      "eval_recall": 0.925853281950203,
+      "eval_runtime": 6.9172,
+      "eval_samples_per_second": 532.007,
+      "eval_steps_per_second": 8.385,
       "step": 2800
     },
     {
+      "epoch": 25.217391304347824,
+      "grad_norm": 4.991839408874512,
       "learning_rate": 3.055555555555556e-06,
+      "loss": 0.2768,
       "step": 2900
     },
     {
+      "epoch": 25.217391304347824,
+      "eval_accuracy": 0.936141304347826,
+      "eval_f1_score": 0.9188439090576789,
+      "eval_loss": 0.4617587625980377,
+      "eval_precision": 0.9203622150474884,
+      "eval_recall": 0.9179598800095373,
+      "eval_runtime": 6.9343,
+      "eval_samples_per_second": 530.696,
+      "eval_steps_per_second": 8.364,
       "step": 2900
     },
     {
+      "epoch": 26.08695652173913,
+      "grad_norm": 6.376648902893066,
       "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.2773,
       "step": 3000
     },
     {
+      "epoch": 26.08695652173913,
+      "eval_accuracy": 0.9380434782608695,
+      "eval_f1_score": 0.9202952986499114,
+      "eval_loss": 0.4578970968723297,
+      "eval_precision": 0.9176566359948707,
+      "eval_recall": 0.9230698673860079,
+      "eval_runtime": 6.9545,
+      "eval_samples_per_second": 529.152,
+      "eval_steps_per_second": 8.34,
       "step": 3000
     },
     {
+      "epoch": 26.956521739130434,
+      "grad_norm": 8.162334442138672,
       "learning_rate": 2.5e-06,
+      "loss": 0.2724,
       "step": 3100
     },
     {
+      "epoch": 26.956521739130434,
+      "eval_accuracy": 0.9407608695652174,
+      "eval_f1_score": 0.9252844986926706,
+      "eval_loss": 0.4632340669631958,
+      "eval_precision": 0.9169145670543192,
+      "eval_recall": 0.9342956374641919,
+      "eval_runtime": 6.9177,
+      "eval_samples_per_second": 531.966,
+      "eval_steps_per_second": 8.384,
       "step": 3100
     },
     {
+      "epoch": 27.82608695652174,
+      "grad_norm": 5.353995323181152,
       "learning_rate": 2.222222222222222e-06,
+      "loss": 0.2716,
       "step": 3200
     },
     {
+      "epoch": 27.82608695652174,
+      "eval_accuracy": 0.9364130434782608,
+      "eval_f1_score": 0.9204656187460882,
+      "eval_loss": 0.4744097590446472,
+      "eval_precision": 0.908834486221008,
+      "eval_recall": 0.9337614921699828,
+      "eval_runtime": 6.9561,
+      "eval_samples_per_second": 529.035,
+      "eval_steps_per_second": 8.338,
       "step": 3200
     },
     {
+      "epoch": 28.695652173913043,
+      "grad_norm": 4.451539993286133,
       "learning_rate": 1.944444444444445e-06,
+      "loss": 0.2705,
       "step": 3300
     },
     {
+      "epoch": 28.695652173913043,
+      "eval_accuracy": 0.9402173913043478,
+      "eval_f1_score": 0.9218337386274096,
+      "eval_loss": 0.46000754833221436,
+      "eval_precision": 0.9158771078401343,
+      "eval_recall": 0.9282202251039701,
+      "eval_runtime": 6.9029,
+      "eval_samples_per_second": 533.111,
+      "eval_steps_per_second": 8.402,
       "step": 3300
     },
     {
+      "epoch": 29.565217391304348,
+      "grad_norm": 1.1730854511260986,
       "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.2682,
       "step": 3400
     },
     {
+      "epoch": 29.565217391304348,
+      "eval_accuracy": 0.9380434782608695,
+      "eval_f1_score": 0.9195673704557201,
+      "eval_loss": 0.4688616096973419,
+      "eval_precision": 0.9141786844421071,
+      "eval_recall": 0.9255712172781052,
+      "eval_runtime": 6.9457,
+      "eval_samples_per_second": 529.826,
+      "eval_steps_per_second": 8.351,
       "step": 3400
     },
     {
+      "epoch": 30.434782608695652,
+      "grad_norm": 0.5718241333961487,
       "learning_rate": 1.3888888888888892e-06,
+      "loss": 0.2718,
       "step": 3500
     },
     {
+      "epoch": 30.434782608695652,
+      "eval_accuracy": 0.941304347826087,
+      "eval_f1_score": 0.9226474713954919,
+      "eval_loss": 0.4682305157184601,
+      "eval_precision": 0.917275778746201,
+      "eval_recall": 0.928756452719473,
+      "eval_runtime": 6.9559,
+      "eval_samples_per_second": 529.044,
+      "eval_steps_per_second": 8.338,
       "step": 3500
     },
     {
+      "epoch": 31.304347826086957,
+      "grad_norm": 7.950275897979736,
       "learning_rate": 1.111111111111111e-06,
+      "loss": 0.2694,
       "step": 3600
     },
     {
+      "epoch": 31.304347826086957,
+      "eval_accuracy": 0.9385869565217392,
+      "eval_f1_score": 0.9200793063280935,
+      "eval_loss": 0.4660183787345886,
+      "eval_precision": 0.911949308994198,
+      "eval_recall": 0.9289019445962466,
+      "eval_runtime": 6.9636,
+      "eval_samples_per_second": 528.461,
+      "eval_steps_per_second": 8.329,
       "step": 3600
     },
     {
+      "epoch": 32.17391304347826,
+      "grad_norm": 7.988296985626221,
       "learning_rate": 8.333333333333333e-07,
+      "loss": 0.2678,
       "step": 3700
     },
     {
+      "epoch": 32.17391304347826,
+      "eval_accuracy": 0.9404891304347827,
+      "eval_f1_score": 0.9216222067451383,
+      "eval_loss": 0.4612596035003662,
+      "eval_precision": 0.9194630478500835,
+      "eval_recall": 0.9239463357180048,
+      "eval_runtime": 6.9594,
+      "eval_samples_per_second": 528.781,
+      "eval_steps_per_second": 8.334,
       "step": 3700
     },
     {
+      "epoch": 33.04347826086956,
+      "grad_norm": 1.6498167514801025,
       "learning_rate": 5.555555555555555e-07,
+      "loss": 0.2679,
       "step": 3800
     },
     {
+      "epoch": 33.04347826086956,
+      "eval_accuracy": 0.9407608695652174,
+      "eval_f1_score": 0.9224216505483482,
+      "eval_loss": 0.46310955286026,
+      "eval_precision": 0.9170998731211755,
+      "eval_recall": 0.928001378287892,
+      "eval_runtime": 6.9582,
+      "eval_samples_per_second": 528.873,
+      "eval_steps_per_second": 8.335,
       "step": 3800
     },
     {
+      "epoch": 33.91304347826087,
+      "grad_norm": 3.3423407077789307,
+      "learning_rate": 2.7777777777777776e-07,
+      "loss": 0.2681,
+      "step": 3900
+    },
+    {
+      "epoch": 33.91304347826087,
+      "eval_accuracy": 0.9402173913043478,
+      "eval_f1_score": 0.92234899080498,
+      "eval_loss": 0.4643385410308838,
+      "eval_precision": 0.9151804174115907,
+      "eval_recall": 0.9299220134801852,
+      "eval_runtime": 7.0049,
+      "eval_samples_per_second": 525.349,
+      "eval_steps_per_second": 8.28,
+      "step": 3900
+    },
+    {
+      "epoch": 34.78260869565217,
+      "grad_norm": 2.188258409500122,
+      "learning_rate": 0.0,
+      "loss": 0.2685,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78260869565217,
+      "eval_accuracy": 0.939945652173913,
+      "eval_f1_score": 0.9222328968070977,
+      "eval_loss": 0.46605220437049866,
+      "eval_precision": 0.9145504342331765,
+      "eval_recall": 0.9304139750671819,
+      "eval_runtime": 6.9734,
+      "eval_samples_per_second": 527.718,
+      "eval_steps_per_second": 8.317,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78260869565217,
+      "step": 4000,
+      "total_flos": 8542898522220600.0,
+      "train_loss": 0.44249137926101684,
+      "train_runtime": 3485.9803,
+      "train_samples_per_second": 146.874,
+      "train_steps_per_second": 1.147
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 35,
   "save_steps": 100,
+  "total_flos": 8542898522220600.0,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null