Training in progress, epoch 1, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +31 -256

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73bbaf13257e8852680c22d11642ea0013f2247fef35d8272beebba796d36512
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:737bff9e53771f919fd8e65ceb4d4c2d6f17ab4d48951f73831dec9db5e974f5
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf26cb804bb88b36cd19298767e57275ff1af51ef66a60b94073c0dcb74bb3c9
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:24c15aed075594926bdfb8b0a3fd65422193e443f12843c149dfd9d5c185c0f0
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:049c6f40a328629846cab1b27e3807d44ea469304a69ff0f3d676cc813cde6b3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2477d3715e68f2549c9ecd6a18f4a17a0bfb0a625f50ce4fafa0aa2652affb1c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7668389514d10a3d53f140c85ff46df71dcd9dc34fbc1ed6530f2d1a175df2a0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:00b7251b468e4d3cb44eba0757f056754012975e532dc253bb53666972923e5b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,312 +1,87 @@
 {
-  "best_metric": 5.853533426920573,
-  "best_model_checkpoint": "./results/checkpoint-3664",
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 3664,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1091703056768559,
-      "grad_norm": 23.31266975402832,
       "learning_rate": 2.959061135371179e-05,
-      "loss": 57.4375,
       "step": 100
     },
     {
       "epoch": 0.2183406113537118,
-      "grad_norm": 36.15751266479492,
       "learning_rate": 2.918122270742358e-05,
-      "loss": 48.4816,
       "step": 200
     },
     {
       "epoch": 0.32751091703056767,
-      "grad_norm": 44.80302047729492,
       "learning_rate": 2.877183406113537e-05,
-      "loss": 37.1763,
       "step": 300
     },
     {
       "epoch": 0.4366812227074236,
-      "grad_norm": 29.177419662475586,
       "learning_rate": 2.8362445414847164e-05,
-      "loss": 25.613,
       "step": 400
     },
     {
       "epoch": 0.5458515283842795,
-      "grad_norm": 42.395999908447266,
       "learning_rate": 2.7953056768558954e-05,
-      "loss": 16.5535,
       "step": 500
     },
     {
       "epoch": 0.6550218340611353,
-      "grad_norm": 41.26911926269531,
       "learning_rate": 2.7543668122270742e-05,
-      "loss": 12.1195,
       "step": 600
     },
     {
       "epoch": 0.7641921397379913,
-      "grad_norm": 85.68878173828125,
       "learning_rate": 2.7134279475982533e-05,
-      "loss": 9.5989,
       "step": 700
     },
     {
       "epoch": 0.8733624454148472,
-      "grad_norm": 29.508316040039062,
       "learning_rate": 2.6724890829694323e-05,
-      "loss": 8.008,
       "step": 800
     },
     {
       "epoch": 0.982532751091703,
-      "grad_norm": 47.07627868652344,
       "learning_rate": 2.6315502183406114e-05,
-      "loss": 7.4156,
       "step": 900
     },
     {
       "epoch": 1.0,
-      "eval_avg_mae": 7.66294542948405,
-      "eval_loss": 7.66294527053833,
-      "eval_mae_lex": 7.354457378387451,
-      "eval_mae_sem": 5.690549373626709,
-      "eval_mae_syn": 9.943828582763672,
-      "eval_runtime": 26.9061,
-      "eval_samples_per_second": 272.318,
-      "eval_steps_per_second": 8.511,
       "step": 916
-    },
-    {
-      "epoch": 1.091703056768559,
-      "grad_norm": 34.63822555541992,
-      "learning_rate": 2.5906113537117905e-05,
-      "loss": 6.9324,
-      "step": 1000
-    },
-    {
-      "epoch": 1.2008733624454149,
-      "grad_norm": 25.136709213256836,
-      "learning_rate": 2.5496724890829696e-05,
-      "loss": 6.6809,
-      "step": 1100
-    },
-    {
-      "epoch": 1.3100436681222707,
-      "grad_norm": 29.977298736572266,
-      "learning_rate": 2.5087336244541486e-05,
-      "loss": 6.6569,
-      "step": 1200
-    },
-    {
-      "epoch": 1.4192139737991267,
-      "grad_norm": 50.923553466796875,
-      "learning_rate": 2.4677947598253277e-05,
-      "loss": 6.5877,
-      "step": 1300
-    },
-    {
-      "epoch": 1.5283842794759825,
-      "grad_norm": 24.49920654296875,
-      "learning_rate": 2.4268558951965064e-05,
-      "loss": 6.5709,
-      "step": 1400
-    },
-    {
-      "epoch": 1.6375545851528384,
-      "grad_norm": 36.14987564086914,
-      "learning_rate": 2.3859170305676855e-05,
-      "loss": 6.4067,
-      "step": 1500
-    },
-    {
-      "epoch": 1.7467248908296944,
-      "grad_norm": 22.3398380279541,
-      "learning_rate": 2.344978165938865e-05,
-      "loss": 6.3692,
-      "step": 1600
-    },
-    {
-      "epoch": 1.8558951965065502,
-      "grad_norm": 23.658458709716797,
-      "learning_rate": 2.3040393013100437e-05,
-      "loss": 6.3785,
-      "step": 1700
-    },
-    {
-      "epoch": 1.965065502183406,
-      "grad_norm": 31.021987915039062,
-      "learning_rate": 2.2631004366812227e-05,
-      "loss": 6.2296,
-      "step": 1800
-    },
-    {
-      "epoch": 2.0,
-      "eval_avg_mae": 6.929315567016602,
-      "eval_loss": 6.92931604385376,
-      "eval_mae_lex": 6.660251617431641,
-      "eval_mae_sem": 4.739748001098633,
-      "eval_mae_syn": 9.387948036193848,
-      "eval_runtime": 26.931,
-      "eval_samples_per_second": 272.065,
-      "eval_steps_per_second": 8.503,
-      "step": 1832
-    },
-    {
-      "epoch": 2.074235807860262,
-      "grad_norm": 40.95843505859375,
-      "learning_rate": 2.2221615720524018e-05,
-      "loss": 6.1465,
-      "step": 1900
-    },
-    {
-      "epoch": 2.183406113537118,
-      "grad_norm": 26.046171188354492,
-      "learning_rate": 2.181222707423581e-05,
-      "loss": 5.9925,
-      "step": 2000
-    },
-    {
-      "epoch": 2.2925764192139737,
-      "grad_norm": 36.05866622924805,
-      "learning_rate": 2.1402838427947596e-05,
-      "loss": 5.8884,
-      "step": 2100
-    },
-    {
-      "epoch": 2.4017467248908297,
-      "grad_norm": 23.126216888427734,
-      "learning_rate": 2.099344978165939e-05,
-      "loss": 5.9357,
-      "step": 2200
-    },
-    {
-      "epoch": 2.5109170305676853,
-      "grad_norm": 29.862232208251953,
-      "learning_rate": 2.058406113537118e-05,
-      "loss": 5.8846,
-      "step": 2300
-    },
-    {
-      "epoch": 2.6200873362445414,
-      "grad_norm": 30.4029541015625,
-      "learning_rate": 2.0174672489082972e-05,
-      "loss": 5.8334,
-      "step": 2400
-    },
-    {
-      "epoch": 2.7292576419213974,
-      "grad_norm": 30.72637367248535,
-      "learning_rate": 1.976528384279476e-05,
-      "loss": 5.8922,
-      "step": 2500
-    },
-    {
-      "epoch": 2.8384279475982535,
-      "grad_norm": 24.41779136657715,
-      "learning_rate": 1.935589519650655e-05,
-      "loss": 5.912,
-      "step": 2600
-    },
-    {
-      "epoch": 2.947598253275109,
-      "grad_norm": 27.00792121887207,
-      "learning_rate": 1.894650655021834e-05,
-      "loss": 5.655,
-      "step": 2700
-    },
-    {
-      "epoch": 3.0,
-      "eval_avg_mae": 6.088820139567058,
-      "eval_loss": 6.088819980621338,
-      "eval_mae_lex": 5.295498847961426,
-      "eval_mae_sem": 4.145097255706787,
-      "eval_mae_syn": 8.8258638381958,
-      "eval_runtime": 26.9401,
-      "eval_samples_per_second": 271.974,
-      "eval_steps_per_second": 8.5,
-      "step": 2748
-    },
-    {
-      "epoch": 3.056768558951965,
-      "grad_norm": 25.13582420349121,
-      "learning_rate": 1.8537117903930135e-05,
-      "loss": 5.5729,
-      "step": 2800
-    },
-    {
-      "epoch": 3.165938864628821,
-      "grad_norm": 26.646804809570312,
-      "learning_rate": 1.8127729257641922e-05,
-      "loss": 5.6211,
-      "step": 2900
-    },
-    {
-      "epoch": 3.2751091703056767,
-      "grad_norm": 28.627378463745117,
-      "learning_rate": 1.7718340611353713e-05,
-      "loss": 5.5775,
-      "step": 3000
-    },
-    {
-      "epoch": 3.3842794759825328,
-      "grad_norm": 28.54901123046875,
-      "learning_rate": 1.7308951965065504e-05,
-      "loss": 5.3086,
-      "step": 3100
-    },
-    {
-      "epoch": 3.493449781659389,
-      "grad_norm": 27.549345016479492,
-      "learning_rate": 1.689956331877729e-05,
-      "loss": 5.5229,
-      "step": 3200
-    },
-    {
-      "epoch": 3.6026200873362444,
-      "grad_norm": 29.306232452392578,
-      "learning_rate": 1.649017467248908e-05,
-      "loss": 5.6348,
-      "step": 3300
-    },
-    {
-      "epoch": 3.7117903930131004,
-      "grad_norm": 29.256425857543945,
-      "learning_rate": 1.6080786026200872e-05,
-      "loss": 5.3936,
-      "step": 3400
-    },
-    {
-      "epoch": 3.8209606986899565,
-      "grad_norm": 31.816057205200195,
-      "learning_rate": 1.5671397379912666e-05,
-      "loss": 5.431,
-      "step": 3500
-    },
-    {
-      "epoch": 3.930131004366812,
-      "grad_norm": 25.876789093017578,
-      "learning_rate": 1.5262008733624454e-05,
-      "loss": 5.4981,
-      "step": 3600
-    },
-    {
-      "epoch": 4.0,
-      "eval_avg_mae": 5.853533426920573,
-      "eval_loss": 5.8535332679748535,
-      "eval_mae_lex": 5.371854305267334,
-      "eval_mae_sem": 3.812947988510132,
-      "eval_mae_syn": 8.375797271728516,
-      "eval_runtime": 26.9386,
-      "eval_samples_per_second": 271.989,
-      "eval_steps_per_second": 8.501,
-      "step": 3664
     }
   ],
   "logging_steps": 100,
@@ -326,7 +101,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7711064933354496.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 7.529487609863281,
+  "best_model_checkpoint": "./results/checkpoint-916",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 916,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1091703056768559,
+      "grad_norm": 25.480337142944336,
       "learning_rate": 2.959061135371179e-05,
+      "loss": 56.923,
       "step": 100
     },
     {
       "epoch": 0.2183406113537118,
+      "grad_norm": 39.87223815917969,
       "learning_rate": 2.918122270742358e-05,
+      "loss": 46.6475,
       "step": 200
     },
     {
       "epoch": 0.32751091703056767,
+      "grad_norm": 48.05048751831055,
       "learning_rate": 2.877183406113537e-05,
+      "loss": 33.6867,
       "step": 300
     },
     {
       "epoch": 0.4366812227074236,
+      "grad_norm": 31.941883087158203,
       "learning_rate": 2.8362445414847164e-05,
+      "loss": 21.1084,
       "step": 400
     },
     {
       "epoch": 0.5458515283842795,
+      "grad_norm": 55.025856018066406,
       "learning_rate": 2.7953056768558954e-05,
+      "loss": 12.9495,
       "step": 500
     },
     {
       "epoch": 0.6550218340611353,
+      "grad_norm": 34.957523345947266,
       "learning_rate": 2.7543668122270742e-05,
+      "loss": 10.0745,
       "step": 600
     },
     {
       "epoch": 0.7641921397379913,
+      "grad_norm": 24.020906448364258,
       "learning_rate": 2.7134279475982533e-05,
+      "loss": 8.3541,
       "step": 700
     },
     {
       "epoch": 0.8733624454148472,
+      "grad_norm": 32.709571838378906,
       "learning_rate": 2.6724890829694323e-05,
+      "loss": 7.5128,
       "step": 800
     },
     {
       "epoch": 0.982532751091703,
+      "grad_norm": 38.94672393798828,
       "learning_rate": 2.6315502183406114e-05,
+      "loss": 7.2241,
       "step": 900
     },
     {
       "epoch": 1.0,
+      "eval_avg_mae": 7.529487609863281,
+      "eval_loss": 7.529487609863281,
+      "eval_mae_lex": 6.992014408111572,
+      "eval_mae_sem": 5.432034492492676,
+      "eval_mae_syn": 10.164413452148438,
+      "eval_runtime": 27.1764,
+      "eval_samples_per_second": 269.609,
+      "eval_steps_per_second": 8.426,
       "step": 916
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1927766233338624.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null