Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +80 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cde463bf311ac805eec2150338f697c9940a5c7a200ccc234d37162b4649aed5
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:75562cd31a0f9b43a875d53eafeae39ff9f4884568c984afec548fb0b3a18bea
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec1ab9ed8d43fdcf9ecea3365f7eeaacaae0d08b25b5e24189e5e1a81dde674e
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:4737340e44de8f447a156c00d13c226c8d13eaaa3479d55229dea45aefbcbd95
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2477d3715e68f2549c9ecd6a18f4a17a0bfb0a625f50ce4fafa0aa2652affb1c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc930492c5e0375b00eb1faa8503ca1a4cd6495e47aeaa009df65f9bce5b16e3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00b7251b468e4d3cb44eba0757f056754012975e532dc253bb53666972923e5b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9707f7f99f72a12c2631595b1bcc8638efdeda09ae580feffc3a464b56550f1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 7.66294542948405,
-  "best_model_checkpoint": "./results/checkpoint-916",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 916,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -82,6 +82,81 @@
       "eval_samples_per_second": 272.318,
       "eval_steps_per_second": 8.511,
       "step": 916
     }
   ],
   "logging_steps": 100,
@@ -101,7 +176,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1927766233338624.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 6.929315567016602,
+  "best_model_checkpoint": "./results/checkpoint-1832",
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 1832,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 272.318,
       "eval_steps_per_second": 8.511,
       "step": 916
+    },
+    {
+      "epoch": 1.091703056768559,
+      "grad_norm": 34.63822555541992,
+      "learning_rate": 2.5906113537117905e-05,
+      "loss": 6.9324,
+      "step": 1000
+    },
+    {
+      "epoch": 1.2008733624454149,
+      "grad_norm": 25.136709213256836,
+      "learning_rate": 2.5496724890829696e-05,
+      "loss": 6.6809,
+      "step": 1100
+    },
+    {
+      "epoch": 1.3100436681222707,
+      "grad_norm": 29.977298736572266,
+      "learning_rate": 2.5087336244541486e-05,
+      "loss": 6.6569,
+      "step": 1200
+    },
+    {
+      "epoch": 1.4192139737991267,
+      "grad_norm": 50.923553466796875,
+      "learning_rate": 2.4677947598253277e-05,
+      "loss": 6.5877,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5283842794759825,
+      "grad_norm": 24.49920654296875,
+      "learning_rate": 2.4268558951965064e-05,
+      "loss": 6.5709,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6375545851528384,
+      "grad_norm": 36.14987564086914,
+      "learning_rate": 2.3859170305676855e-05,
+      "loss": 6.4067,
+      "step": 1500
+    },
+    {
+      "epoch": 1.7467248908296944,
+      "grad_norm": 22.3398380279541,
+      "learning_rate": 2.344978165938865e-05,
+      "loss": 6.3692,
+      "step": 1600
+    },
+    {
+      "epoch": 1.8558951965065502,
+      "grad_norm": 23.658458709716797,
+      "learning_rate": 2.3040393013100437e-05,
+      "loss": 6.3785,
+      "step": 1700
+    },
+    {
+      "epoch": 1.965065502183406,
+      "grad_norm": 31.021987915039062,
+      "learning_rate": 2.2631004366812227e-05,
+      "loss": 6.2296,
+      "step": 1800
+    },
+    {
+      "epoch": 2.0,
+      "eval_avg_mae": 6.929315567016602,
+      "eval_loss": 6.92931604385376,
+      "eval_mae_lex": 6.660251617431641,
+      "eval_mae_sem": 4.739748001098633,
+      "eval_mae_syn": 9.387948036193848,
+      "eval_runtime": 26.931,
+      "eval_samples_per_second": 272.065,
+      "eval_steps_per_second": 8.503,
+      "step": 1832
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 3855532466677248.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null