Training in progress, step 215, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +138 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaade3c1745fa139dd2179c5d002c1bf4bd1be7cc6aed6313616660a21fb72a4
 size 280341460

 version https://git-lfs.github.com/spec/v1
+oid sha256:03baaa64cafa146ee4c5767a24e1beedb797928e1191c5d07ce8b6caaceddfa0
 size 280341460

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bad761ac16485809f936cab9614a9c62703f9594a4408ef4ce425a25a2722bf5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f4bf28c79052632b2f820ba6b1ff10e8c18979d5c0dbece03cd4295c5efb37e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cd92014b54254c5c35b36689a0a441642fad4ac77e637f6cabebe51baab863d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:11409aa0c673614697faa75e0d05b97eaa43eb229b5e5efff9823b555bbc8d3c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07203313524221142,
   "eval_steps": 55,
-  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -402,6 +402,140 @@
       "learning_rate": 3.67782918981399e-05,
       "loss": 0.0,
       "step": 159
     }
   ],
   "logging_steps": 3,
@@ -416,12 +550,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.7726838898255462e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09679452548172159,
   "eval_steps": 55,
+  "global_step": 215,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.67782918981399e-05,
       "loss": 0.0,
       "step": 159
+    },
+    {
+      "epoch": 0.07293354943273905,
+      "grad_norm": NaN,
+      "learning_rate": 3.34468291057521e-05,
+      "loss": 0.0,
+      "step": 162
+    },
+    {
+      "epoch": 0.07428417071853052,
+      "grad_norm": NaN,
+      "learning_rate": 3.019601169804216e-05,
+      "loss": 0.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.07428417071853052,
+      "eval_loss": NaN,
+      "eval_runtime": 311.8846,
+      "eval_samples_per_second": 3.751,
+      "eval_steps_per_second": 1.876,
+      "step": 165
+    },
+    {
+      "epoch": 0.075634792004322,
+      "grad_norm": NaN,
+      "learning_rate": 2.7041677330649407e-05,
+      "loss": 0.0,
+      "step": 168
+    },
+    {
+      "epoch": 0.07698541329011345,
+      "grad_norm": NaN,
+      "learning_rate": 2.399919360353923e-05,
+      "loss": 0.0,
+      "step": 171
+    },
+    {
+      "epoch": 0.07833603457590492,
+      "grad_norm": NaN,
+      "learning_rate": 2.1083383191600674e-05,
+      "loss": 0.0,
+      "step": 174
+    },
+    {
+      "epoch": 0.07968665586169638,
+      "grad_norm": NaN,
+      "learning_rate": 1.8308451630064484e-05,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 0.08103727714748785,
+      "grad_norm": NaN,
+      "learning_rate": 1.5687918106563326e-05,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.0823878984332793,
+      "grad_norm": NaN,
+      "learning_rate": 1.3234549597008571e-05,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 0.08373851971907077,
+      "grad_norm": NaN,
+      "learning_rate": 1.096029866616704e-05,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 0.08508914100486224,
+      "grad_norm": NaN,
+      "learning_rate": 8.876245235966885e-06,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 0.0864397622906537,
+      "grad_norm": NaN,
+      "learning_rate": 6.992542605231739e-06,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 0.08779038357644517,
+      "grad_norm": NaN,
+      "learning_rate": 5.318367983829392e-06,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.08914100486223663,
+      "grad_norm": NaN,
+      "learning_rate": 3.861877782227885e-06,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 0.0904916261480281,
+      "grad_norm": NaN,
+      "learning_rate": 2.63016787428354e-06,
+      "loss": 0.0,
+      "step": 201
+    },
+    {
+      "epoch": 0.09184224743381955,
+      "grad_norm": NaN,
+      "learning_rate": 1.6292390268568104e-06,
+      "loss": 0.0,
+      "step": 204
+    },
+    {
+      "epoch": 0.09319286871961102,
+      "grad_norm": NaN,
+      "learning_rate": 8.639676646793382e-07,
+      "loss": 0.0,
+      "step": 207
+    },
+    {
+      "epoch": 0.09454349000540249,
+      "grad_norm": NaN,
+      "learning_rate": 3.380821129028489e-07,
+      "loss": 0.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.09589411129119395,
+      "grad_norm": NaN,
+      "learning_rate": 5.4144433073771707e-08,
+      "loss": 0.0,
+      "step": 213
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.727584415438602e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null