Training in progress, step 36, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +77 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b3a8450fc59f39fe7de25014ecfad02189a4b3057781f541b91643a08455ad0
 size 80792096

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aa5a47573be3416e99e5731f9e9edfea50b7c0c3c07dfc651500dbecf7ea258
 size 80792096

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aeb6a60300283b7367b7707d468dfeecc2b85c9bab95dc3cbfe52b32b3bb6664
 size 161810282

 version https://git-lfs.github.com/spec/v1
+oid sha256:d12803c8d2c4edb9109716fd818ec49d8d1acfb94ecb586870aaca607b5b4e34
 size 161810282

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:376d8f135ed4efd45e887d598425f1fef87d1fe799be2aa627c8485072d72916
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c61cee4798669841c3c630b2c76576f4cd8b9a6de6d1faf68fb6f76158011c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2cf2c4048d6740354979367cfe53d0c735909b56d447ba3e528d55c38895176
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:24f70974ebe6e16031ce63527ce3fea95f8e56e83073513783f6d8a14f9aa0e8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.017642734623866698,
   "eval_steps": 5,
-  "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,6 +81,80 @@
       "learning_rate": 0.0002,
       "loss": 0.4133,
       "step": 18
     }
   ],
   "logging_steps": 3,
@@ -100,7 +174,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6273489765924864.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.035285469247733396,
   "eval_steps": 5,
+  "global_step": 36,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.4133,
       "step": 18
+    },
+    {
+      "epoch": 0.019603038470963,
+      "eval_loss": 0.3974114656448364,
+      "eval_runtime": 33.2711,
+      "eval_samples_per_second": 12.924,
+      "eval_steps_per_second": 6.462,
+      "step": 20
+    },
+    {
+      "epoch": 0.02058319039451115,
+      "grad_norm": 0.9422470331192017,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 0.4808,
+      "step": 21
+    },
+    {
+      "epoch": 0.0235236461651556,
+      "grad_norm": 0.7602350115776062,
+      "learning_rate": 0.00015469481581224272,
+      "loss": 0.3845,
+      "step": 24
+    },
+    {
+      "epoch": 0.02450379808870375,
+      "eval_loss": 0.3662199378013611,
+      "eval_runtime": 33.3018,
+      "eval_samples_per_second": 12.912,
+      "eval_steps_per_second": 6.456,
+      "step": 25
+    },
+    {
+      "epoch": 0.02646410193580005,
+      "grad_norm": 0.7190614342689514,
+      "learning_rate": 0.00010825793454723325,
+      "loss": 0.3378,
+      "step": 27
+    },
+    {
+      "epoch": 0.029404557706444498,
+      "grad_norm": 0.6798431277275085,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 0.3959,
+      "step": 30
+    },
+    {
+      "epoch": 0.029404557706444498,
+      "eval_loss": 0.3478722870349884,
+      "eval_runtime": 33.3253,
+      "eval_samples_per_second": 12.903,
+      "eval_steps_per_second": 6.452,
+      "step": 30
+    },
+    {
+      "epoch": 0.03234501347708895,
+      "grad_norm": 0.7356574535369873,
+      "learning_rate": 2.1085949060360654e-05,
+      "loss": 0.3745,
+      "step": 33
+    },
+    {
+      "epoch": 0.03430531732418525,
+      "eval_loss": 0.3429311215877533,
+      "eval_runtime": 33.3237,
+      "eval_samples_per_second": 12.904,
+      "eval_steps_per_second": 6.452,
+      "step": 35
+    },
+    {
+      "epoch": 0.035285469247733396,
+      "grad_norm": 0.6864279508590698,
+      "learning_rate": 1.3638696597277679e-06,
+      "loss": 0.3072,
+      "step": 36
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.2546979531849728e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null