Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2b85338669f928da5b776e614d0f413046ac68f44c749ec58ed1aa0e9397c0b
 size 1216072

 version https://git-lfs.github.com/spec/v1
+oid sha256:280d1d25033f925638c3f28d6b9812f50a55cb69335b304f346da90f600194a9
 size 1216072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3ab381f67f145232e683d8b7a8ece596713bc8223ed1feea18d321775905b72
 size 1294548

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad47fe346fbda1cf3c7be4acba0af85deb9cedfdc43c59bbf73dd168568ec9b4
 size 1294548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:459c3f406a0936fc386ad18c7987b6ec35fd89400ca940c25931be4409d216e4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b26889fac2d40fecb38ddb511932a340b9eca68dacd2959e6fb794722ce2bdbc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e994acda9463ad5e79f11759cee0746e6d525c82215e6ea2f53a57491ac0869b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b536b0fa0a634e1c6dfafee7987ec2b47c88eb25b052693577be75945f4ed90
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 9.663827896118164,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.176522506619594,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,135 @@
       "eval_samples_per_second": 460.483,
       "eval_steps_per_second": 115.121,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 32150414426112.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 9.273290634155273,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.353045013239188,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 460.483,
       "eval_steps_per_second": 115.121,
       "step": 150
+    },
+    {
+      "epoch": 0.18829067372756694,
+      "grad_norm": 0.5674024224281311,
+      "learning_rate": 0.0001697631521134985,
+      "loss": 9.6526,
+      "step": 160
+    },
+    {
+      "epoch": 0.20005884083553988,
+      "grad_norm": 0.5667808651924133,
+      "learning_rate": 0.00016585113790650388,
+      "loss": 9.613,
+      "step": 170
+    },
+    {
+      "epoch": 0.2118270079435128,
+      "grad_norm": 0.5394534468650818,
+      "learning_rate": 0.0001617524614946192,
+      "loss": 9.5741,
+      "step": 180
+    },
+    {
+      "epoch": 0.22359517505148574,
+      "grad_norm": 0.5556952357292175,
+      "learning_rate": 0.0001574787410214407,
+      "loss": 9.5348,
+      "step": 190
+    },
+    {
+      "epoch": 0.23536334215945867,
+      "grad_norm": 0.5671817064285278,
+      "learning_rate": 0.00015304209081197425,
+      "loss": 9.4987,
+      "step": 200
+    },
+    {
+      "epoch": 0.23536334215945867,
+      "eval_loss": 9.482871055603027,
+      "eval_runtime": 3.1933,
+      "eval_samples_per_second": 448.444,
+      "eval_steps_per_second": 112.111,
+      "step": 200
+    },
+    {
+      "epoch": 0.2471315092674316,
+      "grad_norm": 0.7693024277687073,
+      "learning_rate": 0.00014845508703326504,
+      "loss": 9.4781,
+      "step": 210
+    },
+    {
+      "epoch": 0.2588996763754045,
+      "grad_norm": 3.6308693885803223,
+      "learning_rate": 0.00014373073204588556,
+      "loss": 9.4655,
+      "step": 220
+    },
+    {
+      "epoch": 0.27066784348337747,
+      "grad_norm": 0.5690402388572693,
+      "learning_rate": 0.00013888241754733208,
+      "loss": 9.4397,
+      "step": 230
+    },
+    {
+      "epoch": 0.2824360105913504,
+      "grad_norm": 0.5628238916397095,
+      "learning_rate": 0.00013392388661180303,
+      "loss": 9.4196,
+      "step": 240
+    },
+    {
+      "epoch": 0.29420417769932333,
+      "grad_norm": 0.5627617835998535,
+      "learning_rate": 0.0001288691947339621,
+      "loss": 9.3916,
+      "step": 250
+    },
+    {
+      "epoch": 0.29420417769932333,
+      "eval_loss": 9.378963470458984,
+      "eval_runtime": 3.1537,
+      "eval_samples_per_second": 454.067,
+      "eval_steps_per_second": 113.517,
+      "step": 250
+    },
+    {
+      "epoch": 0.30597234480729624,
+      "grad_norm": 0.5669119954109192,
+      "learning_rate": 0.0001237326699871115,
+      "loss": 9.3743,
+      "step": 260
+    },
+    {
+      "epoch": 0.3177405119152692,
+      "grad_norm": 0.5632140040397644,
+      "learning_rate": 0.00011852887240871145,
+      "loss": 9.3444,
+      "step": 270
+    },
+    {
+      "epoch": 0.32950867902324216,
+      "grad_norm": 0.5589627623558044,
+      "learning_rate": 0.00011327255272837221,
+      "loss": 9.3176,
+      "step": 280
+    },
+    {
+      "epoch": 0.34127684613121506,
+      "grad_norm": 0.5277190208435059,
+      "learning_rate": 0.00010797861055530831,
+      "loss": 9.2899,
+      "step": 290
+    },
+    {
+      "epoch": 0.353045013239188,
+      "grad_norm": 0.5792800784111023,
+      "learning_rate": 0.00010266205214377748,
+      "loss": 9.2735,
+      "step": 300
+    },
+    {
+      "epoch": 0.353045013239188,
+      "eval_loss": 9.273290634155273,
+      "eval_runtime": 3.1419,
+      "eval_samples_per_second": 455.778,
+      "eval_steps_per_second": 113.945,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 64247775363072.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null