Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f8b17838efa305193c9bbccc4b3fbe63a34f2db38adf70e28420c75460d3994
 size 100966336

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b2d074aab499d9f80bddf337d0040a5830648d9c389b9b8224fac118d49e0c3
 size 100966336

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52db5d30338d1dc61e4f024548240a7e9a9ceca896561d8369570e43300058b7
 size 51613668

 version https://git-lfs.github.com/spec/v1
+oid sha256:4160a0bc908544956e44c09f66a7a1476e98b135bf884d5322db7950786f491c
 size 51613668

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:019cea10a2ea963ce36b980aa95f96cb1364758a9b5a5a0a5acdc9b99d5f64ec
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:816123bdea76b0b8211255a74e4532d61283c516b9776b7a83d70742a8c3b82c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8d9346c4fcc90fb1ec8546736583b76a4fae6bc25cb93181337c187d15da94a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:70f0f789b56065211b8c0b1a5e2a97dd0b5b08a816bbbe288fb6f9c677282af9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.248772382736206,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.030935010698357867,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,135 @@
       "eval_samples_per_second": 48.971,
       "eval_steps_per_second": 12.244,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -301,7 +430,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.281876055313613e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.169210910797119,
+  "best_model_checkpoint": "miner_id_24/checkpoint-450",
+  "epoch": 0.0464025160475368,
   "eval_steps": 50,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 48.971,
       "eval_steps_per_second": 12.244,
       "step": 300
+    },
+    {
+      "epoch": 0.031966177721636464,
+      "grad_norm": 0.5608008503913879,
+      "learning_rate": 9.733794785622253e-05,
+      "loss": 1.7371,
+      "step": 310
+    },
+    {
+      "epoch": 0.03299734474491506,
+      "grad_norm": 1.3526793718338013,
+      "learning_rate": 9.202138944469168e-05,
+      "loss": 2.1361,
+      "step": 320
+    },
+    {
+      "epoch": 0.03402851176819365,
+      "grad_norm": 1.3870782852172852,
+      "learning_rate": 8.672744727162781e-05,
+      "loss": 2.6702,
+      "step": 330
+    },
+    {
+      "epoch": 0.035059678791472246,
+      "grad_norm": 2.1156375408172607,
+      "learning_rate": 8.147112759128859e-05,
+      "loss": 2.1889,
+      "step": 340
+    },
+    {
+      "epoch": 0.036090845814750847,
+      "grad_norm": 3.8267505168914795,
+      "learning_rate": 7.626733001288851e-05,
+      "loss": 2.1682,
+      "step": 350
+    },
+    {
+      "epoch": 0.036090845814750847,
+      "eval_loss": 2.2239229679107666,
+      "eval_runtime": 334.0546,
+      "eval_samples_per_second": 48.896,
+      "eval_steps_per_second": 12.226,
+      "step": 350
+    },
+    {
+      "epoch": 0.03712201283802944,
+      "grad_norm": 0.6449031829833984,
+      "learning_rate": 7.113080526603792e-05,
+      "loss": 1.7428,
+      "step": 360
+    },
+    {
+      "epoch": 0.038153179861308034,
+      "grad_norm": 1.3239842653274536,
+      "learning_rate": 6.607611338819697e-05,
+      "loss": 2.0759,
+      "step": 370
+    },
+    {
+      "epoch": 0.03918434688458663,
+      "grad_norm": 1.4793647527694702,
+      "learning_rate": 6.111758245266794e-05,
+      "loss": 2.6362,
+      "step": 380
+    },
+    {
+      "epoch": 0.04021551390786523,
+      "grad_norm": 1.840112328529358,
+      "learning_rate": 5.626926795411447e-05,
+      "loss": 2.2387,
+      "step": 390
+    },
+    {
+      "epoch": 0.04124668093114382,
+      "grad_norm": 3.4163084030151367,
+      "learning_rate": 5.1544912966734994e-05,
+      "loss": 2.0834,
+      "step": 400
+    },
+    {
+      "epoch": 0.04124668093114382,
+      "eval_loss": 2.179900646209717,
+      "eval_runtime": 332.5638,
+      "eval_samples_per_second": 49.115,
+      "eval_steps_per_second": 12.28,
+      "step": 400
+    },
+    {
+      "epoch": 0.042277847954422416,
+      "grad_norm": 0.5676496624946594,
+      "learning_rate": 4.695790918802576e-05,
+      "loss": 1.7509,
+      "step": 410
+    },
+    {
+      "epoch": 0.04330901497770101,
+      "grad_norm": 1.6149543523788452,
+      "learning_rate": 4.252125897855932e-05,
+      "loss": 2.2587,
+      "step": 420
+    },
+    {
+      "epoch": 0.04434018200097961,
+      "grad_norm": 1.5459808111190796,
+      "learning_rate": 3.824753850538082e-05,
+      "loss": 2.6127,
+      "step": 430
+    },
+    {
+      "epoch": 0.045371349024258205,
+      "grad_norm": 2.0725579261779785,
+      "learning_rate": 3.414886209349615e-05,
+      "loss": 2.1811,
+      "step": 440
+    },
+    {
+      "epoch": 0.0464025160475368,
+      "grad_norm": 3.765904426574707,
+      "learning_rate": 3.0236847886501542e-05,
+      "loss": 2.1086,
+      "step": 450
+    },
+    {
+      "epoch": 0.0464025160475368,
+      "eval_loss": 2.169210910797119,
+      "eval_runtime": 333.7041,
+      "eval_samples_per_second": 48.948,
+      "eval_steps_per_second": 12.238,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.42281408297042e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null