Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a4eb20df0311e6f6bbacacdd30a50a8605e6d67ea54db4b6b5c88159faf8929
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:00789afdf1298113eb5db8f405596c2943b3740715f3a974fba6eb4cb82ffb85
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b189bb37771004e6fda5c8c303fb008775d43cbef06a52fb72472646aaa70e9b
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:51de54048560f61b1fffadcce54ac9ca17cf9088f9317cae4b99d07672a1993f
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd4323d146bdd5eca8ff387897d83c707dc98b0b1c889243384b51e24cf7a3c7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd41f0eb63f76991fd9773adcdcd219526a8c1ac4271f5e0f155536249e18f2e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff52bfbef9cf63f1b4a99aeb499cfc330b3f7bf178a825c21249094bbf544e39
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a046f3bc9d619a7e62601f3cf33ff02f6ad189db5b564eab88c1bb00e13b059d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3799381256103516,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0015640396014827095,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 9.257,
       "eval_steps_per_second": 2.315,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.806637019745485e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3124351501464844,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.003128079202965419,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.257,
       "eval_steps_per_second": 2.315,
       "step": 50
+    },
+    {
+      "epoch": 0.0015953203935123637,
+      "grad_norm": 3.6396615505218506,
+      "learning_rate": 7.944052631578947e-05,
+      "loss": 1.8916,
+      "step": 51
+    },
+    {
+      "epoch": 0.0016266011855420178,
+      "grad_norm": 5.276243686676025,
+      "learning_rate": 7.890736842105263e-05,
+      "loss": 2.152,
+      "step": 52
+    },
+    {
+      "epoch": 0.0016578819775716722,
+      "grad_norm": 3.8016412258148193,
+      "learning_rate": 7.837421052631579e-05,
+      "loss": 2.4937,
+      "step": 53
+    },
+    {
+      "epoch": 0.0016891627696013264,
+      "grad_norm": 5.2608866691589355,
+      "learning_rate": 7.784105263157893e-05,
+      "loss": 2.9087,
+      "step": 54
+    },
+    {
+      "epoch": 0.0017204435616309805,
+      "grad_norm": 6.502185821533203,
+      "learning_rate": 7.730789473684211e-05,
+      "loss": 2.9029,
+      "step": 55
+    },
+    {
+      "epoch": 0.0017517243536606347,
+      "grad_norm": 8.368294715881348,
+      "learning_rate": 7.677473684210526e-05,
+      "loss": 3.5712,
+      "step": 56
+    },
+    {
+      "epoch": 0.0017830051456902889,
+      "grad_norm": 7.264784336090088,
+      "learning_rate": 7.624157894736842e-05,
+      "loss": 3.641,
+      "step": 57
+    },
+    {
+      "epoch": 0.001814285937719943,
+      "grad_norm": 5.740438938140869,
+      "learning_rate": 7.570842105263158e-05,
+      "loss": 3.4282,
+      "step": 58
+    },
+    {
+      "epoch": 0.0018455667297495972,
+      "grad_norm": 8.016144752502441,
+      "learning_rate": 7.517526315789474e-05,
+      "loss": 2.8895,
+      "step": 59
+    },
+    {
+      "epoch": 0.0018768475217792514,
+      "grad_norm": 5.884403705596924,
+      "learning_rate": 7.464210526315789e-05,
+      "loss": 3.003,
+      "step": 60
+    },
+    {
+      "epoch": 0.0019081283138089055,
+      "grad_norm": 4.902200698852539,
+      "learning_rate": 7.410894736842106e-05,
+      "loss": 2.6912,
+      "step": 61
+    },
+    {
+      "epoch": 0.00193940910583856,
+      "grad_norm": 5.990637302398682,
+      "learning_rate": 7.35757894736842e-05,
+      "loss": 3.2658,
+      "step": 62
+    },
+    {
+      "epoch": 0.001970689897868214,
+      "grad_norm": 6.27999210357666,
+      "learning_rate": 7.304263157894737e-05,
+      "loss": 2.6262,
+      "step": 63
+    },
+    {
+      "epoch": 0.002001970689897868,
+      "grad_norm": 6.293524742126465,
+      "learning_rate": 7.250947368421053e-05,
+      "loss": 2.9332,
+      "step": 64
+    },
+    {
+      "epoch": 0.0020332514819275224,
+      "grad_norm": 5.076088905334473,
+      "learning_rate": 7.197631578947368e-05,
+      "loss": 2.4266,
+      "step": 65
+    },
+    {
+      "epoch": 0.0020645322739571764,
+      "grad_norm": 8.73829174041748,
+      "learning_rate": 7.144315789473684e-05,
+      "loss": 2.8764,
+      "step": 66
+    },
+    {
+      "epoch": 0.0020958130659868308,
+      "grad_norm": 6.070854663848877,
+      "learning_rate": 7.091e-05,
+      "loss": 2.3547,
+      "step": 67
+    },
+    {
+      "epoch": 0.002127093858016485,
+      "grad_norm": 6.758303642272949,
+      "learning_rate": 7.037684210526316e-05,
+      "loss": 2.4258,
+      "step": 68
+    },
+    {
+      "epoch": 0.002158374650046139,
+      "grad_norm": 6.710521221160889,
+      "learning_rate": 6.984368421052632e-05,
+      "loss": 2.8411,
+      "step": 69
+    },
+    {
+      "epoch": 0.0021896554420757935,
+      "grad_norm": 5.664976119995117,
+      "learning_rate": 6.931052631578947e-05,
+      "loss": 2.7535,
+      "step": 70
+    },
+    {
+      "epoch": 0.0022209362341054474,
+      "grad_norm": 5.253357887268066,
+      "learning_rate": 6.877736842105263e-05,
+      "loss": 2.4245,
+      "step": 71
+    },
+    {
+      "epoch": 0.002252217026135102,
+      "grad_norm": 7.573156833648682,
+      "learning_rate": 6.824421052631579e-05,
+      "loss": 2.8877,
+      "step": 72
+    },
+    {
+      "epoch": 0.0022834978181647558,
+      "grad_norm": 7.890182971954346,
+      "learning_rate": 6.771105263157895e-05,
+      "loss": 2.8596,
+      "step": 73
+    },
+    {
+      "epoch": 0.00231477861019441,
+      "grad_norm": 6.137823104858398,
+      "learning_rate": 6.71778947368421e-05,
+      "loss": 2.5406,
+      "step": 74
+    },
+    {
+      "epoch": 0.002346059402224064,
+      "grad_norm": 6.550741195678711,
+      "learning_rate": 6.664473684210527e-05,
+      "loss": 2.3237,
+      "step": 75
+    },
+    {
+      "epoch": 0.0023773401942537185,
+      "grad_norm": 7.004899978637695,
+      "learning_rate": 6.611157894736842e-05,
+      "loss": 2.1531,
+      "step": 76
+    },
+    {
+      "epoch": 0.002408620986283373,
+      "grad_norm": 6.756047248840332,
+      "learning_rate": 6.557842105263158e-05,
+      "loss": 2.5744,
+      "step": 77
+    },
+    {
+      "epoch": 0.002439901778313027,
+      "grad_norm": 8.45261287689209,
+      "learning_rate": 6.504526315789474e-05,
+      "loss": 2.2788,
+      "step": 78
+    },
+    {
+      "epoch": 0.0024711825703426812,
+      "grad_norm": 7.253743648529053,
+      "learning_rate": 6.451210526315789e-05,
+      "loss": 2.7263,
+      "step": 79
+    },
+    {
+      "epoch": 0.002502463362372335,
+      "grad_norm": 7.247540473937988,
+      "learning_rate": 6.397894736842105e-05,
+      "loss": 2.0866,
+      "step": 80
+    },
+    {
+      "epoch": 0.0025337441544019896,
+      "grad_norm": 6.436933994293213,
+      "learning_rate": 6.344578947368421e-05,
+      "loss": 2.6969,
+      "step": 81
+    },
+    {
+      "epoch": 0.0025650249464316435,
+      "grad_norm": 6.152482509613037,
+      "learning_rate": 6.291263157894737e-05,
+      "loss": 2.7461,
+      "step": 82
+    },
+    {
+      "epoch": 0.002596305738461298,
+      "grad_norm": 7.333639621734619,
+      "learning_rate": 6.237947368421053e-05,
+      "loss": 2.6492,
+      "step": 83
+    },
+    {
+      "epoch": 0.002627586530490952,
+      "grad_norm": 5.620179176330566,
+      "learning_rate": 6.184631578947368e-05,
+      "loss": 2.432,
+      "step": 84
+    },
+    {
+      "epoch": 0.0026588673225206062,
+      "grad_norm": 6.900599479675293,
+      "learning_rate": 6.131315789473684e-05,
+      "loss": 2.4198,
+      "step": 85
+    },
+    {
+      "epoch": 0.0026901481145502606,
+      "grad_norm": 7.6465559005737305,
+      "learning_rate": 6.078e-05,
+      "loss": 2.1368,
+      "step": 86
+    },
+    {
+      "epoch": 0.0027214289065799146,
+      "grad_norm": 7.627400875091553,
+      "learning_rate": 6.024684210526315e-05,
+      "loss": 2.3818,
+      "step": 87
+    },
+    {
+      "epoch": 0.002752709698609569,
+      "grad_norm": 7.236347198486328,
+      "learning_rate": 5.9713684210526305e-05,
+      "loss": 2.2773,
+      "step": 88
+    },
+    {
+      "epoch": 0.002783990490639223,
+      "grad_norm": 9.498893737792969,
+      "learning_rate": 5.918052631578947e-05,
+      "loss": 2.6348,
+      "step": 89
+    },
+    {
+      "epoch": 0.0028152712826688773,
+      "grad_norm": 6.960134983062744,
+      "learning_rate": 5.8647368421052634e-05,
+      "loss": 2.4035,
+      "step": 90
+    },
+    {
+      "epoch": 0.0028465520746985312,
+      "grad_norm": 7.996723651885986,
+      "learning_rate": 5.811421052631579e-05,
+      "loss": 2.4397,
+      "step": 91
+    },
+    {
+      "epoch": 0.0028778328667281856,
+      "grad_norm": 8.388598442077637,
+      "learning_rate": 5.758105263157894e-05,
+      "loss": 2.3052,
+      "step": 92
+    },
+    {
+      "epoch": 0.0029091136587578396,
+      "grad_norm": 9.838214874267578,
+      "learning_rate": 5.70478947368421e-05,
+      "loss": 2.1201,
+      "step": 93
+    },
+    {
+      "epoch": 0.002940394450787494,
+      "grad_norm": 7.014636039733887,
+      "learning_rate": 5.6514736842105256e-05,
+      "loss": 1.9283,
+      "step": 94
+    },
+    {
+      "epoch": 0.0029716752428171483,
+      "grad_norm": 6.765852928161621,
+      "learning_rate": 5.5981578947368424e-05,
+      "loss": 2.1875,
+      "step": 95
+    },
+    {
+      "epoch": 0.0030029560348468023,
+      "grad_norm": 7.371057033538818,
+      "learning_rate": 5.544842105263158e-05,
+      "loss": 2.3463,
+      "step": 96
+    },
+    {
+      "epoch": 0.0030342368268764567,
+      "grad_norm": 9.242403030395508,
+      "learning_rate": 5.491526315789474e-05,
+      "loss": 2.9248,
+      "step": 97
+    },
+    {
+      "epoch": 0.0030655176189061106,
+      "grad_norm": 7.47991943359375,
+      "learning_rate": 5.438210526315789e-05,
+      "loss": 2.5732,
+      "step": 98
+    },
+    {
+      "epoch": 0.003096798410935765,
+      "grad_norm": 10.116243362426758,
+      "learning_rate": 5.384894736842105e-05,
+      "loss": 3.2258,
+      "step": 99
+    },
+    {
+      "epoch": 0.003128079202965419,
+      "grad_norm": 10.563674926757812,
+      "learning_rate": 5.331578947368421e-05,
+      "loss": 2.8873,
+      "step": 100
+    },
+    {
+      "epoch": 0.003128079202965419,
+      "eval_loss": 1.3124351501464844,
+      "eval_runtime": 1453.2201,
+      "eval_samples_per_second": 9.263,
+      "eval_steps_per_second": 2.316,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.61327403949097e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null