Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1f82c651e066acfb676ce6604f1839c34b21b6847201e0fbed494a9f5722380
 size 1157746040

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4dca720a9cbb8104757049d88a2920f5195dcff857e59d79733a80c3381fbe2
 size 1157746040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:308424276f75cd102ec7188162807dcec81712d6a4ecaded4c3206c5ead2e25d
 size 588699796

 version https://git-lfs.github.com/spec/v1
+oid sha256:18c3bb0c70c1eef45e29ef9608f17dbdc8c3ea0f5db2d3d14839bc3d34c35ea2
 size 588699796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40b99ec50d36f8b66e69a4933a4d39b2d9159cc8543cf6adefe72e1e6765f73f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:54143f3da491c42a3417dc7ef69ceeab159d8c1e743e951e84083bfc733f3d88
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d94dee72c7d02de6c69d9fa4cc2d9dd3225f09ac52c6adcb59ec7bae1df8f10
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b26348e70deb5f7d6cee52f5eb084c0e6829440001a3c6d0128b93cd074af8c2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8196816444396973,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.8281573498964804,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 6.325,
       "eval_steps_per_second": 1.581,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.373606698567598e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8175904750823975,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 1.2422360248447206,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.325,
       "eval_steps_per_second": 1.581,
       "step": 100
+    },
+    {
+      "epoch": 0.8364389233954451,
+      "grad_norm": 0.3054017126560211,
+      "learning_rate": 3.7313170451399475e-05,
+      "loss": 0.7171,
+      "step": 101
+    },
+    {
+      "epoch": 0.84472049689441,
+      "grad_norm": 0.2971940040588379,
+      "learning_rate": 3.673543141356278e-05,
+      "loss": 0.7747,
+      "step": 102
+    },
+    {
+      "epoch": 0.8530020703933747,
+      "grad_norm": 0.28216373920440674,
+      "learning_rate": 3.6157217926105783e-05,
+      "loss": 0.7735,
+      "step": 103
+    },
+    {
+      "epoch": 0.8612836438923396,
+      "grad_norm": 0.3302093744277954,
+      "learning_rate": 3.557868806682255e-05,
+      "loss": 0.7433,
+      "step": 104
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.39043137431144714,
+      "learning_rate": 3.5e-05,
+      "loss": 0.8474,
+      "step": 105
+    },
+    {
+      "epoch": 0.8778467908902692,
+      "grad_norm": 0.3387686312198639,
+      "learning_rate": 3.442131193317745e-05,
+      "loss": 0.7744,
+      "step": 106
+    },
+    {
+      "epoch": 0.8861283643892339,
+      "grad_norm": 0.3744807243347168,
+      "learning_rate": 3.384278207389421e-05,
+      "loss": 0.844,
+      "step": 107
+    },
+    {
+      "epoch": 0.8944099378881988,
+      "grad_norm": 0.3628387749195099,
+      "learning_rate": 3.3264568586437216e-05,
+      "loss": 0.7452,
+      "step": 108
+    },
+    {
+      "epoch": 0.9026915113871635,
+      "grad_norm": 0.34833672642707825,
+      "learning_rate": 3.268682954860052e-05,
+      "loss": 0.727,
+      "step": 109
+    },
+    {
+      "epoch": 0.9109730848861284,
+      "grad_norm": 0.38752731680870056,
+      "learning_rate": 3.210972290846837e-05,
+      "loss": 0.7226,
+      "step": 110
+    },
+    {
+      "epoch": 0.9192546583850931,
+      "grad_norm": 0.4460507035255432,
+      "learning_rate": 3.15334064412338e-05,
+      "loss": 0.783,
+      "step": 111
+    },
+    {
+      "epoch": 0.927536231884058,
+      "grad_norm": 0.4155882000923157,
+      "learning_rate": 3.0958037706064485e-05,
+      "loss": 0.7733,
+      "step": 112
+    },
+    {
+      "epoch": 0.9358178053830227,
+      "grad_norm": 0.42916351556777954,
+      "learning_rate": 3.038377400302758e-05,
+      "loss": 0.8132,
+      "step": 113
+    },
+    {
+      "epoch": 0.9440993788819876,
+      "grad_norm": 0.40436169505119324,
+      "learning_rate": 2.9810772330085524e-05,
+      "loss": 0.7043,
+      "step": 114
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.5273613333702087,
+      "learning_rate": 2.9239189340174306e-05,
+      "loss": 0.8491,
+      "step": 115
+    },
+    {
+      "epoch": 0.9606625258799172,
+      "grad_norm": 0.5109385848045349,
+      "learning_rate": 2.8669181298376163e-05,
+      "loss": 0.7627,
+      "step": 116
+    },
+    {
+      "epoch": 0.968944099378882,
+      "grad_norm": 0.6382851600646973,
+      "learning_rate": 2.8100904039198193e-05,
+      "loss": 0.7009,
+      "step": 117
+    },
+    {
+      "epoch": 0.9772256728778468,
+      "grad_norm": 0.6231806874275208,
+      "learning_rate": 2.7534512923968863e-05,
+      "loss": 1.0499,
+      "step": 118
+    },
+    {
+      "epoch": 0.9855072463768116,
+      "grad_norm": 0.8011189103126526,
+      "learning_rate": 2.6970162798363695e-05,
+      "loss": 0.9278,
+      "step": 119
+    },
+    {
+      "epoch": 0.9937888198757764,
+      "grad_norm": 0.8758801221847534,
+      "learning_rate": 2.640800795007203e-05,
+      "loss": 1.0722,
+      "step": 120
+    },
+    {
+      "epoch": 1.0020703933747412,
+      "grad_norm": 0.6602959632873535,
+      "learning_rate": 2.5848202066616305e-05,
+      "loss": 0.8362,
+      "step": 121
+    },
+    {
+      "epoch": 1.010351966873706,
+      "grad_norm": 0.22043457627296448,
+      "learning_rate": 2.5290898193335446e-05,
+      "loss": 0.6068,
+      "step": 122
+    },
+    {
+      "epoch": 1.0186335403726707,
+      "grad_norm": 0.2249661386013031,
+      "learning_rate": 2.4736248691543736e-05,
+      "loss": 0.6206,
+      "step": 123
+    },
+    {
+      "epoch": 1.0269151138716357,
+      "grad_norm": 0.23550471663475037,
+      "learning_rate": 2.4184405196876842e-05,
+      "loss": 0.7048,
+      "step": 124
+    },
+    {
+      "epoch": 1.0351966873706004,
+      "grad_norm": 0.2546531856060028,
+      "learning_rate": 2.363551857783608e-05,
+      "loss": 0.6356,
+      "step": 125
+    },
+    {
+      "epoch": 1.0434782608695652,
+      "grad_norm": 0.23183418810367584,
+      "learning_rate": 2.308973889454249e-05,
+      "loss": 0.7009,
+      "step": 126
+    },
+    {
+      "epoch": 1.05175983436853,
+      "grad_norm": 0.23346415162086487,
+      "learning_rate": 2.2547215357711918e-05,
+      "loss": 0.5939,
+      "step": 127
+    },
+    {
+      "epoch": 1.060041407867495,
+      "grad_norm": 0.24210385978221893,
+      "learning_rate": 2.2008096287862266e-05,
+      "loss": 0.7173,
+      "step": 128
+    },
+    {
+      "epoch": 1.0683229813664596,
+      "grad_norm": 0.22531944513320923,
+      "learning_rate": 2.1472529074764177e-05,
+      "loss": 0.5273,
+      "step": 129
+    },
+    {
+      "epoch": 1.0766045548654244,
+      "grad_norm": 0.25816595554351807,
+      "learning_rate": 2.0940660137146074e-05,
+      "loss": 0.6477,
+      "step": 130
+    },
+    {
+      "epoch": 1.0848861283643891,
+      "grad_norm": 0.2804325520992279,
+      "learning_rate": 2.041263488266484e-05,
+      "loss": 0.6571,
+      "step": 131
+    },
+    {
+      "epoch": 1.093167701863354,
+      "grad_norm": 0.274699330329895,
+      "learning_rate": 1.988859766815275e-05,
+      "loss": 0.6704,
+      "step": 132
+    },
+    {
+      "epoch": 1.1014492753623188,
+      "grad_norm": 0.26135748624801636,
+      "learning_rate": 1.9368691760151773e-05,
+      "loss": 0.6641,
+      "step": 133
+    },
+    {
+      "epoch": 1.1097308488612836,
+      "grad_norm": 0.3417491912841797,
+      "learning_rate": 1.885305929574593e-05,
+      "loss": 0.8094,
+      "step": 134
+    },
+    {
+      "epoch": 1.1180124223602483,
+      "grad_norm": 0.2966398298740387,
+      "learning_rate": 1.8341841243702424e-05,
+      "loss": 0.7448,
+      "step": 135
+    },
+    {
+      "epoch": 1.1262939958592133,
+      "grad_norm": 0.29686564207077026,
+      "learning_rate": 1.7835177365932225e-05,
+      "loss": 0.6288,
+      "step": 136
+    },
+    {
+      "epoch": 1.134575569358178,
+      "grad_norm": 0.332364946603775,
+      "learning_rate": 1.7333206179280478e-05,
+      "loss": 0.7955,
+      "step": 137
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.3861692249774933,
+      "learning_rate": 1.6836064917657478e-05,
+      "loss": 0.6987,
+      "step": 138
+    },
+    {
+      "epoch": 1.1511387163561078,
+      "grad_norm": 0.351142555475235,
+      "learning_rate": 1.6343889494520224e-05,
+      "loss": 0.72,
+      "step": 139
+    },
+    {
+      "epoch": 1.1594202898550725,
+      "grad_norm": 0.3705615997314453,
+      "learning_rate": 1.5856814465715064e-05,
+      "loss": 0.5818,
+      "step": 140
+    },
+    {
+      "epoch": 1.1677018633540373,
+      "grad_norm": 0.36091944575309753,
+      "learning_rate": 1.5374972992691458e-05,
+      "loss": 0.6673,
+      "step": 141
+    },
+    {
+      "epoch": 1.175983436853002,
+      "grad_norm": 0.39567896723747253,
+      "learning_rate": 1.4898496806096974e-05,
+      "loss": 0.6597,
+      "step": 142
+    },
+    {
+      "epoch": 1.184265010351967,
+      "grad_norm": 0.38994473218917847,
+      "learning_rate": 1.4427516169763444e-05,
+      "loss": 0.6453,
+      "step": 143
+    },
+    {
+      "epoch": 1.1925465838509317,
+      "grad_norm": 0.4518220126628876,
+      "learning_rate": 1.396215984509412e-05,
+      "loss": 0.7173,
+      "step": 144
+    },
+    {
+      "epoch": 1.2008281573498965,
+      "grad_norm": 0.4618150591850281,
+      "learning_rate": 1.3502555055861625e-05,
+      "loss": 0.6811,
+      "step": 145
+    },
+    {
+      "epoch": 1.2091097308488612,
+      "grad_norm": 0.4686547517776489,
+      "learning_rate": 1.3048827453426203e-05,
+      "loss": 0.6195,
+      "step": 146
+    },
+    {
+      "epoch": 1.2173913043478262,
+      "grad_norm": 0.4487763047218323,
+      "learning_rate": 1.2601101082383917e-05,
+      "loss": 0.6075,
+      "step": 147
+    },
+    {
+      "epoch": 1.225672877846791,
+      "grad_norm": 0.5483669638633728,
+      "learning_rate": 1.2159498346654094e-05,
+      "loss": 0.6045,
+      "step": 148
+    },
+    {
+      "epoch": 1.2339544513457557,
+      "grad_norm": 0.573219358921051,
+      "learning_rate": 1.1724139976015306e-05,
+      "loss": 0.7711,
+      "step": 149
+    },
+    {
+      "epoch": 1.2422360248447206,
+      "grad_norm": 0.6374213099479675,
+      "learning_rate": 1.1295144993099068e-05,
+      "loss": 0.6176,
+      "step": 150
+    },
+    {
+      "epoch": 1.2422360248447206,
+      "eval_loss": 0.8175904750823975,
+      "eval_runtime": 32.7299,
+      "eval_samples_per_second": 6.233,
+      "eval_steps_per_second": 1.558,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.887933580140872e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null