Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec96824e1ff102827892eee5f5cdc8561fa38ff68e933e5d53a064fbc07dff40
 size 59021064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e140581cf97c2ff49feded27279cbd08eace0495f5afd12562fa8c1906693ba4
 size 59021064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eff7db8b15de2eac66a5884727b78b8976cd97a92097182396b6546808795750
 size 30290452

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba59ea4e8eba7f0640208573e688cfef98d93f03d724499b344550aa047c5607
 size 30290452

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:347b832840722999395c0ab8798861062651672803889236fbfc6f0c86443262
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8abf2c3a2d675d09f86f31a4bbaac529a18147ee9c2568ece2b0294dff92a441
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a901b2f24739241604b39afb865dbd28e3e91e20879381578494b9e0ca03a34
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe86356e82949734df1ffbf4ca1d6d4aad55d9e61b90271979f2d574e6a34d95
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.1754626456477038,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -707,6 +707,356 @@
       "learning_rate": 1.769911504424779e-05,
       "loss": 2.72,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -726,7 +1076,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1759429300977664e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.2631939684715556,
   "eval_steps": 500,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.769911504424779e-05,
       "loss": 2.72,
       "step": 100
+    },
+    {
+      "epoch": 2.197395476353667,
+      "grad_norm": 0.27964890003204346,
+      "learning_rate": 1.7876106194690265e-05,
+      "loss": 2.703,
+      "step": 101
+    },
+    {
+      "epoch": 2.2193283070596297,
+      "grad_norm": 0.23122280836105347,
+      "learning_rate": 1.8053097345132743e-05,
+      "loss": 2.6755,
+      "step": 102
+    },
+    {
+      "epoch": 2.241261137765593,
+      "grad_norm": 0.13872268795967102,
+      "learning_rate": 1.823008849557522e-05,
+      "loss": 2.5387,
+      "step": 103
+    },
+    {
+      "epoch": 2.2631939684715556,
+      "grad_norm": 0.15757662057876587,
+      "learning_rate": 1.8407079646017702e-05,
+      "loss": 2.7089,
+      "step": 104
+    },
+    {
+      "epoch": 2.285126799177519,
+      "grad_norm": 0.14636781811714172,
+      "learning_rate": 1.858407079646018e-05,
+      "loss": 2.7059,
+      "step": 105
+    },
+    {
+      "epoch": 2.307059629883482,
+      "grad_norm": 0.12666302919387817,
+      "learning_rate": 1.8761061946902657e-05,
+      "loss": 2.677,
+      "step": 106
+    },
+    {
+      "epoch": 2.3289924605894448,
+      "grad_norm": 0.09550761431455612,
+      "learning_rate": 1.8938053097345135e-05,
+      "loss": 2.5572,
+      "step": 107
+    },
+    {
+      "epoch": 2.350925291295408,
+      "grad_norm": 0.22307220101356506,
+      "learning_rate": 1.9115044247787613e-05,
+      "loss": 2.5424,
+      "step": 108
+    },
+    {
+      "epoch": 2.3728581220013707,
+      "grad_norm": 0.1976032704114914,
+      "learning_rate": 1.929203539823009e-05,
+      "loss": 2.608,
+      "step": 109
+    },
+    {
+      "epoch": 2.394790952707334,
+      "grad_norm": 0.1282164454460144,
+      "learning_rate": 1.946902654867257e-05,
+      "loss": 2.6157,
+      "step": 110
+    },
+    {
+      "epoch": 2.4167237834132966,
+      "grad_norm": 0.12939345836639404,
+      "learning_rate": 1.9646017699115046e-05,
+      "loss": 2.631,
+      "step": 111
+    },
+    {
+      "epoch": 2.43865661411926,
+      "grad_norm": 0.1813574880361557,
+      "learning_rate": 1.9823008849557524e-05,
+      "loss": 2.5653,
+      "step": 112
+    },
+    {
+      "epoch": 2.4605894448252226,
+      "grad_norm": 0.21558630466461182,
+      "learning_rate": 2e-05,
+      "loss": 2.6836,
+      "step": 113
+    },
+    {
+      "epoch": 2.4825222755311858,
+      "grad_norm": 0.1171233206987381,
+      "learning_rate": 1.9999989194107888e-05,
+      "loss": 2.6329,
+      "step": 114
+    },
+    {
+      "epoch": 2.504455106237149,
+      "grad_norm": 0.09073666483163834,
+      "learning_rate": 1.9999956776454904e-05,
+      "loss": 2.6365,
+      "step": 115
+    },
+    {
+      "epoch": 2.5263879369431117,
+      "grad_norm": 0.15764959156513214,
+      "learning_rate": 1.999990274711111e-05,
+      "loss": 2.5957,
+      "step": 116
+    },
+    {
+      "epoch": 2.5483207676490744,
+      "grad_norm": 0.1431242674589157,
+      "learning_rate": 1.9999827106193264e-05,
+      "loss": 2.6047,
+      "step": 117
+    },
+    {
+      "epoch": 2.5702535983550376,
+      "grad_norm": 0.14802202582359314,
+      "learning_rate": 1.9999729853864854e-05,
+      "loss": 2.7031,
+      "step": 118
+    },
+    {
+      "epoch": 2.592186429061001,
+      "grad_norm": 0.1163327619433403,
+      "learning_rate": 1.999961099033605e-05,
+      "loss": 2.5701,
+      "step": 119
+    },
+    {
+      "epoch": 2.6141192597669636,
+      "grad_norm": 0.12083975225687027,
+      "learning_rate": 1.9999470515863738e-05,
+      "loss": 2.5481,
+      "step": 120
+    },
+    {
+      "epoch": 2.6360520904729268,
+      "grad_norm": 0.11876373738050461,
+      "learning_rate": 1.9999308430751513e-05,
+      "loss": 2.6219,
+      "step": 121
+    },
+    {
+      "epoch": 2.6579849211788895,
+      "grad_norm": 0.12213423103094101,
+      "learning_rate": 1.9999124735349666e-05,
+      "loss": 2.5822,
+      "step": 122
+    },
+    {
+      "epoch": 2.6799177518848527,
+      "grad_norm": 0.1777854710817337,
+      "learning_rate": 1.9998919430055193e-05,
+      "loss": 2.6359,
+      "step": 123
+    },
+    {
+      "epoch": 2.701850582590816,
+      "grad_norm": 0.10676445066928864,
+      "learning_rate": 1.9998692515311806e-05,
+      "loss": 2.6015,
+      "step": 124
+    },
+    {
+      "epoch": 2.7237834132967786,
+      "grad_norm": 0.08957359939813614,
+      "learning_rate": 1.9998443991609897e-05,
+      "loss": 2.6041,
+      "step": 125
+    },
+    {
+      "epoch": 2.7457162440027414,
+      "grad_norm": 0.14414869248867035,
+      "learning_rate": 1.9998173859486575e-05,
+      "loss": 2.6832,
+      "step": 126
+    },
+    {
+      "epoch": 2.7676490747087046,
+      "grad_norm": 0.14377790689468384,
+      "learning_rate": 1.9997882119525644e-05,
+      "loss": 2.502,
+      "step": 127
+    },
+    {
+      "epoch": 2.7895819054146678,
+      "grad_norm": 0.14488162100315094,
+      "learning_rate": 1.9997568772357603e-05,
+      "loss": 2.6653,
+      "step": 128
+    },
+    {
+      "epoch": 2.8115147361206305,
+      "grad_norm": 0.10184569656848907,
+      "learning_rate": 1.999723381865965e-05,
+      "loss": 2.6141,
+      "step": 129
+    },
+    {
+      "epoch": 2.8334475668265937,
+      "grad_norm": 0.08704333007335663,
+      "learning_rate": 1.999687725915569e-05,
+      "loss": 2.7103,
+      "step": 130
+    },
+    {
+      "epoch": 2.8553803975325565,
+      "grad_norm": 0.09079142659902573,
+      "learning_rate": 1.99964990946163e-05,
+      "loss": 2.4572,
+      "step": 131
+    },
+    {
+      "epoch": 2.8773132282385196,
+      "grad_norm": 0.11046919226646423,
+      "learning_rate": 1.9996099325858766e-05,
+      "loss": 2.6408,
+      "step": 132
+    },
+    {
+      "epoch": 2.8992460589444824,
+      "grad_norm": 0.11394225060939789,
+      "learning_rate": 1.999567795374706e-05,
+      "loss": 2.4854,
+      "step": 133
+    },
+    {
+      "epoch": 2.9211788896504456,
+      "grad_norm": 0.1528523713350296,
+      "learning_rate": 1.9995234979191843e-05,
+      "loss": 2.5499,
+      "step": 134
+    },
+    {
+      "epoch": 2.9431117203564083,
+      "grad_norm": 0.07764479517936707,
+      "learning_rate": 1.999477040315046e-05,
+      "loss": 2.6315,
+      "step": 135
+    },
+    {
+      "epoch": 2.9650445510623715,
+      "grad_norm": 0.09709993004798889,
+      "learning_rate": 1.9994284226626944e-05,
+      "loss": 2.6537,
+      "step": 136
+    },
+    {
+      "epoch": 2.9869773817683347,
+      "grad_norm": 0.07892050594091415,
+      "learning_rate": 1.9993776450672007e-05,
+      "loss": 2.5603,
+      "step": 137
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.09977299720048904,
+      "learning_rate": 1.999324707638304e-05,
+      "loss": 2.6216,
+      "step": 138
+    },
+    {
+      "epoch": 3.021932830705963,
+      "grad_norm": 0.10072707384824753,
+      "learning_rate": 1.999269610490413e-05,
+      "loss": 2.7363,
+      "step": 139
+    },
+    {
+      "epoch": 3.043865661411926,
+      "grad_norm": 0.11965449154376984,
+      "learning_rate": 1.999212353742601e-05,
+      "loss": 2.5138,
+      "step": 140
+    },
+    {
+      "epoch": 3.065798492117889,
+      "grad_norm": 0.09121505171060562,
+      "learning_rate": 1.9991529375186104e-05,
+      "loss": 2.6217,
+      "step": 141
+    },
+    {
+      "epoch": 3.087731322823852,
+      "grad_norm": 0.143572136759758,
+      "learning_rate": 1.9990913619468507e-05,
+      "loss": 2.6007,
+      "step": 142
+    },
+    {
+      "epoch": 3.109664153529815,
+      "grad_norm": 0.06798284500837326,
+      "learning_rate": 1.9990276271603972e-05,
+      "loss": 2.5446,
+      "step": 143
+    },
+    {
+      "epoch": 3.131596984235778,
+      "grad_norm": 0.07691462337970734,
+      "learning_rate": 1.9989617332969924e-05,
+      "loss": 2.5537,
+      "step": 144
+    },
+    {
+      "epoch": 3.153529814941741,
+      "grad_norm": 0.05225904658436775,
+      "learning_rate": 1.9988936804990446e-05,
+      "loss": 2.5238,
+      "step": 145
+    },
+    {
+      "epoch": 3.1754626456477038,
+      "grad_norm": 0.10837385058403015,
+      "learning_rate": 1.9988234689136284e-05,
+      "loss": 2.6316,
+      "step": 146
+    },
+    {
+      "epoch": 3.197395476353667,
+      "grad_norm": 0.08016310632228851,
+      "learning_rate": 1.9987510986924828e-05,
+      "loss": 2.5408,
+      "step": 147
+    },
+    {
+      "epoch": 3.2193283070596297,
+      "grad_norm": 0.1278998851776123,
+      "learning_rate": 1.9986765699920134e-05,
+      "loss": 2.6916,
+      "step": 148
+    },
+    {
+      "epoch": 3.241261137765593,
+      "grad_norm": 0.115745909512043,
+      "learning_rate": 1.9985998829732898e-05,
+      "loss": 2.5964,
+      "step": 149
+    },
+    {
+      "epoch": 3.2631939684715556,
+      "grad_norm": 0.05191206559538841,
+      "learning_rate": 1.9985210378020464e-05,
+      "loss": 2.5719,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.2639143951466496e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null