Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4300c24a4fc7349ee026753e8fcc0bdd76cdbf8af41e0660e5cfcfdc49eca24e
 size 138995824

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcf7b32247e3c0bf2781cea338cfb2a209b3f0fdcae96fc43b22bad3da48036b
 size 138995824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c3db81cc2353742152faf297413204fca42511d4c48613b8bfa9470aa2b7433
 size 71077780

 version https://git-lfs.github.com/spec/v1
+oid sha256:7453bc0e138bf37d1f8c334918d6825cffbe283f18f796005afb2fe7e13224fc
 size 71077780

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f84d44f8b30748ad7616fa9b9557c9ae059a938575ee5d987410cbf693aba249
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aab6b1fa3d19ef80a8b6a3ee155408e858b9b550f44bfb07b20708201055bcf3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.5297350883483887,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.012370496366166692,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 60.394,
       "eval_steps_per_second": 15.1,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6886051739074560.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.487229824066162,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.01855574454925004,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 60.394,
       "eval_steps_per_second": 15.1,
       "step": 100
+    },
+    {
+      "epoch": 0.012494201329828359,
+      "grad_norm": 0.4453275799751282,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 1.2384,
+      "step": 101
+    },
+    {
+      "epoch": 0.012617906293490026,
+      "grad_norm": 0.5066372752189636,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 1.3263,
+      "step": 102
+    },
+    {
+      "epoch": 0.012741611257151694,
+      "grad_norm": 0.27735647559165955,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 1.3094,
+      "step": 103
+    },
+    {
+      "epoch": 0.01286531622081336,
+      "grad_norm": 0.2043253630399704,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 1.5011,
+      "step": 104
+    },
+    {
+      "epoch": 0.012989021184475027,
+      "grad_norm": 0.18582770228385925,
+      "learning_rate": 5e-05,
+      "loss": 1.6609,
+      "step": 105
+    },
+    {
+      "epoch": 0.013112726148136694,
+      "grad_norm": 0.18918775022029877,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 1.6867,
+      "step": 106
+    },
+    {
+      "epoch": 0.01323643111179836,
+      "grad_norm": 0.22034385800361633,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 1.9582,
+      "step": 107
+    },
+    {
+      "epoch": 0.013360136075460027,
+      "grad_norm": 0.22781382501125336,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 1.8897,
+      "step": 108
+    },
+    {
+      "epoch": 0.013483841039121695,
+      "grad_norm": 0.2723545730113983,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 2.0569,
+      "step": 109
+    },
+    {
+      "epoch": 0.013607546002783362,
+      "grad_norm": 0.24561963975429535,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 2.1398,
+      "step": 110
+    },
+    {
+      "epoch": 0.013731250966445029,
+      "grad_norm": 0.23813565075397491,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 2.3282,
+      "step": 111
+    },
+    {
+      "epoch": 0.013854955930106695,
+      "grad_norm": 0.2500579357147217,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 2.3831,
+      "step": 112
+    },
+    {
+      "epoch": 0.013978660893768362,
+      "grad_norm": 0.26784828305244446,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 2.3787,
+      "step": 113
+    },
+    {
+      "epoch": 0.01410236585743003,
+      "grad_norm": 0.2763846814632416,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 2.7042,
+      "step": 114
+    },
+    {
+      "epoch": 0.014226070821091697,
+      "grad_norm": 0.2663004696369171,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 2.3558,
+      "step": 115
+    },
+    {
+      "epoch": 0.014349775784753363,
+      "grad_norm": 0.28943297266960144,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 2.9233,
+      "step": 116
+    },
+    {
+      "epoch": 0.01447348074841503,
+      "grad_norm": 0.258836567401886,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 2.5686,
+      "step": 117
+    },
+    {
+      "epoch": 0.014597185712076697,
+      "grad_norm": 0.33632829785346985,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 3.4671,
+      "step": 118
+    },
+    {
+      "epoch": 0.014720890675738363,
+      "grad_norm": 0.311443567276001,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 3.0168,
+      "step": 119
+    },
+    {
+      "epoch": 0.014844595639400032,
+      "grad_norm": 0.3112979531288147,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 3.2336,
+      "step": 120
+    },
+    {
+      "epoch": 0.014968300603061698,
+      "grad_norm": 0.3561400771141052,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 3.4632,
+      "step": 121
+    },
+    {
+      "epoch": 0.015092005566723365,
+      "grad_norm": 0.3534078896045685,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 3.4256,
+      "step": 122
+    },
+    {
+      "epoch": 0.015215710530385031,
+      "grad_norm": 0.3245716094970703,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 3.2542,
+      "step": 123
+    },
+    {
+      "epoch": 0.015339415494046698,
+      "grad_norm": 0.3680708706378937,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 3.763,
+      "step": 124
+    },
+    {
+      "epoch": 0.015463120457708366,
+      "grad_norm": 0.35930800437927246,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 3.7993,
+      "step": 125
+    },
+    {
+      "epoch": 0.015586825421370033,
+      "grad_norm": 0.3474310338497162,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 3.6859,
+      "step": 126
+    },
+    {
+      "epoch": 0.015710530385031698,
+      "grad_norm": 0.4066416621208191,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 4.2552,
+      "step": 127
+    },
+    {
+      "epoch": 0.015834235348693368,
+      "grad_norm": 0.38194552063941956,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 4.1787,
+      "step": 128
+    },
+    {
+      "epoch": 0.015957940312355035,
+      "grad_norm": 0.3861883580684662,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 4.1073,
+      "step": 129
+    },
+    {
+      "epoch": 0.0160816452760167,
+      "grad_norm": 0.4550367593765259,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 4.0508,
+      "step": 130
+    },
+    {
+      "epoch": 0.016205350239678368,
+      "grad_norm": 0.4556775987148285,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 4.2837,
+      "step": 131
+    },
+    {
+      "epoch": 0.016329055203340034,
+      "grad_norm": 0.41627028584480286,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 4.2839,
+      "step": 132
+    },
+    {
+      "epoch": 0.0164527601670017,
+      "grad_norm": 0.4195609986782074,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 4.3206,
+      "step": 133
+    },
+    {
+      "epoch": 0.016576465130663368,
+      "grad_norm": 0.4351290166378021,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 4.5282,
+      "step": 134
+    },
+    {
+      "epoch": 0.016700170094325034,
+      "grad_norm": 0.45207464694976807,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 4.5273,
+      "step": 135
+    },
+    {
+      "epoch": 0.0168238750579867,
+      "grad_norm": 0.4965157210826874,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 4.3781,
+      "step": 136
+    },
+    {
+      "epoch": 0.016947580021648367,
+      "grad_norm": 0.4925777316093445,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 4.4784,
+      "step": 137
+    },
+    {
+      "epoch": 0.017071284985310034,
+      "grad_norm": 0.48698151111602783,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 4.7109,
+      "step": 138
+    },
+    {
+      "epoch": 0.017194989948971704,
+      "grad_norm": 0.5326199531555176,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 4.7638,
+      "step": 139
+    },
+    {
+      "epoch": 0.01731869491263337,
+      "grad_norm": 0.5045056939125061,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 4.7973,
+      "step": 140
+    },
+    {
+      "epoch": 0.017442399876295037,
+      "grad_norm": 0.48011139035224915,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 4.5411,
+      "step": 141
+    },
+    {
+      "epoch": 0.017566104839956704,
+      "grad_norm": 0.6269281506538391,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 4.6874,
+      "step": 142
+    },
+    {
+      "epoch": 0.01768980980361837,
+      "grad_norm": 0.5466679930686951,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 4.6733,
+      "step": 143
+    },
+    {
+      "epoch": 0.017813514767280037,
+      "grad_norm": 0.5804339051246643,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 4.6588,
+      "step": 144
+    },
+    {
+      "epoch": 0.017937219730941704,
+      "grad_norm": 0.6334162950515747,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 5.0589,
+      "step": 145
+    },
+    {
+      "epoch": 0.01806092469460337,
+      "grad_norm": 0.6198123097419739,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 4.9944,
+      "step": 146
+    },
+    {
+      "epoch": 0.018184629658265037,
+      "grad_norm": 0.6776898503303528,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 5.1355,
+      "step": 147
+    },
+    {
+      "epoch": 0.018308334621926704,
+      "grad_norm": 0.6639952063560486,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 4.3923,
+      "step": 148
+    },
+    {
+      "epoch": 0.01843203958558837,
+      "grad_norm": 0.8215330839157104,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 5.2146,
+      "step": 149
+    },
+    {
+      "epoch": 0.01855574454925004,
+      "grad_norm": 0.8143311738967896,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 4.5062,
+      "step": 150
+    },
+    {
+      "epoch": 0.01855574454925004,
+      "eval_loss": 3.487229824066162,
+      "eval_runtime": 225.7115,
+      "eval_samples_per_second": 60.32,
+      "eval_steps_per_second": 15.081,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.032049150918656e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null