Training in progress, step 2142, checkpoint

Browse files

Files changed (6) hide show

checkpoint-2142/adapter_config.json +5 -5
checkpoint-2142/adapter_model.safetensors +1 -1
checkpoint-2142/optimizer.pt +1 -1
checkpoint-2142/rng_state.pth +1 -1
checkpoint-2142/trainer_state.json +25 -25
checkpoint-2142/training_args.bin +1 -1

checkpoint-2142/adapter_config.json CHANGED Viewed

@@ -26,13 +26,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "up_proj",
-    "v_proj",
     "q_proj",
     "down_proj",
-    "k_proj",
-    "gate_proj"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
+    "gate_proj",
     "q_proj",
+    "v_proj",
+    "o_proj",
     "down_proj",
+    "up_proj"
   ],
   "task_type": null,
   "use_dora": false,

checkpoint-2142/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afab048ed22ce09c39a406edda32f9725be4598380dd59093175d9950013b465
 size 400616360

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1c8404dc5f869f364ec72c5769ca22d6cea4956198f9cd005146a7cba699327
 size 400616360

checkpoint-2142/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81442eb537fb2b543f0ab15319d8a896c09dcbb735ad0869311847d894140bef
 size 205100562

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8fa25d0df9a77a82d1be0116ca7579231d446e0ede044d6749b460a2b448e28
 size 205100562

checkpoint-2142/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d44197229866a7f9ef28668aec6f21dc0ea96e7d982c0b4c30b899a77b3baf20
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:58593014ffe5074887df6ba5c4ff4972f82be99bdef3518c2a618376dc4cf03f
 size 14308

checkpoint-2142/trainer_state.json CHANGED Viewed

@@ -70,62 +70,62 @@
     },
     {
       "epoch": 1.167114015637764,
-      "grad_norm": 2.512282609939575,
       "learning_rate": 3.915853581228413e-05,
-      "loss": 0.614,
       "step": 1250
     },
     {
       "epoch": 1.167114015637764,
-      "eval_loss": 0.1132238432765007,
-      "eval_runtime": 22.1933,
-      "eval_samples_per_second": 3.92,
-      "eval_steps_per_second": 3.92,
       "step": 1250
     },
     {
       "epoch": 1.4005134788189988,
-      "grad_norm": 1.3006846904754639,
       "learning_rate": 2.1903963223439395e-05,
-      "loss": 0.6601,
       "step": 1500
     },
     {
       "epoch": 1.4005134788189988,
-      "eval_loss": 0.10768163949251175,
-      "eval_runtime": 22.1842,
-      "eval_samples_per_second": 3.922,
-      "eval_steps_per_second": 3.922,
       "step": 1500
     },
     {
       "epoch": 1.6339129420002334,
-      "grad_norm": 1.7093279361724854,
       "learning_rate": 8.619209196560924e-06,
-      "loss": 0.6404,
       "step": 1750
     },
     {
       "epoch": 1.6339129420002334,
-      "eval_loss": 0.10490020364522934,
-      "eval_runtime": 22.1702,
-      "eval_samples_per_second": 3.924,
-      "eval_steps_per_second": 3.924,
       "step": 1750
     },
     {
       "epoch": 1.867312405181468,
-      "grad_norm": 0.8398889303207397,
       "learning_rate": 1.181337872277094e-06,
-      "loss": 0.6201,
       "step": 2000
     },
     {
       "epoch": 1.867312405181468,
-      "eval_loss": 0.10319412499666214,
-      "eval_runtime": 22.1391,
-      "eval_samples_per_second": 3.93,
-      "eval_steps_per_second": 3.93,
       "step": 2000
     }
   ],
@@ -146,7 +146,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.73201756854954e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

     },
     {
       "epoch": 1.167114015637764,
+      "grad_norm": 2.2942659854888916,
       "learning_rate": 3.915853581228413e-05,
+      "loss": 0.7993,
       "step": 1250
     },
     {
       "epoch": 1.167114015637764,
+      "eval_loss": 0.1208883598446846,
+      "eval_runtime": 21.9734,
+      "eval_samples_per_second": 3.959,
+      "eval_steps_per_second": 3.959,
       "step": 1250
     },
     {
       "epoch": 1.4005134788189988,
+      "grad_norm": 1.147830843925476,
       "learning_rate": 2.1903963223439395e-05,
+      "loss": 0.7032,
       "step": 1500
     },
     {
       "epoch": 1.4005134788189988,
+      "eval_loss": 0.10965924710035324,
+      "eval_runtime": 22.0058,
+      "eval_samples_per_second": 3.954,
+      "eval_steps_per_second": 3.954,
       "step": 1500
     },
     {
       "epoch": 1.6339129420002334,
+      "grad_norm": 2.2439823150634766,
       "learning_rate": 8.619209196560924e-06,
+      "loss": 0.6596,
       "step": 1750
     },
     {
       "epoch": 1.6339129420002334,
+      "eval_loss": 0.10602504760026932,
+      "eval_runtime": 22.0084,
+      "eval_samples_per_second": 3.953,
+      "eval_steps_per_second": 3.953,
       "step": 1750
     },
     {
       "epoch": 1.867312405181468,
+      "grad_norm": 1.053748369216919,
       "learning_rate": 1.181337872277094e-06,
+      "loss": 0.6323,
       "step": 2000
     },
     {
       "epoch": 1.867312405181468,
+      "eval_loss": 0.10403568297624588,
+      "eval_runtime": 22.0253,
+      "eval_samples_per_second": 3.95,
+      "eval_steps_per_second": 3.95,
       "step": 2000
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.7185280711396352e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-2142/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37d85e10062490083f3df78142b22b936ee4c10ad7bb1c35d68c6a9743be03a9
 size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:944c7c22023831a73ee4b0a66805723ecef65f25064cb419b24a8d84b3daee22
 size 5560