Training in progress, step 240600

Browse files

Files changed (8) hide show

adapter_model.safetensors +1 -1
last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +3 -227
last-checkpoint/training_args.bin +1 -1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f82faa289f66768e706b151dd1c8d787876e82e420c483f6f3a866380c150db
 size 1342238560

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad2c04e4c9d9778549e502f8f4d5e5c7678fc1dcb6dbaa7898e81a74d789ffe6
 size 1342238560

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
-    "q_proj",
     "k_proj",
-    "up_proj",
     "gate_proj",
-    "v_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "down_proj",
     "k_proj",
+    "o_proj",
     "gate_proj",
+    "up_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f82faa289f66768e706b151dd1c8d787876e82e420c483f6f3a866380c150db
 size 1342238560

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8e264d1dffd90f8b073222ccd33bf0ff291438d0b5aa7db5c240c57952d4d76
 size 1342238560

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f1801241fecb4d578d99565a821ed56d5d1517ebbd2254f63b66234b590deea
 size 683268498

 version https://git-lfs.github.com/spec/v1
+oid sha256:167d57d3a8d308860c7c950b22c7af59b934e02a360c176ef4df5959b274a8c7
 size 683268498

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3306dd7802c8aec32f05706233922edc69e128370046e1eacbc69f3e786fdc2a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:37ad8afbe49229feb93ffb8650328b92bba97953081ca74875c92d4fdc80a4a4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0f07a7a3d31c4c7ca96168e5cd97a141768e249d2dc3e853a16616d7c5fe5f6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d8504145a858461a123d740b2f06c2a9c70189e8b166f234b84ae255029b46d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.16719395820568334,
   "eval_steps": 500,
-  "global_step": 240400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8197,230 +8197,6 @@
       "learning_rate": 1.9772518872973653e-05,
       "loss": 1.6526,
       "step": 234000
-    },
-    {
-      "epoch": 0.16288196760304094,
-      "grad_norm": 3.734306812286377,
-      "learning_rate": 1.9772131974642406e-05,
-      "loss": 1.6493,
-      "step": 234200
-    },
-    {
-      "epoch": 0.16302106407409392,
-      "grad_norm": 6.192078590393066,
-      "learning_rate": 1.9771744753017348e-05,
-      "loss": 1.6857,
-      "step": 234400
-    },
-    {
-      "epoch": 0.1631601605451469,
-      "grad_norm": 2.771817207336426,
-      "learning_rate": 1.977135720811697e-05,
-      "loss": 1.6534,
-      "step": 234600
-    },
-    {
-      "epoch": 0.16329925701619988,
-      "grad_norm": 4.116189479827881,
-      "learning_rate": 1.9770969339959763e-05,
-      "loss": 1.6348,
-      "step": 234800
-    },
-    {
-      "epoch": 0.16343835348725286,
-      "grad_norm": 6.450043678283691,
-      "learning_rate": 1.9770581148564254e-05,
-      "loss": 1.6792,
-      "step": 235000
-    },
-    {
-      "epoch": 0.16357744995830584,
-      "grad_norm": 3.6712119579315186,
-      "learning_rate": 1.9770192633948966e-05,
-      "loss": 1.6559,
-      "step": 235200
-    },
-    {
-      "epoch": 0.16371654642935882,
-      "grad_norm": 3.8811490535736084,
-      "learning_rate": 1.976980379613245e-05,
-      "loss": 1.6473,
-      "step": 235400
-    },
-    {
-      "epoch": 0.1638556429004118,
-      "grad_norm": 8.544036865234375,
-      "learning_rate": 1.9769414635133272e-05,
-      "loss": 1.6666,
-      "step": 235600
-    },
-    {
-      "epoch": 0.16399473937146478,
-      "grad_norm": 2.6414921283721924,
-      "learning_rate": 1.9769025150970004e-05,
-      "loss": 1.7163,
-      "step": 235800
-    },
-    {
-      "epoch": 0.16413383584251776,
-      "grad_norm": 3.8313961029052734,
-      "learning_rate": 1.976863534366124e-05,
-      "loss": 1.6673,
-      "step": 236000
-    },
-    {
-      "epoch": 0.16427293231357074,
-      "grad_norm": 4.338851451873779,
-      "learning_rate": 1.97682452132256e-05,
-      "loss": 1.6587,
-      "step": 236200
-    },
-    {
-      "epoch": 0.16441202878462371,
-      "grad_norm": 5.920814514160156,
-      "learning_rate": 1.9767854759681694e-05,
-      "loss": 1.7192,
-      "step": 236400
-    },
-    {
-      "epoch": 0.1645511252556767,
-      "grad_norm": 7.062288761138916,
-      "learning_rate": 1.976746398304817e-05,
-      "loss": 1.6747,
-      "step": 236600
-    },
-    {
-      "epoch": 0.16469022172672967,
-      "grad_norm": 4.87226676940918,
-      "learning_rate": 1.976707288334368e-05,
-      "loss": 1.7216,
-      "step": 236800
-    },
-    {
-      "epoch": 0.16482931819778265,
-      "grad_norm": 4.253633499145508,
-      "learning_rate": 1.9766681460586894e-05,
-      "loss": 1.6602,
-      "step": 237000
-    },
-    {
-      "epoch": 0.16496841466883563,
-      "grad_norm": 5.2997822761535645,
-      "learning_rate": 1.9766289714796502e-05,
-      "loss": 1.6209,
-      "step": 237200
-    },
-    {
-      "epoch": 0.1651075111398886,
-      "grad_norm": 8.48527717590332,
-      "learning_rate": 1.97658976459912e-05,
-      "loss": 1.6526,
-      "step": 237400
-    },
-    {
-      "epoch": 0.16524660761094162,
-      "grad_norm": 3.7595603466033936,
-      "learning_rate": 1.9765505254189708e-05,
-      "loss": 1.718,
-      "step": 237600
-    },
-    {
-      "epoch": 0.1653857040819946,
-      "grad_norm": 2.8959290981292725,
-      "learning_rate": 1.9765112539410758e-05,
-      "loss": 1.729,
-      "step": 237800
-    },
-    {
-      "epoch": 0.16552480055304758,
-      "grad_norm": 3.3761868476867676,
-      "learning_rate": 1.97647195016731e-05,
-      "loss": 1.6648,
-      "step": 238000
-    },
-    {
-      "epoch": 0.16566389702410056,
-      "grad_norm": 6.8370585441589355,
-      "learning_rate": 1.9764326140995496e-05,
-      "loss": 1.6535,
-      "step": 238200
-    },
-    {
-      "epoch": 0.16580299349515354,
-      "grad_norm": 4.386465072631836,
-      "learning_rate": 1.976393245739672e-05,
-      "loss": 1.6181,
-      "step": 238400
-    },
-    {
-      "epoch": 0.16594208996620652,
-      "grad_norm": 2.054741144180298,
-      "learning_rate": 1.9763538450895576e-05,
-      "loss": 1.6094,
-      "step": 238600
-    },
-    {
-      "epoch": 0.1660811864372595,
-      "grad_norm": 4.956938743591309,
-      "learning_rate": 1.976314412151086e-05,
-      "loss": 1.7039,
-      "step": 238800
-    },
-    {
-      "epoch": 0.16622028290831248,
-      "grad_norm": 3.4034650325775146,
-      "learning_rate": 1.976274946926141e-05,
-      "loss": 1.7075,
-      "step": 239000
-    },
-    {
-      "epoch": 0.16635937937936546,
-      "grad_norm": 5.052691459655762,
-      "learning_rate": 1.976235449416606e-05,
-      "loss": 1.606,
-      "step": 239200
-    },
-    {
-      "epoch": 0.16649847585041844,
-      "grad_norm": 5.3564372062683105,
-      "learning_rate": 1.9761959196243662e-05,
-      "loss": 1.637,
-      "step": 239400
-    },
-    {
-      "epoch": 0.16663757232147142,
-      "grad_norm": 4.567344665527344,
-      "learning_rate": 1.9761563575513093e-05,
-      "loss": 1.6433,
-      "step": 239600
-    },
-    {
-      "epoch": 0.1667766687925244,
-      "grad_norm": 6.281781196594238,
-      "learning_rate": 1.9761167631993237e-05,
-      "loss": 1.6451,
-      "step": 239800
-    },
-    {
-      "epoch": 0.16691576526357738,
-      "grad_norm": 3.993034839630127,
-      "learning_rate": 1.9760771365703e-05,
-      "loss": 1.6326,
-      "step": 240000
-    },
-    {
-      "epoch": 0.16705486173463036,
-      "grad_norm": 6.029495716094971,
-      "learning_rate": 1.9760374776661288e-05,
-      "loss": 1.6587,
-      "step": 240200
-    },
-    {
-      "epoch": 0.16719395820568334,
-      "grad_norm": 4.002114772796631,
-      "learning_rate": 1.9759977864887044e-05,
-      "loss": 1.6484,
-      "step": 240400
     }
   ],
   "logging_steps": 200,
@@ -8440,7 +8216,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1998534751710167e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.16274287113198796,
   "eval_steps": 500,
+  "global_step": 234000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.9772518872973653e-05,
       "loss": 1.6526,
       "step": 234000
     }
   ],
   "logging_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 3.114872184179589e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31159c9e3ece420d10b679508751f56bfb33866580a857e3a293714f0a805ecb
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:804b58f86f1ce339812f5b2ce6cb00d1866f6589fe10723387689d878ffcc627
 size 6840