Model save

Browse files

Files changed (5) hide show

README.md +1 -1
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
trainer_state.json +26 -26
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -33,7 +33,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0003
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0001
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42

adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "up_proj",
-    "k_proj",
-    "q_proj",
     "o_proj",
-    "v_proj",
     "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "up_proj",
     "o_proj",
+    "q_proj",
     "gate_proj",
+    "v_proj",
+    "down_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74ff21d9c7e0e4c65ab5d4449e992f0abfe9cf1812364219522c4314b5ca3863
 size 1684597880

 version https://git-lfs.github.com/spec/v1
+oid sha256:0efc290897b5be150a6317e1f2b7d789626649ebb2dca2600aa975d717a40e5a
 size 1684597880

trainer_state.json CHANGED Viewed

@@ -10,66 +10,66 @@
   "log_history": [
     {
       "epoch": 0.4854368932038835,
-      "grad_norm": 0.2625071704387665,
-      "learning_rate": 0.00026359223300970874,
-      "loss": 0.5849,
       "step": 250
     },
     {
       "epoch": 0.970873786407767,
-      "grad_norm": 0.2989667057991028,
-      "learning_rate": 0.00022718446601941746,
-      "loss": 0.3555,
       "step": 500
     },
     {
       "epoch": 1.4563106796116505,
-      "grad_norm": 0.3658324182033539,
-      "learning_rate": 0.0001907766990291262,
-      "loss": 0.2941,
       "step": 750
     },
     {
       "epoch": 1.941747572815534,
-      "grad_norm": 0.3304229974746704,
-      "learning_rate": 0.00015436893203883494,
-      "loss": 0.2256,
       "step": 1000
     },
     {
       "epoch": 2.4271844660194173,
-      "grad_norm": 0.2993295192718506,
-      "learning_rate": 0.00011796116504854367,
-      "loss": 0.1753,
       "step": 1250
     },
     {
       "epoch": 2.912621359223301,
-      "grad_norm": 0.27283886075019836,
-      "learning_rate": 8.155339805825241e-05,
-      "loss": 0.1565,
       "step": 1500
     },
     {
       "epoch": 3.3980582524271843,
-      "grad_norm": 0.26180538535118103,
-      "learning_rate": 4.5145631067961155e-05,
-      "loss": 0.1362,
       "step": 1750
     },
     {
       "epoch": 3.883495145631068,
-      "grad_norm": 0.24231906235218048,
-      "learning_rate": 8.737864077669902e-06,
-      "loss": 0.1306,
       "step": 2000
     },
     {
       "epoch": 4.0,
       "step": 2060,
       "total_flos": 1.4514285460762153e+18,
-      "train_loss": 0.25361053179768683,
-      "train_runtime": 17986.2826,
       "train_samples_per_second": 29.319,
       "train_steps_per_second": 0.115
     }

   "log_history": [
     {
       "epoch": 0.4854368932038835,
+      "grad_norm": 0.5345714688301086,
+      "learning_rate": 8.786407766990292e-05,
+      "loss": 0.7717,
       "step": 250
     },
     {
       "epoch": 0.970873786407767,
+      "grad_norm": 0.4006052017211914,
+      "learning_rate": 7.572815533980583e-05,
+      "loss": 0.3916,
       "step": 500
     },
     {
       "epoch": 1.4563106796116505,
+      "grad_norm": 0.4070431888103485,
+      "learning_rate": 6.359223300970875e-05,
+      "loss": 0.3636,
       "step": 750
     },
     {
       "epoch": 1.941747572815534,
+      "grad_norm": 0.3988136351108551,
+      "learning_rate": 5.145631067961165e-05,
+      "loss": 0.3502,
       "step": 1000
     },
     {
       "epoch": 2.4271844660194173,
+      "grad_norm": 0.41053929924964905,
+      "learning_rate": 3.9320388349514564e-05,
+      "loss": 0.3365,
       "step": 1250
     },
     {
       "epoch": 2.912621359223301,
+      "grad_norm": 0.516011655330658,
+      "learning_rate": 2.7184466019417475e-05,
+      "loss": 0.3224,
       "step": 1500
     },
     {
       "epoch": 3.3980582524271843,
+      "grad_norm": 0.5106499791145325,
+      "learning_rate": 1.5048543689320387e-05,
+      "loss": 0.3013,
       "step": 1750
     },
     {
       "epoch": 3.883495145631068,
+      "grad_norm": 0.528724730014801,
+      "learning_rate": 2.912621359223301e-06,
+      "loss": 0.2887,
       "step": 2000
     },
     {
       "epoch": 4.0,
       "step": 2060,
       "total_flos": 1.4514285460762153e+18,
+      "train_loss": 0.3876653402754404,
+      "train_runtime": 17986.4016,
       "train_samples_per_second": 29.319,
       "train_steps_per_second": 0.115
     }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c27cbe2b66ecac085709c4d00aea675c5f87a4099a5fb6eb37bf0deca39a560
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac72b1b7bb51532bb893f8e93726347d4e7ac4370c64eb348155900f8a59e4da
 size 5240