Model save

Browse files

Files changed (5) hide show

README.md +1 -1
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
trainer_state.json +27 -27
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -33,7 +33,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 1e-05
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0003
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "gate_proj",
-    "v_proj",
-    "q_proj",
     "k_proj",
     "o_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "k_proj",
+    "q_proj",
     "o_proj",
+    "v_proj",
+    "gate_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94850a297cd381640bba24de3a30d3dc5dde5b7b1988dfb3a4e4229f304a02e5
 size 1684597880

 version https://git-lfs.github.com/spec/v1
+oid sha256:74ff21d9c7e0e4c65ab5d4449e992f0abfe9cf1812364219522c4314b5ca3863
 size 1684597880

trainer_state.json CHANGED Viewed

@@ -10,67 +10,67 @@
   "log_history": [
     {
       "epoch": 0.4854368932038835,
-      "grad_norm": 0.4418950378894806,
-      "learning_rate": 8.786407766990292e-06,
-      "loss": 1.6619,
       "step": 250
     },
     {
       "epoch": 0.970873786407767,
-      "grad_norm": 0.5680270791053772,
-      "learning_rate": 7.572815533980583e-06,
-      "loss": 0.8461,
       "step": 500
     },
     {
       "epoch": 1.4563106796116505,
-      "grad_norm": 0.8350700736045837,
-      "learning_rate": 6.3592233009708745e-06,
-      "loss": 0.7226,
       "step": 750
     },
     {
       "epoch": 1.941747572815534,
-      "grad_norm": 0.9518159031867981,
-      "learning_rate": 5.145631067961165e-06,
-      "loss": 0.6288,
       "step": 1000
     },
     {
       "epoch": 2.4271844660194173,
-      "grad_norm": 0.9932662844657898,
-      "learning_rate": 3.932038834951457e-06,
-      "loss": 0.5693,
       "step": 1250
     },
     {
       "epoch": 2.912621359223301,
-      "grad_norm": 1.0723854303359985,
-      "learning_rate": 2.718446601941748e-06,
-      "loss": 0.538,
       "step": 1500
     },
     {
       "epoch": 3.3980582524271843,
-      "grad_norm": 0.9740040898323059,
-      "learning_rate": 1.5048543689320389e-06,
-      "loss": 0.5171,
       "step": 1750
     },
     {
       "epoch": 3.883495145631068,
-      "grad_norm": 0.9811394214630127,
-      "learning_rate": 2.9126213592233014e-07,
-      "loss": 0.5091,
       "step": 2000
     },
     {
       "epoch": 4.0,
       "step": 2060,
       "total_flos": 1.4514285460762153e+18,
-      "train_loss": 0.7420612372240973,
-      "train_runtime": 17990.3108,
-      "train_samples_per_second": 29.313,
       "train_steps_per_second": 0.115
     }
   ],

   "log_history": [
     {
       "epoch": 0.4854368932038835,
+      "grad_norm": 0.2625071704387665,
+      "learning_rate": 0.00026359223300970874,
+      "loss": 0.5849,
       "step": 250
     },
     {
       "epoch": 0.970873786407767,
+      "grad_norm": 0.2989667057991028,
+      "learning_rate": 0.00022718446601941746,
+      "loss": 0.3555,
       "step": 500
     },
     {
       "epoch": 1.4563106796116505,
+      "grad_norm": 0.3658324182033539,
+      "learning_rate": 0.0001907766990291262,
+      "loss": 0.2941,
       "step": 750
     },
     {
       "epoch": 1.941747572815534,
+      "grad_norm": 0.3304229974746704,
+      "learning_rate": 0.00015436893203883494,
+      "loss": 0.2256,
       "step": 1000
     },
     {
       "epoch": 2.4271844660194173,
+      "grad_norm": 0.2993295192718506,
+      "learning_rate": 0.00011796116504854367,
+      "loss": 0.1753,
       "step": 1250
     },
     {
       "epoch": 2.912621359223301,
+      "grad_norm": 0.27283886075019836,
+      "learning_rate": 8.155339805825241e-05,
+      "loss": 0.1565,
       "step": 1500
     },
     {
       "epoch": 3.3980582524271843,
+      "grad_norm": 0.26180538535118103,
+      "learning_rate": 4.5145631067961155e-05,
+      "loss": 0.1362,
       "step": 1750
     },
     {
       "epoch": 3.883495145631068,
+      "grad_norm": 0.24231906235218048,
+      "learning_rate": 8.737864077669902e-06,
+      "loss": 0.1306,
       "step": 2000
     },
     {
       "epoch": 4.0,
       "step": 2060,
       "total_flos": 1.4514285460762153e+18,
+      "train_loss": 0.25361053179768683,
+      "train_runtime": 17986.2826,
+      "train_samples_per_second": 29.319,
       "train_steps_per_second": 0.115
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:828428c006ac63ec165c2b2ac1b1c261b5bb0f794d0934d8aaf766389c6b022c
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c27cbe2b66ecac085709c4d00aea675c5f87a4099a5fb6eb37bf0deca39a560
 size 5240