Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_config.json +1 -1
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +34 -34
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,8 +19,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "down_proj",
     "up_proj"
   ],
   "task_type": "CAUSAL_LM"

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
+    "gate_proj",
     "up_proj"
   ],
   "task_type": "CAUSAL_LM"

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cf4126a093cc2744b811791cb49b4bb554a88d7e17d7a455c4e4f43f620892b
 size 32457544

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7f9646a1d55dbd2bd9a1a6f37c9cddd2839ef8503f6b9d4479f81656184a1e5
 size 32457544

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:077681757457c2caab161f15957793e472c6d16b2cbfd25132fe62544cd967a8
 size 64958970

 version https://git-lfs.github.com/spec/v1
+oid sha256:33163348f71f15f7ba7ae85d8c5d726c563c74b750e5511011a240533a5dc310
 size 64958970

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9055ac9db4835b33df3880467ea6560e442fcdfc1be9cf492c952ca01ce18a9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a97947770dcbcbe97b40b65e15a105e262e8b61b42747d97678ff13b07e989a6
 size 14244

trainer_state.json CHANGED Viewed

@@ -11,199 +11,199 @@
     {
       "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.1412,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.606,
       "step": 4
     },
     {
       "epoch": 0.09,
       "learning_rate": 2e-05,
-      "loss": 1.3632,
       "step": 6
     },
     {
       "epoch": 0.12,
       "learning_rate": 2e-05,
-      "loss": 1.3368,
       "step": 8
     },
     {
       "epoch": 0.15,
       "learning_rate": 2e-05,
-      "loss": 1.4371,
       "step": 10
     },
     {
       "epoch": 0.18,
       "learning_rate": 2e-05,
-      "loss": 1.4571,
       "step": 12
     },
     {
       "epoch": 0.21,
       "learning_rate": 2e-05,
-      "loss": 1.9018,
       "step": 14
     },
     {
       "epoch": 0.24,
       "learning_rate": 2e-05,
-      "loss": 2.2,
       "step": 16
     },
     {
       "epoch": 0.27,
       "learning_rate": 2e-05,
-      "loss": 2.1347,
       "step": 18
     },
     {
       "epoch": 0.3,
       "learning_rate": 2e-05,
-      "loss": 1.4048,
       "step": 20
     },
     {
       "epoch": 0.33,
       "learning_rate": 2e-05,
-      "loss": 1.4807,
       "step": 22
     },
     {
       "epoch": 0.36,
       "learning_rate": 2e-05,
-      "loss": 1.4868,
       "step": 24
     },
     {
       "epoch": 0.39,
       "learning_rate": 2e-05,
-      "loss": 1.2677,
       "step": 26
     },
     {
       "epoch": 0.42,
       "learning_rate": 2e-05,
-      "loss": 1.6585,
       "step": 28
     },
     {
       "epoch": 0.45,
       "learning_rate": 2e-05,
-      "loss": 1.8421,
       "step": 30
     },
     {
       "epoch": 0.48,
       "learning_rate": 2e-05,
-      "loss": 1.9776,
       "step": 32
     },
     {
       "epoch": 0.51,
       "learning_rate": 2e-05,
-      "loss": 1.7642,
       "step": 34
     },
     {
       "epoch": 0.54,
       "learning_rate": 2e-05,
-      "loss": 1.72,
       "step": 36
     },
     {
       "epoch": 0.57,
       "learning_rate": 2e-05,
-      "loss": 1.3232,
       "step": 38
     },
     {
       "epoch": 0.6,
       "learning_rate": 2e-05,
-      "loss": 1.4866,
       "step": 40
     },
     {
       "epoch": 0.63,
       "learning_rate": 2e-05,
-      "loss": 1.2556,
       "step": 42
     },
     {
       "epoch": 0.66,
       "learning_rate": 2e-05,
-      "loss": 1.3743,
       "step": 44
     },
     {
       "epoch": 0.69,
       "learning_rate": 2e-05,
-      "loss": 1.7033,
       "step": 46
     },
     {
       "epoch": 0.72,
       "learning_rate": 2e-05,
-      "loss": 1.8748,
       "step": 48
     },
     {
       "epoch": 0.75,
       "learning_rate": 2e-05,
-      "loss": 2.1102,
       "step": 50
     },
     {
       "epoch": 0.78,
       "learning_rate": 2e-05,
-      "loss": 1.4274,
       "step": 52
     },
     {
       "epoch": 0.81,
       "learning_rate": 2e-05,
-      "loss": 1.317,
       "step": 54
     },
     {
       "epoch": 0.84,
       "learning_rate": 2e-05,
-      "loss": 1.2868,
       "step": 56
     },
     {
       "epoch": 0.86,
       "learning_rate": 2e-05,
-      "loss": 1.4609,
       "step": 58
     },
     {
       "epoch": 0.89,
       "learning_rate": 2e-05,
-      "loss": 1.4965,
       "step": 60
     },
     {
       "epoch": 0.92,
       "learning_rate": 2e-05,
-      "loss": 1.6175,
       "step": 62
     },
     {
       "epoch": 0.95,
       "learning_rate": 2e-05,
-      "loss": 1.6328,
       "step": 64
     },
     {
       "epoch": 0.98,
       "learning_rate": 2e-05,
-      "loss": 1.4841,
       "step": 66
     }
   ],
@@ -212,7 +212,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 3677439948509184.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.03,
       "learning_rate": 2e-05,
+      "loss": 2.1238,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 2e-05,
+      "loss": 1.5915,
       "step": 4
     },
     {
       "epoch": 0.09,
       "learning_rate": 2e-05,
+      "loss": 1.3459,
       "step": 6
     },
     {
       "epoch": 0.12,
       "learning_rate": 2e-05,
+      "loss": 1.3217,
       "step": 8
     },
     {
       "epoch": 0.15,
       "learning_rate": 2e-05,
+      "loss": 1.4143,
       "step": 10
     },
     {
       "epoch": 0.18,
       "learning_rate": 2e-05,
+      "loss": 1.4196,
       "step": 12
     },
     {
       "epoch": 0.21,
       "learning_rate": 2e-05,
+      "loss": 1.8695,
       "step": 14
     },
     {
       "epoch": 0.24,
       "learning_rate": 2e-05,
+      "loss": 2.1552,
       "step": 16
     },
     {
       "epoch": 0.27,
       "learning_rate": 2e-05,
+      "loss": 2.119,
       "step": 18
     },
     {
       "epoch": 0.3,
       "learning_rate": 2e-05,
+      "loss": 1.3909,
       "step": 20
     },
     {
       "epoch": 0.33,
       "learning_rate": 2e-05,
+      "loss": 1.466,
       "step": 22
     },
     {
       "epoch": 0.36,
       "learning_rate": 2e-05,
+      "loss": 1.4721,
       "step": 24
     },
     {
       "epoch": 0.39,
       "learning_rate": 2e-05,
+      "loss": 1.2456,
       "step": 26
     },
     {
       "epoch": 0.42,
       "learning_rate": 2e-05,
+      "loss": 1.6284,
       "step": 28
     },
     {
       "epoch": 0.45,
       "learning_rate": 2e-05,
+      "loss": 1.8445,
       "step": 30
     },
     {
       "epoch": 0.48,
       "learning_rate": 2e-05,
+      "loss": 1.9897,
       "step": 32
     },
     {
       "epoch": 0.51,
       "learning_rate": 2e-05,
+      "loss": 1.752,
       "step": 34
     },
     {
       "epoch": 0.54,
       "learning_rate": 2e-05,
+      "loss": 1.7072,
       "step": 36
     },
     {
       "epoch": 0.57,
       "learning_rate": 2e-05,
+      "loss": 1.3132,
       "step": 38
     },
     {
       "epoch": 0.6,
       "learning_rate": 2e-05,
+      "loss": 1.4741,
       "step": 40
     },
     {
       "epoch": 0.63,
       "learning_rate": 2e-05,
+      "loss": 1.2306,
       "step": 42
     },
     {
       "epoch": 0.66,
       "learning_rate": 2e-05,
+      "loss": 1.3345,
       "step": 44
     },
     {
       "epoch": 0.69,
       "learning_rate": 2e-05,
+      "loss": 1.6567,
       "step": 46
     },
     {
       "epoch": 0.72,
       "learning_rate": 2e-05,
+      "loss": 1.7786,
       "step": 48
     },
     {
       "epoch": 0.75,
       "learning_rate": 2e-05,
+      "loss": 2.0943,
       "step": 50
     },
     {
       "epoch": 0.78,
       "learning_rate": 2e-05,
+      "loss": 1.4141,
       "step": 52
     },
     {
       "epoch": 0.81,
       "learning_rate": 2e-05,
+      "loss": 1.3025,
       "step": 54
     },
     {
       "epoch": 0.84,
       "learning_rate": 2e-05,
+      "loss": 1.2642,
       "step": 56
     },
     {
       "epoch": 0.86,
       "learning_rate": 2e-05,
+      "loss": 1.4098,
       "step": 58
     },
     {
       "epoch": 0.89,
       "learning_rate": 2e-05,
+      "loss": 1.4349,
       "step": 60
     },
     {
       "epoch": 0.92,
       "learning_rate": 2e-05,
+      "loss": 1.5567,
       "step": 62
     },
     {
       "epoch": 0.95,
       "learning_rate": 2e-05,
+      "loss": 1.47,
       "step": 64
     },
     {
       "epoch": 0.98,
       "learning_rate": 2e-05,
+      "loss": 1.4701,
       "step": 66
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 3701730966675456.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52fb4bad19dcae53734968d3ad050ff304f1677c89d912c30a8116ba2a464ba1
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:58bb305b49b47459f1e39ace47638ea466580751902f2c21fb66e56da1088f98
 size 4728