Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
checkpoint-100/adapter_config.json +3 -3
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +20 -20
checkpoint-100/training_args.bin +1 -1
checkpoint-200/adapter_config.json +3 -3
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/trainer_state.json +39 -39
checkpoint-200/training_args.bin +1 -1
runs/Nov25_04-13-55_fa8d08851cd4/events.out.tfevents.1732508036.fa8d08851cd4.17420.0 +3 -0
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "up_proj",
-    "o_proj",
-    "down_proj",
     "k_proj",
     "q_proj",
     "v_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "up_proj",
     "k_proj",
+    "down_proj",
     "q_proj",
+    "gate_proj",
     "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8e7e320c2515e05b12ff894fc7306d9df4f2b992a1f2c3ad9dd364c34ebfd29
 size 39256456

 version https://git-lfs.github.com/spec/v1
+oid sha256:446b7bc018c5325fe2f65edba45a90184b0b9dcd2790d2a11547c257ebf891e3
 size 39256456

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "up_proj",
-    "o_proj",
-    "down_proj",
     "k_proj",
     "q_proj",
     "v_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "up_proj",
     "k_proj",
+    "down_proj",
     "q_proj",
+    "gate_proj",
     "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89ccff7ae76abcb835b2e1ebef43ea73f14e603f98315ba302e6ce7169eef1f1
 size 39256456

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f51c614f56ddd64b5615445f23c73ac6181027a5eef12e2765f4eff803a4926
 size 39256456

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc2fc2d4aca71ae4fa1991e54d9ac27cd84631f3a5e6a27d64af8bceaa2ce777
 size 20635834

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b1f8ce6e76d5cf076a3c3291bc596d7ad36fc5f2ed9ecb6f072bb890caf4ca8
 size 20635834

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -10,72 +10,72 @@
   "log_history": [
     {
       "epoch": 0.03988035892323031,
-      "grad_norm": 6.024393558502197,
       "learning_rate": 0.0002,
-      "loss": 3.2049,
       "step": 10
     },
     {
       "epoch": 0.07976071784646062,
-      "grad_norm": 3.6100919246673584,
       "learning_rate": 0.00019863613034027224,
-      "loss": 0.8916,
       "step": 20
     },
     {
       "epoch": 0.11964107676969092,
-      "grad_norm": 1.843531608581543,
       "learning_rate": 0.00019458172417006347,
-      "loss": 0.4496,
       "step": 30
     },
     {
       "epoch": 0.15952143569292124,
-      "grad_norm": 1.59629225730896,
       "learning_rate": 0.0001879473751206489,
-      "loss": 0.3526,
       "step": 40
     },
     {
       "epoch": 0.19940179461615154,
-      "grad_norm": 0.9489805698394775,
       "learning_rate": 0.00017891405093963938,
-      "loss": 0.3482,
       "step": 50
     },
     {
       "epoch": 0.23928215353938184,
-      "grad_norm": 1.2401009798049927,
       "learning_rate": 0.00016772815716257412,
-      "loss": 0.3336,
       "step": 60
     },
     {
       "epoch": 0.27916251246261214,
-      "grad_norm": 0.8325626850128174,
       "learning_rate": 0.00015469481581224272,
-      "loss": 0.3021,
       "step": 70
     },
     {
       "epoch": 0.3190428713858425,
-      "grad_norm": 1.3338687419891357,
       "learning_rate": 0.00014016954246529696,
-      "loss": 0.2946,
       "step": 80
     },
     {
       "epoch": 0.3589232303090728,
-      "grad_norm": 1.0984019041061401,
       "learning_rate": 0.00012454854871407994,
-      "loss": 0.304,
       "step": 90
     },
     {
       "epoch": 0.3988035892323031,
-      "grad_norm": 1.0798895359039307,
       "learning_rate": 0.00010825793454723325,
-      "loss": 0.3087,
       "step": 100
     }
   ],

   "log_history": [
     {
       "epoch": 0.03988035892323031,
+      "grad_norm": 13.419048309326172,
       "learning_rate": 0.0002,
+      "loss": 3.2212,
       "step": 10
     },
     {
       "epoch": 0.07976071784646062,
+      "grad_norm": 3.605897903442383,
       "learning_rate": 0.00019863613034027224,
+      "loss": 0.9339,
       "step": 20
     },
     {
       "epoch": 0.11964107676969092,
+      "grad_norm": 1.9724041223526,
       "learning_rate": 0.00019458172417006347,
+      "loss": 0.4623,
       "step": 30
     },
     {
       "epoch": 0.15952143569292124,
+      "grad_norm": 1.7109146118164062,
       "learning_rate": 0.0001879473751206489,
+      "loss": 0.3536,
       "step": 40
     },
     {
       "epoch": 0.19940179461615154,
+      "grad_norm": 0.9077266454696655,
       "learning_rate": 0.00017891405093963938,
+      "loss": 0.3476,
       "step": 50
     },
     {
       "epoch": 0.23928215353938184,
+      "grad_norm": 1.310617446899414,
       "learning_rate": 0.00016772815716257412,
+      "loss": 0.3369,
       "step": 60
     },
     {
       "epoch": 0.27916251246261214,
+      "grad_norm": 0.8259612321853638,
       "learning_rate": 0.00015469481581224272,
+      "loss": 0.3062,
       "step": 70
     },
     {
       "epoch": 0.3190428713858425,
+      "grad_norm": 1.113377571105957,
       "learning_rate": 0.00014016954246529696,
+      "loss": 0.2959,
       "step": 80
     },
     {
       "epoch": 0.3589232303090728,
+      "grad_norm": 1.0124801397323608,
       "learning_rate": 0.00012454854871407994,
+      "loss": 0.3015,
       "step": 90
     },
     {
       "epoch": 0.3988035892323031,
+      "grad_norm": 2.501101016998291,
       "learning_rate": 0.00010825793454723325,
+      "loss": 0.31,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5180f4d838d4cb540ceade68186ba0ddf036dae06c00e098403c333bb5f631bb
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdf0ef5a9df3c94b8e9a929302c79114e13ffa4c53b39022c4b0704a368ac5c0
 size 5304

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "up_proj",
-    "o_proj",
-    "down_proj",
     "k_proj",
     "q_proj",
     "v_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "up_proj",
     "k_proj",
+    "down_proj",
     "q_proj",
+    "gate_proj",
     "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8e7e320c2515e05b12ff894fc7306d9df4f2b992a1f2c3ad9dd364c34ebfd29
 size 39256456

 version https://git-lfs.github.com/spec/v1
+oid sha256:446b7bc018c5325fe2f65edba45a90184b0b9dcd2790d2a11547c257ebf891e3
 size 39256456

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea0dfcf0c78faccb57683275571a2128d9db3fb35f0b12df63052b6c36c7c409
 size 20635834

 version https://git-lfs.github.com/spec/v1
+oid sha256:188d58e74e4fb328b053f4e2f4b75fa6e0b79127978b21b899ee5966645ee32c
 size 20635834

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -10,142 +10,142 @@
   "log_history": [
     {
       "epoch": 0.03988035892323031,
-      "grad_norm": 6.024393558502197,
       "learning_rate": 0.0002,
-      "loss": 3.2049,
       "step": 10
     },
     {
       "epoch": 0.07976071784646062,
-      "grad_norm": 3.6100919246673584,
       "learning_rate": 0.00019863613034027224,
-      "loss": 0.8916,
       "step": 20
     },
     {
       "epoch": 0.11964107676969092,
-      "grad_norm": 1.843531608581543,
       "learning_rate": 0.00019458172417006347,
-      "loss": 0.4496,
       "step": 30
     },
     {
       "epoch": 0.15952143569292124,
-      "grad_norm": 1.59629225730896,
       "learning_rate": 0.0001879473751206489,
-      "loss": 0.3526,
       "step": 40
     },
     {
       "epoch": 0.19940179461615154,
-      "grad_norm": 0.9489805698394775,
       "learning_rate": 0.00017891405093963938,
-      "loss": 0.3482,
       "step": 50
     },
     {
       "epoch": 0.23928215353938184,
-      "grad_norm": 1.2401009798049927,
       "learning_rate": 0.00016772815716257412,
-      "loss": 0.3336,
       "step": 60
     },
     {
       "epoch": 0.27916251246261214,
-      "grad_norm": 0.8325626850128174,
       "learning_rate": 0.00015469481581224272,
-      "loss": 0.3021,
       "step": 70
     },
     {
       "epoch": 0.3190428713858425,
-      "grad_norm": 1.3338687419891357,
       "learning_rate": 0.00014016954246529696,
-      "loss": 0.2946,
       "step": 80
     },
     {
       "epoch": 0.3589232303090728,
-      "grad_norm": 1.0984019041061401,
       "learning_rate": 0.00012454854871407994,
-      "loss": 0.304,
       "step": 90
     },
     {
       "epoch": 0.3988035892323031,
-      "grad_norm": 1.0798895359039307,
       "learning_rate": 0.00010825793454723325,
-      "loss": 0.3087,
       "step": 100
     },
     {
       "epoch": 0.4386839481555334,
-      "grad_norm": 0.8014242649078369,
       "learning_rate": 9.174206545276677e-05,
-      "loss": 0.2845,
       "step": 110
     },
     {
       "epoch": 0.4785643070787637,
-      "grad_norm": 0.977449893951416,
       "learning_rate": 7.54514512859201e-05,
-      "loss": 0.2686,
       "step": 120
     },
     {
       "epoch": 0.518444666001994,
-      "grad_norm": 0.9170244932174683,
       "learning_rate": 5.983045753470308e-05,
-      "loss": 0.2706,
       "step": 130
     },
     {
       "epoch": 0.5583250249252243,
-      "grad_norm": 0.8368204832077026,
       "learning_rate": 4.530518418775733e-05,
-      "loss": 0.2496,
       "step": 140
     },
     {
       "epoch": 0.5982053838484547,
-      "grad_norm": 0.6734907031059265,
       "learning_rate": 3.227184283742591e-05,
-      "loss": 0.2433,
       "step": 150
     },
     {
       "epoch": 0.638085742771685,
-      "grad_norm": 0.7272112965583801,
       "learning_rate": 2.1085949060360654e-05,
       "loss": 0.2453,
       "step": 160
     },
     {
       "epoch": 0.6779661016949152,
-      "grad_norm": 0.7936705946922302,
       "learning_rate": 1.2052624879351104e-05,
-      "loss": 0.2641,
       "step": 170
     },
     {
       "epoch": 0.7178464606181456,
-      "grad_norm": 0.9577926993370056,
       "learning_rate": 5.418275829936537e-06,
-      "loss": 0.2654,
       "step": 180
     },
     {
       "epoch": 0.7577268195413759,
-      "grad_norm": 0.7470963001251221,
       "learning_rate": 1.3638696597277679e-06,
-      "loss": 0.2473,
       "step": 190
     },
     {
       "epoch": 0.7976071784646062,
-      "grad_norm": 0.8815382122993469,
       "learning_rate": 0.0,
-      "loss": 0.2575,
       "step": 200
     }
   ],

   "log_history": [
     {
       "epoch": 0.03988035892323031,
+      "grad_norm": 13.419048309326172,
       "learning_rate": 0.0002,
+      "loss": 3.2212,
       "step": 10
     },
     {
       "epoch": 0.07976071784646062,
+      "grad_norm": 3.605897903442383,
       "learning_rate": 0.00019863613034027224,
+      "loss": 0.9339,
       "step": 20
     },
     {
       "epoch": 0.11964107676969092,
+      "grad_norm": 1.9724041223526,
       "learning_rate": 0.00019458172417006347,
+      "loss": 0.4623,
       "step": 30
     },
     {
       "epoch": 0.15952143569292124,
+      "grad_norm": 1.7109146118164062,
       "learning_rate": 0.0001879473751206489,
+      "loss": 0.3536,
       "step": 40
     },
     {
       "epoch": 0.19940179461615154,
+      "grad_norm": 0.9077266454696655,
       "learning_rate": 0.00017891405093963938,
+      "loss": 0.3476,
       "step": 50
     },
     {
       "epoch": 0.23928215353938184,
+      "grad_norm": 1.310617446899414,
       "learning_rate": 0.00016772815716257412,
+      "loss": 0.3369,
       "step": 60
     },
     {
       "epoch": 0.27916251246261214,
+      "grad_norm": 0.8259612321853638,
       "learning_rate": 0.00015469481581224272,
+      "loss": 0.3062,
       "step": 70
     },
     {
       "epoch": 0.3190428713858425,
+      "grad_norm": 1.113377571105957,
       "learning_rate": 0.00014016954246529696,
+      "loss": 0.2959,
       "step": 80
     },
     {
       "epoch": 0.3589232303090728,
+      "grad_norm": 1.0124801397323608,
       "learning_rate": 0.00012454854871407994,
+      "loss": 0.3015,
       "step": 90
     },
     {
       "epoch": 0.3988035892323031,
+      "grad_norm": 2.501101016998291,
       "learning_rate": 0.00010825793454723325,
+      "loss": 0.31,
       "step": 100
     },
     {
       "epoch": 0.4386839481555334,
+      "grad_norm": 0.782170832157135,
       "learning_rate": 9.174206545276677e-05,
+      "loss": 0.2866,
       "step": 110
     },
     {
       "epoch": 0.4785643070787637,
+      "grad_norm": 0.9728937745094299,
       "learning_rate": 7.54514512859201e-05,
+      "loss": 0.2685,
       "step": 120
     },
     {
       "epoch": 0.518444666001994,
+      "grad_norm": 0.9312043190002441,
       "learning_rate": 5.983045753470308e-05,
+      "loss": 0.2708,
       "step": 130
     },
     {
       "epoch": 0.5583250249252243,
+      "grad_norm": 0.8518964648246765,
       "learning_rate": 4.530518418775733e-05,
+      "loss": 0.2512,
       "step": 140
     },
     {
       "epoch": 0.5982053838484547,
+      "grad_norm": 0.6809622645378113,
       "learning_rate": 3.227184283742591e-05,
+      "loss": 0.2421,
       "step": 150
     },
     {
       "epoch": 0.638085742771685,
+      "grad_norm": 0.7239226698875427,
       "learning_rate": 2.1085949060360654e-05,
       "loss": 0.2453,
       "step": 160
     },
     {
       "epoch": 0.6779661016949152,
+      "grad_norm": 0.7479511499404907,
       "learning_rate": 1.2052624879351104e-05,
+      "loss": 0.2636,
       "step": 170
     },
     {
       "epoch": 0.7178464606181456,
+      "grad_norm": 0.9504374861717224,
       "learning_rate": 5.418275829936537e-06,
+      "loss": 0.2658,
       "step": 180
     },
     {
       "epoch": 0.7577268195413759,
+      "grad_norm": 0.7279093861579895,
       "learning_rate": 1.3638696597277679e-06,
+      "loss": 0.2461,
       "step": 190
     },
     {
       "epoch": 0.7976071784646062,
+      "grad_norm": 0.9317768216133118,
       "learning_rate": 0.0,
+      "loss": 0.2577,
       "step": 200
     }
   ],

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5180f4d838d4cb540ceade68186ba0ddf036dae06c00e098403c333bb5f631bb
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdf0ef5a9df3c94b8e9a929302c79114e13ffa4c53b39022c4b0704a368ac5c0
 size 5304

runs/Nov25_04-13-55_fa8d08851cd4/events.out.tfevents.1732508036.fa8d08851cd4.17420.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94dc0d4583f22f43b1b2d9d35a266f2a36fdf3549981fb4c44b3afc7a2dcbcc9
+size 10163

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5180f4d838d4cb540ceade68186ba0ddf036dae06c00e098403c333bb5f631bb
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdf0ef5a9df3c94b8e9a929302c79114e13ffa4c53b39022c4b0704a368ac5c0
 size 5304