Model save

Browse files

Files changed (4) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
trainer_state.json +68 -68
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "o_proj",
-    "v_proj",
     "gate_proj",
-    "up_proj",
     "k_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "down_proj",
     "gate_proj",
+    "q_proj",
     "k_proj",
+    "v_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ffedf39ab0597bf940bb98f1009ed114ebfc7b401e0c2d440df3c5d27932e69
 size 1684597880

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ee301ae8658ad54a8214ec130a4adf65df37c06bfee5f5d0cc110bf91d4ff62
 size 1684597880

trainer_state.json CHANGED Viewed

@@ -10,236 +10,236 @@
   "log_history": [
     {
       "epoch": 0.12135922330097088,
-      "grad_norm": 1.0393857955932617,
       "learning_rate": 9.698956057295461e-05,
-      "loss": 1.1954,
       "step": 250
     },
     {
       "epoch": 0.24271844660194175,
-      "grad_norm": 0.9956526756286621,
       "learning_rate": 9.395484340859432e-05,
-      "loss": 0.6506,
       "step": 500
     },
     {
       "epoch": 0.3640776699029126,
-      "grad_norm": 0.8538560271263123,
       "learning_rate": 9.092012624423404e-05,
-      "loss": 0.551,
       "step": 750
     },
     {
       "epoch": 0.4854368932038835,
-      "grad_norm": 0.7631779909133911,
       "learning_rate": 8.788540907987377e-05,
-      "loss": 0.5112,
       "step": 1000
     },
     {
       "epoch": 0.6067961165048543,
-      "grad_norm": 0.6782851219177246,
       "learning_rate": 8.485069191551348e-05,
-      "loss": 0.4978,
       "step": 1250
     },
     {
       "epoch": 0.7281553398058253,
-      "grad_norm": 0.6814644932746887,
       "learning_rate": 8.181597475115321e-05,
-      "loss": 0.4818,
       "step": 1500
     },
     {
       "epoch": 0.8495145631067961,
-      "grad_norm": 0.6583015322685242,
       "learning_rate": 7.878125758679291e-05,
-      "loss": 0.4743,
       "step": 1750
     },
     {
       "epoch": 0.970873786407767,
-      "grad_norm": 0.5943029522895813,
       "learning_rate": 7.574654042243264e-05,
-      "loss": 0.4671,
       "step": 2000
     },
     {
       "epoch": 1.0922330097087378,
-      "grad_norm": 0.6358692646026611,
       "learning_rate": 7.271182325807235e-05,
-      "loss": 0.4576,
       "step": 2250
     },
     {
       "epoch": 1.2135922330097086,
-      "grad_norm": 0.6650794148445129,
       "learning_rate": 6.967710609371208e-05,
-      "loss": 0.4466,
       "step": 2500
     },
     {
       "epoch": 1.3349514563106797,
-      "grad_norm": 0.6177652478218079,
       "learning_rate": 6.664238892935178e-05,
-      "loss": 0.4414,
       "step": 2750
     },
     {
       "epoch": 1.4563106796116505,
-      "grad_norm": 0.7465215921401978,
       "learning_rate": 6.360767176499151e-05,
-      "loss": 0.4272,
       "step": 3000
     },
     {
       "epoch": 1.5776699029126213,
-      "grad_norm": 0.8073906302452087,
       "learning_rate": 6.0572954600631224e-05,
-      "loss": 0.4104,
       "step": 3250
     },
     {
       "epoch": 1.6990291262135924,
-      "grad_norm": 0.8686108589172363,
       "learning_rate": 5.7538237436270945e-05,
-      "loss": 0.3943,
       "step": 3500
     },
     {
       "epoch": 1.820388349514563,
-      "grad_norm": 0.7997599840164185,
       "learning_rate": 5.450352027191066e-05,
-      "loss": 0.3759,
       "step": 3750
     },
     {
       "epoch": 1.941747572815534,
-      "grad_norm": 0.8568466305732727,
       "learning_rate": 5.146880310755038e-05,
-      "loss": 0.3588,
       "step": 4000
     },
     {
       "epoch": 2.063106796116505,
-      "grad_norm": 0.9695954322814941,
       "learning_rate": 4.84340859431901e-05,
-      "loss": 0.3308,
       "step": 4250
     },
     {
       "epoch": 2.1844660194174756,
-      "grad_norm": 0.9294792413711548,
       "learning_rate": 4.539936877882982e-05,
-      "loss": 0.3118,
       "step": 4500
     },
     {
       "epoch": 2.3058252427184467,
-      "grad_norm": 0.9838653206825256,
       "learning_rate": 4.236465161446954e-05,
-      "loss": 0.3022,
       "step": 4750
     },
     {
       "epoch": 2.4271844660194173,
-      "grad_norm": 1.043236255645752,
       "learning_rate": 3.932993445010925e-05,
-      "loss": 0.2916,
       "step": 5000
     },
     {
       "epoch": 2.5485436893203883,
-      "grad_norm": 0.9233840703964233,
       "learning_rate": 3.6295217285748975e-05,
-      "loss": 0.2817,
       "step": 5250
     },
     {
       "epoch": 2.6699029126213594,
-      "grad_norm": 1.0206633806228638,
       "learning_rate": 3.326050012138869e-05,
-      "loss": 0.2717,
       "step": 5500
     },
     {
       "epoch": 2.79126213592233,
-      "grad_norm": 1.0079368352890015,
       "learning_rate": 3.022578295702841e-05,
-      "loss": 0.268,
       "step": 5750
     },
     {
       "epoch": 2.912621359223301,
-      "grad_norm": 0.9239732623100281,
       "learning_rate": 2.7191065792668125e-05,
-      "loss": 0.2594,
       "step": 6000
     },
     {
       "epoch": 3.033980582524272,
-      "grad_norm": 0.9461367726325989,
       "learning_rate": 2.4156348628307843e-05,
-      "loss": 0.2478,
       "step": 6250
     },
     {
       "epoch": 3.1553398058252426,
-      "grad_norm": 0.9437795877456665,
       "learning_rate": 2.112163146394756e-05,
-      "loss": 0.2338,
       "step": 6500
     },
     {
       "epoch": 3.2766990291262137,
-      "grad_norm": 0.9600566625595093,
       "learning_rate": 1.808691429958728e-05,
-      "loss": 0.2303,
       "step": 6750
     },
     {
       "epoch": 3.3980582524271843,
-      "grad_norm": 1.0476354360580444,
       "learning_rate": 1.5052197135226997e-05,
-      "loss": 0.2274,
       "step": 7000
     },
     {
       "epoch": 3.5194174757281553,
-      "grad_norm": 0.9463278651237488,
       "learning_rate": 1.2017479970866715e-05,
-      "loss": 0.2254,
       "step": 7250
     },
     {
       "epoch": 3.6407766990291264,
-      "grad_norm": 0.9192850589752197,
       "learning_rate": 8.982762806506435e-06,
-      "loss": 0.2232,
       "step": 7500
     },
     {
       "epoch": 3.762135922330097,
-      "grad_norm": 0.9748009443283081,
       "learning_rate": 5.948045642146152e-06,
-      "loss": 0.2199,
       "step": 7750
     },
     {
       "epoch": 3.883495145631068,
-      "grad_norm": 0.9270649552345276,
       "learning_rate": 2.9133284777858704e-06,
-      "loss": 0.2201,
       "step": 8000
     },
     {
       "epoch": 4.0,
       "step": 8240,
       "total_flos": 1.1079720316327956e+18,
-      "train_loss": 0.3791189865001197,
-      "train_runtime": 14726.9623,
-      "train_samples_per_second": 35.808,
-      "train_steps_per_second": 0.56
     }
   ],
   "logging_steps": 250,

   "log_history": [
     {
       "epoch": 0.12135922330097088,
+      "grad_norm": 1.0340704917907715,
       "learning_rate": 9.698956057295461e-05,
+      "loss": 1.2072,
       "step": 250
     },
     {
       "epoch": 0.24271844660194175,
+      "grad_norm": 1.0259687900543213,
       "learning_rate": 9.395484340859432e-05,
+      "loss": 0.6533,
       "step": 500
     },
     {
       "epoch": 0.3640776699029126,
+      "grad_norm": 0.8549349308013916,
       "learning_rate": 9.092012624423404e-05,
+      "loss": 0.5518,
       "step": 750
     },
     {
       "epoch": 0.4854368932038835,
+      "grad_norm": 0.7689054608345032,
       "learning_rate": 8.788540907987377e-05,
+      "loss": 0.5109,
       "step": 1000
     },
     {
       "epoch": 0.6067961165048543,
+      "grad_norm": 0.6630316972732544,
       "learning_rate": 8.485069191551348e-05,
+      "loss": 0.4973,
       "step": 1250
     },
     {
       "epoch": 0.7281553398058253,
+      "grad_norm": 0.6936432719230652,
       "learning_rate": 8.181597475115321e-05,
+      "loss": 0.4815,
       "step": 1500
     },
     {
       "epoch": 0.8495145631067961,
+      "grad_norm": 0.6800591945648193,
       "learning_rate": 7.878125758679291e-05,
+      "loss": 0.4741,
       "step": 1750
     },
     {
       "epoch": 0.970873786407767,
+      "grad_norm": 0.6063706278800964,
       "learning_rate": 7.574654042243264e-05,
+      "loss": 0.4672,
       "step": 2000
     },
     {
       "epoch": 1.0922330097087378,
+      "grad_norm": 0.6320546865463257,
       "learning_rate": 7.271182325807235e-05,
+      "loss": 0.4585,
       "step": 2250
     },
     {
       "epoch": 1.2135922330097086,
+      "grad_norm": 0.6298216581344604,
       "learning_rate": 6.967710609371208e-05,
+      "loss": 0.4474,
       "step": 2500
     },
     {
       "epoch": 1.3349514563106797,
+      "grad_norm": 0.6066320538520813,
       "learning_rate": 6.664238892935178e-05,
+      "loss": 0.4425,
       "step": 2750
     },
     {
       "epoch": 1.4563106796116505,
+      "grad_norm": 0.7594243884086609,
       "learning_rate": 6.360767176499151e-05,
+      "loss": 0.4289,
       "step": 3000
     },
     {
       "epoch": 1.5776699029126213,
+      "grad_norm": 0.8379995822906494,
       "learning_rate": 6.0572954600631224e-05,
+      "loss": 0.4119,
       "step": 3250
     },
     {
       "epoch": 1.6990291262135924,
+      "grad_norm": 0.8765040040016174,
       "learning_rate": 5.7538237436270945e-05,
+      "loss": 0.3954,
       "step": 3500
     },
     {
       "epoch": 1.820388349514563,
+      "grad_norm": 0.8040120005607605,
       "learning_rate": 5.450352027191066e-05,
+      "loss": 0.3772,
       "step": 3750
     },
     {
       "epoch": 1.941747572815534,
+      "grad_norm": 0.8949540257453918,
       "learning_rate": 5.146880310755038e-05,
+      "loss": 0.3596,
       "step": 4000
     },
     {
       "epoch": 2.063106796116505,
+      "grad_norm": 0.986718475818634,
       "learning_rate": 4.84340859431901e-05,
+      "loss": 0.332,
       "step": 4250
     },
     {
       "epoch": 2.1844660194174756,
+      "grad_norm": 0.9565535187721252,
       "learning_rate": 4.539936877882982e-05,
+      "loss": 0.313,
       "step": 4500
     },
     {
       "epoch": 2.3058252427184467,
+      "grad_norm": 0.9416393041610718,
       "learning_rate": 4.236465161446954e-05,
+      "loss": 0.3034,
       "step": 4750
     },
     {
       "epoch": 2.4271844660194173,
+      "grad_norm": 1.002323865890503,
       "learning_rate": 3.932993445010925e-05,
+      "loss": 0.2928,
       "step": 5000
     },
     {
       "epoch": 2.5485436893203883,
+      "grad_norm": 0.9281540513038635,
       "learning_rate": 3.6295217285748975e-05,
+      "loss": 0.2829,
       "step": 5250
     },
     {
       "epoch": 2.6699029126213594,
+      "grad_norm": 1.0740528106689453,
       "learning_rate": 3.326050012138869e-05,
+      "loss": 0.2732,
       "step": 5500
     },
     {
       "epoch": 2.79126213592233,
+      "grad_norm": 0.952369749546051,
       "learning_rate": 3.022578295702841e-05,
+      "loss": 0.2692,
       "step": 5750
     },
     {
       "epoch": 2.912621359223301,
+      "grad_norm": 0.9148930907249451,
       "learning_rate": 2.7191065792668125e-05,
+      "loss": 0.261,
       "step": 6000
     },
     {
       "epoch": 3.033980582524272,
+      "grad_norm": 0.9394662380218506,
       "learning_rate": 2.4156348628307843e-05,
+      "loss": 0.2489,
       "step": 6250
     },
     {
       "epoch": 3.1553398058252426,
+      "grad_norm": 0.9207432866096497,
       "learning_rate": 2.112163146394756e-05,
+      "loss": 0.2351,
       "step": 6500
     },
     {
       "epoch": 3.2766990291262137,
+      "grad_norm": 0.9576259255409241,
       "learning_rate": 1.808691429958728e-05,
+      "loss": 0.2315,
       "step": 6750
     },
     {
       "epoch": 3.3980582524271843,
+      "grad_norm": 1.0424150228500366,
       "learning_rate": 1.5052197135226997e-05,
+      "loss": 0.2287,
       "step": 7000
     },
     {
       "epoch": 3.5194174757281553,
+      "grad_norm": 0.9650384783744812,
       "learning_rate": 1.2017479970866715e-05,
+      "loss": 0.2267,
       "step": 7250
     },
     {
       "epoch": 3.6407766990291264,
+      "grad_norm": 0.939440131187439,
       "learning_rate": 8.982762806506435e-06,
+      "loss": 0.2245,
       "step": 7500
     },
     {
       "epoch": 3.762135922330097,
+      "grad_norm": 0.9506264328956604,
       "learning_rate": 5.948045642146152e-06,
+      "loss": 0.221,
       "step": 7750
     },
     {
       "epoch": 3.883495145631068,
+      "grad_norm": 0.9145563244819641,
       "learning_rate": 2.9133284777858704e-06,
+      "loss": 0.2214,
       "step": 8000
     },
     {
       "epoch": 4.0,
       "step": 8240,
       "total_flos": 1.1079720316327956e+18,
+      "train_loss": 0.38045854198122486,
+      "train_runtime": 14779.6974,
+      "train_samples_per_second": 35.681,
+      "train_steps_per_second": 0.558
     }
   ],
   "logging_steps": 250,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac98a665fe707fe94a20db3f47d62ea7c31846737e65457326b6b755afe26e04
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e2e5010aee0656a196ff6fb1e40552ae9c562641a4e0fd86668ac7f370da2f9
 size 5240