End of training

Browse files

Files changed (8) hide show

.gitattributes +1 -0
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
all_results.json +4 -4
kang/kang_2.wav +3 -0
train_results.json +4 -4
trainer_state.json +52 -157
training_args.bin +1 -1

.gitattributes CHANGED Viewed

@@ -41,3 +41,4 @@ kang/kang[[:space:]](6).wav filter=lfs diff=lfs merge=lfs -text
 kang/kang[[:space:]](8).wav filter=lfs diff=lfs merge=lfs -text
 kang/kang[[:space:]](9).wav filter=lfs diff=lfs merge=lfs -text
 kang/kang_1.wav filter=lfs diff=lfs merge=lfs -text

 kang/kang[[:space:]](8).wav filter=lfs diff=lfs merge=lfs -text
 kang/kang[[:space:]](9).wav filter=lfs diff=lfs merge=lfs -text
 kang/kang_1.wav filter=lfs diff=lfs merge=lfs -text
+kang/kang_2.wav filter=lfs diff=lfs merge=lfs -text

adapter_config.json CHANGED Viewed

@@ -27,8 +27,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "v_proj"
   ],
   "task_type": null,
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df88e0c996327c515e25de6a58c119ceadd953b0f82a9129e4a7a2897cc8ea64
 size 7098064

 version https://git-lfs.github.com/spec/v1
+oid sha256:63bc963057a86f8afa5f6de9fd9f42b884bd976ba06efda3654a50ae41657833
 size 7098064

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
     "total_flos": 2.42193908736e+18,
-    "train_loss": 0.3701638735680484,
-    "train_runtime": 4045.1211,
-    "train_samples_per_second": 2.057,
-    "train_steps_per_second": 0.257
 }

 {
     "epoch": 3.0,
     "total_flos": 2.42193908736e+18,
+    "train_loss": 0.6797876440482455,
+    "train_runtime": 2875.7206,
+    "train_samples_per_second": 2.893,
+    "train_steps_per_second": 0.362
 }

kang/kang_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db45dcf47c641aae00d68e0957b7756cf38107c1589d43c4aa54192a696894bb
+size 830764

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
     "total_flos": 2.42193908736e+18,
-    "train_loss": 0.3701638735680484,
-    "train_runtime": 4045.1211,
-    "train_samples_per_second": 2.057,
-    "train_steps_per_second": 0.257
 }

 {
     "epoch": 3.0,
     "total_flos": 2.42193908736e+18,
+    "train_loss": 0.6797876440482455,
+    "train_runtime": 2875.7206,
+    "train_samples_per_second": 2.893,
+    "train_steps_per_second": 0.362
 }

trainer_state.json CHANGED Viewed

@@ -2,237 +2,132 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
-  "eval_steps": 100,
   "global_step": 1041,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.1440922190201729,
-      "grad_norm": 2.598850727081299,
-      "learning_rate": 0.0001903938520653218,
-      "loss": 0.6467,
-      "step": 50
-    },
-    {
-      "epoch": 0.2881844380403458,
-      "grad_norm": 2.249300956726074,
-      "learning_rate": 0.00018078770413064362,
-      "loss": 0.4668,
-      "step": 100
-    },
     {
       "epoch": 0.2881844380403458,
-      "eval_runtime": 232.7234,
-      "eval_samples_per_second": 5.315,
-      "eval_steps_per_second": 2.66,
       "step": 100
     },
-    {
-      "epoch": 0.4322766570605187,
-      "grad_norm": 1.964786410331726,
-      "learning_rate": 0.00017118155619596544,
-      "loss": 0.4482,
-      "step": 150
-    },
     {
       "epoch": 0.5763688760806917,
-      "grad_norm": 1.8695533275604248,
-      "learning_rate": 0.00016157540826128723,
-      "loss": 0.4197,
       "step": 200
     },
     {
       "epoch": 0.5763688760806917,
-      "eval_runtime": 227.4078,
-      "eval_samples_per_second": 5.44,
-      "eval_steps_per_second": 2.722,
       "step": 200
     },
-    {
-      "epoch": 0.7204610951008645,
-      "grad_norm": 1.8768256902694702,
-      "learning_rate": 0.00015196926032660902,
-      "loss": 0.4265,
-      "step": 250
-    },
     {
       "epoch": 0.8645533141210374,
-      "grad_norm": 1.8593772649765015,
-      "learning_rate": 0.00014236311239193086,
-      "loss": 0.4039,
       "step": 300
     },
-    {
-      "epoch": 0.8645533141210374,
-      "eval_runtime": 225.9543,
-      "eval_samples_per_second": 5.475,
-      "eval_steps_per_second": 2.739,
-      "step": 300
-    },
-    {
-      "epoch": 1.0086455331412103,
-      "grad_norm": 1.2640736103057861,
-      "learning_rate": 0.00013275696445725266,
-      "loss": 0.3906,
-      "step": 350
-    },
     {
       "epoch": 1.1527377521613833,
-      "grad_norm": 1.3723323345184326,
-      "learning_rate": 0.00012315081652257445,
-      "loss": 0.3547,
       "step": 400
     },
     {
       "epoch": 1.1527377521613833,
-      "eval_runtime": 226.5998,
-      "eval_samples_per_second": 5.459,
-      "eval_steps_per_second": 2.732,
       "step": 400
     },
-    {
-      "epoch": 1.2968299711815563,
-      "grad_norm": 1.395857810974121,
-      "learning_rate": 0.00011354466858789625,
-      "loss": 0.3402,
-      "step": 450
-    },
-    {
-      "epoch": 1.440922190201729,
-      "grad_norm": 1.6172202825546265,
-      "learning_rate": 0.00010393852065321807,
-      "loss": 0.34,
-      "step": 500
-    },
     {
       "epoch": 1.440922190201729,
-      "eval_runtime": 227.4832,
-      "eval_samples_per_second": 5.438,
-      "eval_steps_per_second": 2.721,
       "step": 500
     },
-    {
-      "epoch": 1.585014409221902,
-      "grad_norm": 1.5597540140151978,
-      "learning_rate": 9.433237271853987e-05,
-      "loss": 0.337,
-      "step": 550
-    },
     {
       "epoch": 1.729106628242075,
-      "grad_norm": 1.3169169425964355,
-      "learning_rate": 8.472622478386168e-05,
-      "loss": 0.3597,
       "step": 600
     },
     {
       "epoch": 1.729106628242075,
-      "eval_runtime": 224.0401,
-      "eval_samples_per_second": 5.521,
-      "eval_steps_per_second": 2.763,
       "step": 600
     },
-    {
-      "epoch": 1.8731988472622478,
-      "grad_norm": 1.5286619663238525,
-      "learning_rate": 7.512007684918348e-05,
-      "loss": 0.3541,
-      "step": 650
-    },
-    {
-      "epoch": 2.0172910662824206,
-      "grad_norm": 1.4207804203033447,
-      "learning_rate": 6.551392891450529e-05,
-      "loss": 0.3503,
-      "step": 700
-    },
     {
       "epoch": 2.0172910662824206,
-      "eval_runtime": 229.2463,
-      "eval_samples_per_second": 5.396,
-      "eval_steps_per_second": 2.7,
       "step": 700
     },
-    {
-      "epoch": 2.161383285302594,
-      "grad_norm": 1.2903691530227661,
-      "learning_rate": 5.59077809798271e-05,
-      "loss": 0.3175,
-      "step": 750
-    },
     {
       "epoch": 2.3054755043227666,
-      "grad_norm": 1.656386375427246,
-      "learning_rate": 4.63016330451489e-05,
-      "loss": 0.3074,
       "step": 800
     },
     {
       "epoch": 2.3054755043227666,
-      "eval_runtime": 228.7555,
-      "eval_samples_per_second": 5.408,
-      "eval_steps_per_second": 2.706,
       "step": 800
     },
-    {
-      "epoch": 2.4495677233429394,
-      "grad_norm": 1.3060048818588257,
-      "learning_rate": 3.66954851104707e-05,
-      "loss": 0.3095,
-      "step": 850
-    },
-    {
-      "epoch": 2.5936599423631126,
-      "grad_norm": 1.136078953742981,
-      "learning_rate": 2.7089337175792506e-05,
-      "loss": 0.2877,
-      "step": 900
-    },
     {
       "epoch": 2.5936599423631126,
-      "eval_runtime": 228.5101,
-      "eval_samples_per_second": 5.413,
-      "eval_steps_per_second": 2.709,
       "step": 900
     },
-    {
-      "epoch": 2.7377521613832854,
-      "grad_norm": 1.0104094743728638,
-      "learning_rate": 1.7483189241114314e-05,
-      "loss": 0.2997,
-      "step": 950
-    },
     {
       "epoch": 2.881844380403458,
-      "grad_norm": 1.434010624885559,
-      "learning_rate": 7.87704130643612e-06,
-      "loss": 0.2896,
       "step": 1000
     },
     {
       "epoch": 2.881844380403458,
-      "eval_runtime": 226.8836,
-      "eval_samples_per_second": 5.452,
-      "eval_steps_per_second": 2.728,
       "step": 1000
     },
     {
       "epoch": 3.0,
       "step": 1041,
       "total_flos": 2.42193908736e+18,
-      "train_loss": 0.3701638735680484,
-      "train_runtime": 4045.1211,
-      "train_samples_per_second": 2.057,
-      "train_steps_per_second": 0.257
     }
   ],
-  "logging_steps": 50,
   "max_steps": 1041,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
+  "eval_steps": 200,
   "global_step": 1041,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2881844380403458,
+      "grad_norm": 1.327895164489746,
+      "learning_rate": 0.0001815561959654179,
+      "loss": 3.1246,
       "step": 100
     },
     {
       "epoch": 0.5763688760806917,
+      "grad_norm": 1.4119809865951538,
+      "learning_rate": 0.00016234390009606147,
+      "loss": 0.8831,
       "step": 200
     },
     {
       "epoch": 0.5763688760806917,
+      "eval_runtime": 221.4793,
+      "eval_samples_per_second": 5.585,
+      "eval_steps_per_second": 2.795,
       "step": 200
     },
     {
       "epoch": 0.8645533141210374,
+      "grad_norm": 1.9445453882217407,
+      "learning_rate": 0.0001431316042267051,
+      "loss": 0.4528,
       "step": 300
     },
     {
       "epoch": 1.1527377521613833,
+      "grad_norm": 1.2831073999404907,
+      "learning_rate": 0.00012391930835734872,
+      "loss": 0.4009,
       "step": 400
     },
     {
       "epoch": 1.1527377521613833,
+      "eval_runtime": 222.2115,
+      "eval_samples_per_second": 5.567,
+      "eval_steps_per_second": 2.786,
       "step": 400
     },
     {
       "epoch": 1.440922190201729,
+      "grad_norm": 1.79501473903656,
+      "learning_rate": 0.00010470701248799233,
+      "loss": 0.368,
       "step": 500
     },
     {
       "epoch": 1.729106628242075,
+      "grad_norm": 1.340496301651001,
+      "learning_rate": 8.549471661863592e-05,
+      "loss": 0.3721,
       "step": 600
     },
     {
       "epoch": 1.729106628242075,
+      "eval_runtime": 223.5538,
+      "eval_samples_per_second": 5.533,
+      "eval_steps_per_second": 2.769,
       "step": 600
     },
     {
       "epoch": 2.0172910662824206,
+      "grad_norm": 1.4648982286453247,
+      "learning_rate": 6.628242074927953e-05,
+      "loss": 0.3737,
       "step": 700
     },
     {
       "epoch": 2.3054755043227666,
+      "grad_norm": 1.6813404560089111,
+      "learning_rate": 4.7070124879923156e-05,
+      "loss": 0.3306,
       "step": 800
     },
     {
       "epoch": 2.3054755043227666,
+      "eval_runtime": 224.219,
+      "eval_samples_per_second": 5.517,
+      "eval_steps_per_second": 2.761,
       "step": 800
     },
     {
       "epoch": 2.5936599423631126,
+      "grad_norm": 1.084306001663208,
+      "learning_rate": 2.7857829010566765e-05,
+      "loss": 0.3155,
       "step": 900
     },
     {
       "epoch": 2.881844380403458,
+      "grad_norm": 1.6043856143951416,
+      "learning_rate": 8.645533141210376e-06,
+      "loss": 0.3168,
       "step": 1000
     },
     {
       "epoch": 2.881844380403458,
+      "eval_runtime": 225.5438,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 2.744,
       "step": 1000
     },
     {
       "epoch": 3.0,
       "step": 1041,
       "total_flos": 2.42193908736e+18,
+      "train_loss": 0.6797876440482455,
+      "train_runtime": 2875.7206,
+      "train_samples_per_second": 2.893,
+      "train_steps_per_second": 0.362
     }
   ],
+  "logging_steps": 100,
   "max_steps": 1041,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ecfa4925538d5d694197138cbcc95396fedc580f5bf53b61a2b5623a82235f7
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:10fe486164d02b5141ca201b6f0bd243d13bc3799a3938aa4a56750bdd9b4ffb
 size 5304