Model daha fazla veri ile yeniden optimize edildi

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +90 -202
training_args.bin +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e39da7665c37f20b94b26e31013d0e7acb670a7c74118d111cd44ddd1f15adab
 size 2477521472

 version https://git-lfs.github.com/spec/v1
+oid sha256:18ae60214b33882a057a639ec4a80e96b390320019843720440e62ed048d966f
 size 2477521472

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a1cc8e1d26188ecee29d6fd87211e606a652a58f617330497529cfa4e0a358
 size 4955506101

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a62f248e0eb1d0200aebd2a333194203aaa205a130aff2ff222f3a2df6e8f54
 size 4955506101

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:269dbf2213fadf2fab87d4e6cb9754109bbb43bf28ee2ee952a420ea0870b34f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fabe990932866923517fededfb8def95df36b72db0e74bc97b6f5d0f3574b81e
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b097d732cba2ad47b9977234e3349f0a6ee2c416c7a8fb6f99d6ff0b3dd99027
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b954775169ae5b7aa230f7be73e03f3869c27dd6f4a8086af73720d31b5722b5
 size 1064

trainer_state.json CHANGED Viewed

@@ -3,256 +3,144 @@
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 15010,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.1665556295802798,
-      "grad_norm": 1.6862213611602783,
-      "learning_rate": 0.00048334443704197203,
-      "loss": 2.122,
       "step": 500
     },
     {
-      "epoch": 0.3331112591605596,
-      "grad_norm": 0.9895781874656677,
-      "learning_rate": 0.00046668887408394405,
-      "loss": 1.6754,
       "step": 1000
     },
     {
-      "epoch": 0.4996668887408394,
-      "grad_norm": 1.4011154174804688,
-      "learning_rate": 0.00045003331112591607,
-      "loss": 1.5258,
       "step": 1500
     },
     {
-      "epoch": 0.6662225183211192,
-      "grad_norm": 1.263901948928833,
-      "learning_rate": 0.0004333777481678881,
-      "loss": 1.3949,
       "step": 2000
     },
     {
-      "epoch": 0.832778147901399,
-      "grad_norm": 0.9926736354827881,
-      "learning_rate": 0.0004167221852098601,
-      "loss": 1.323,
       "step": 2500
     },
     {
-      "epoch": 0.9993337774816788,
-      "grad_norm": 1.2104265689849854,
-      "learning_rate": 0.0004000666222518321,
-      "loss": 1.2978,
-      "step": 3000
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 1.1156065464019775,
-      "eval_runtime": 37.2553,
-      "eval_samples_per_second": 80.579,
-      "eval_steps_per_second": 10.093,
-      "step": 3002
     },
     {
-      "epoch": 1.1658894070619588,
-      "grad_norm": 0.9220499992370605,
-      "learning_rate": 0.00038341105929380414,
-      "loss": 0.964,
       "step": 3500
     },
     {
-      "epoch": 1.3324450366422385,
-      "grad_norm": 1.2684720754623413,
-      "learning_rate": 0.00036675549633577616,
-      "loss": 0.9784,
       "step": 4000
     },
     {
-      "epoch": 1.4990006662225184,
-      "grad_norm": 1.3914306163787842,
-      "learning_rate": 0.0003500999333777481,
-      "loss": 0.9265,
       "step": 4500
     },
     {
-      "epoch": 1.6655562958027983,
-      "grad_norm": 1.0393187999725342,
-      "learning_rate": 0.0003334443704197202,
-      "loss": 0.9401,
       "step": 5000
     },
     {
-      "epoch": 1.832111925383078,
-      "grad_norm": 1.1595275402069092,
-      "learning_rate": 0.0003167888074616922,
-      "loss": 0.9091,
       "step": 5500
     },
     {
-      "epoch": 1.9986675549633577,
-      "grad_norm": 1.2401949167251587,
-      "learning_rate": 0.00030013324450366423,
-      "loss": 0.9271,
-      "step": 6000
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.9488099217414856,
-      "eval_runtime": 37.415,
-      "eval_samples_per_second": 80.235,
-      "eval_steps_per_second": 10.049,
-      "step": 6004
     },
     {
-      "epoch": 2.1652231845436374,
-      "grad_norm": 0.6324372887611389,
-      "learning_rate": 0.00028347768154563625,
-      "loss": 0.6576,
       "step": 6500
     },
     {
-      "epoch": 2.3317788141239175,
-      "grad_norm": 1.377943992614746,
-      "learning_rate": 0.00026682211858760827,
-      "loss": 0.6499,
       "step": 7000
-    },
-    {
-      "epoch": 2.498334443704197,
-      "grad_norm": 0.9929794669151306,
-      "learning_rate": 0.0002501665556295803,
-      "loss": 0.6509,
-      "step": 7500
-    },
-    {
-      "epoch": 2.664890073284477,
-      "grad_norm": 1.331009030342102,
-      "learning_rate": 0.0002335109926715523,
-      "loss": 0.6492,
-      "step": 8000
-    },
-    {
-      "epoch": 2.831445702864757,
-      "grad_norm": 0.9260538816452026,
-      "learning_rate": 0.00021685542971352432,
-      "loss": 0.6765,
-      "step": 8500
-    },
-    {
-      "epoch": 2.9980013324450367,
-      "grad_norm": 1.6844342947006226,
-      "learning_rate": 0.00020019986675549634,
-      "loss": 0.6452,
-      "step": 9000
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.9022971391677856,
-      "eval_runtime": 37.548,
-      "eval_samples_per_second": 79.951,
-      "eval_steps_per_second": 10.014,
-      "step": 9006
-    },
-    {
-      "epoch": 3.1645569620253164,
-      "grad_norm": 0.6371086835861206,
-      "learning_rate": 0.00018354430379746836,
-      "loss": 0.4646,
-      "step": 9500
-    },
-    {
-      "epoch": 3.331112591605596,
-      "grad_norm": 1.005698323249817,
-      "learning_rate": 0.00016688874083944038,
-      "loss": 0.4706,
-      "step": 10000
-    },
-    {
-      "epoch": 3.497668221185876,
-      "grad_norm": 0.990774393081665,
-      "learning_rate": 0.0001502331778814124,
-      "loss": 0.434,
-      "step": 10500
-    },
-    {
-      "epoch": 3.664223850766156,
-      "grad_norm": 0.7444645762443542,
-      "learning_rate": 0.00013357761492338441,
-      "loss": 0.4682,
-      "step": 11000
-    },
-    {
-      "epoch": 3.8307794803464357,
-      "grad_norm": 1.1938289403915405,
-      "learning_rate": 0.00011692205196535643,
-      "loss": 0.4428,
-      "step": 11500
-    },
-    {
-      "epoch": 3.9973351099267154,
-      "grad_norm": 1.2232627868652344,
-      "learning_rate": 0.00010026648900732845,
-      "loss": 0.4446,
-      "step": 12000
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.9124976396560669,
-      "eval_runtime": 37.6584,
-      "eval_samples_per_second": 79.717,
-      "eval_steps_per_second": 9.985,
-      "step": 12008
-    },
-    {
-      "epoch": 4.1638907395069955,
-      "grad_norm": 1.035305380821228,
-      "learning_rate": 8.361092604930047e-05,
-      "loss": 0.3292,
-      "step": 12500
-    },
-    {
-      "epoch": 4.330446369087275,
-      "grad_norm": 1.409875512123108,
-      "learning_rate": 6.695536309127249e-05,
-      "loss": 0.321,
-      "step": 13000
-    },
-    {
-      "epoch": 4.497001998667555,
-      "grad_norm": 1.468259334564209,
-      "learning_rate": 5.0299800133244506e-05,
-      "loss": 0.3161,
-      "step": 13500
-    },
-    {
-      "epoch": 4.663557628247835,
-      "grad_norm": 1.00761878490448,
-      "learning_rate": 3.3644237175216524e-05,
-      "loss": 0.3214,
-      "step": 14000
-    },
-    {
-      "epoch": 4.830113257828114,
-      "grad_norm": 0.7190210223197937,
-      "learning_rate": 1.698867421718854e-05,
-      "loss": 0.3037,
-      "step": 14500
-    },
-    {
-      "epoch": 4.996668887408394,
-      "grad_norm": 0.6449595093727112,
-      "learning_rate": 3.3311125916055966e-07,
-      "loss": 0.3045,
-      "step": 15000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 15010,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 10000,
@@ -268,8 +156,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 6083104659545088.0,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 7430,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.3364737550471063,
+      "grad_norm": 0.923697829246521,
+      "learning_rate": 0.00046635262449528937,
+      "loss": 1.9724,
       "step": 500
     },
     {
+      "epoch": 0.6729475100942126,
+      "grad_norm": 0.9243040084838867,
+      "learning_rate": 0.0004327052489905787,
+      "loss": 1.4423,
       "step": 1000
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 1.0461400747299194,
+      "eval_runtime": 36.2574,
+      "eval_samples_per_second": 81.942,
+      "eval_steps_per_second": 10.26,
+      "step": 1486
+    },
+    {
+      "epoch": 1.009421265141319,
+      "grad_norm": 0.9555139541625977,
+      "learning_rate": 0.0003990578734858681,
+      "loss": 1.2854,
       "step": 1500
     },
     {
+      "epoch": 1.3458950201884252,
+      "grad_norm": 0.8507774472236633,
+      "learning_rate": 0.0003654104979811575,
+      "loss": 0.9929,
       "step": 2000
     },
     {
+      "epoch": 1.6823687752355316,
+      "grad_norm": 1.1206731796264648,
+      "learning_rate": 0.00033176312247644685,
+      "loss": 0.9408,
       "step": 2500
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.9026183485984802,
+      "eval_runtime": 36.3158,
+      "eval_samples_per_second": 81.81,
+      "eval_steps_per_second": 10.243,
+      "step": 2972
     },
     {
+      "epoch": 2.018842530282638,
+      "grad_norm": 0.7318525910377502,
+      "learning_rate": 0.0002981157469717362,
+      "loss": 0.8886,
+      "step": 3000
     },
     {
+      "epoch": 2.3553162853297445,
+      "grad_norm": 1.1639642715454102,
+      "learning_rate": 0.00026446837146702556,
+      "loss": 0.6969,
       "step": 3500
     },
     {
+      "epoch": 2.6917900403768504,
+      "grad_norm": 0.7347049117088318,
+      "learning_rate": 0.00023082099596231497,
+      "loss": 0.692,
       "step": 4000
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.8661695122718811,
+      "eval_runtime": 36.5469,
+      "eval_samples_per_second": 81.293,
+      "eval_steps_per_second": 10.179,
+      "step": 4458
+    },
+    {
+      "epoch": 3.028263795423957,
+      "grad_norm": 0.7746924757957458,
+      "learning_rate": 0.00019717362045760433,
+      "loss": 0.6564,
       "step": 4500
     },
     {
+      "epoch": 3.3647375504710633,
+      "grad_norm": 0.7316901087760925,
+      "learning_rate": 0.00016352624495289368,
+      "loss": 0.4934,
       "step": 5000
     },
     {
+      "epoch": 3.7012113055181697,
+      "grad_norm": 0.9040531516075134,
+      "learning_rate": 0.00012987886944818307,
+      "loss": 0.5261,
       "step": 5500
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.8571327924728394,
+      "eval_runtime": 36.3399,
+      "eval_samples_per_second": 81.756,
+      "eval_steps_per_second": 10.237,
+      "step": 5944
     },
     {
+      "epoch": 4.037685060565276,
+      "grad_norm": 0.9058707356452942,
+      "learning_rate": 9.623149394347241e-05,
+      "loss": 0.4785,
+      "step": 6000
     },
     {
+      "epoch": 4.3741588156123825,
+      "grad_norm": 0.7362410426139832,
+      "learning_rate": 6.258411843876178e-05,
+      "loss": 0.3714,
       "step": 6500
     },
     {
+      "epoch": 4.710632570659489,
+      "grad_norm": 0.6890231370925903,
+      "learning_rate": 2.8936742934051144e-05,
+      "loss": 0.3846,
       "step": 7000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7430,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 10000,
       "attributes": {}
     }
   },
+  "total_flos": 7016439606285312.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bc3740d66ce7f13a9bf52c0f372ab07710a244dec0c4cce502fad110e30edb3
-size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:830ccd11e7a4311136c7f354d64d3e6fe2cf261f2013d520ce30d43e50e1e5c4
+size 5112