Training in progress, epoch 4, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +0 -0
last-checkpoint/scheduler.pt +0 -0
last-checkpoint/trainer_state.json +504 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c41d9243f7df55b50aa4775a15858d272a4ec8e8c563c0cd8ec6b9d0b3da9f8a
 size 37789864

 version https://git-lfs.github.com/spec/v1
+oid sha256:16aab112374e0637635192e631493e5cc9fe41a7e4e6e216c0bb99e95ae685a5
 size 37789864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29c84bda34e9c4f410c99669a1f937ad7a00bee4dfd64bcf19e7795e6886813d
 size 2622266

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddbb2f973e41d59a5b9f8697998020f6be69cf0c9c3ecccf1446dc42581a6fef
 size 2622266

last-checkpoint/rng_state.pth CHANGED Viewed

Binary files a/last-checkpoint/rng_state.pth and b/last-checkpoint/rng_state.pth differ

last-checkpoint/scheduler.pt CHANGED Viewed

Binary files a/last-checkpoint/scheduler.pt and b/last-checkpoint/scheduler.pt differ

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.0360162258148193,
-  "best_model_checkpoint": "dq158/coqui/checkpoint-121044",
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 121044,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1516,13 +1516,512 @@
       "eval_steps_per_second": 0.552,
       "eval_translation_length": 4591104,
       "step": 121044
     }
   ],
   "logging_steps": 500,
   "max_steps": 1210440,
   "num_train_epochs": 30,
   "save_steps": 1000,
-  "total_flos": 2.077405682985861e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 3.0066018104553223,
+  "best_model_checkpoint": "dq158/coqui/checkpoint-161392",
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 161392,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.552,
       "eval_translation_length": 4591104,
       "step": 121044
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 7.80420680811743e-05,
+      "loss": 3.0822,
+      "step": 121500
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 7.80259880896051e-05,
+      "loss": 3.0585,
+      "step": 122000
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 7.800984400770236e-05,
+      "loss": 3.1003,
+      "step": 122500
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 7.799363586267584e-05,
+      "loss": 2.9734,
+      "step": 123000
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 7.797736368184335e-05,
+      "loss": 3.1722,
+      "step": 123500
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 7.79610274926306e-05,
+      "loss": 3.1007,
+      "step": 124000
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 7.794462732257115e-05,
+      "loss": 3.0796,
+      "step": 124500
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 7.792816319930645e-05,
+      "loss": 3.0691,
+      "step": 125000
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 7.791163515058568e-05,
+      "loss": 3.1111,
+      "step": 125500
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 7.78950432042658e-05,
+      "loss": 3.0355,
+      "step": 126000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 7.787838738831148e-05,
+      "loss": 3.0751,
+      "step": 126500
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 7.786166773079499e-05,
+      "loss": 3.1197,
+      "step": 127000
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 7.784488425989624e-05,
+      "loss": 3.0997,
+      "step": 127500
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 7.782803700390268e-05,
+      "loss": 3.2085,
+      "step": 128000
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 7.781112599120928e-05,
+      "loss": 3.1391,
+      "step": 128500
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 7.779415125031842e-05,
+      "loss": 3.1137,
+      "step": 129000
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 7.777711280983994e-05,
+      "loss": 3.1373,
+      "step": 129500
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 7.776001069849104e-05,
+      "loss": 3.1228,
+      "step": 130000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 7.774284494509619e-05,
+      "loss": 3.0356,
+      "step": 130500
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 7.772561557858717e-05,
+      "loss": 3.074,
+      "step": 131000
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 7.770832262800298e-05,
+      "loss": 3.101,
+      "step": 131500
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 7.769096612248972e-05,
+      "loss": 3.0026,
+      "step": 132000
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 7.767354609130067e-05,
+      "loss": 2.9642,
+      "step": 132500
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 7.765606256379617e-05,
+      "loss": 3.1591,
+      "step": 133000
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 7.763851556944357e-05,
+      "loss": 3.1563,
+      "step": 133500
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 7.762090513781717e-05,
+      "loss": 3.0032,
+      "step": 134000
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 7.760323129859824e-05,
+      "loss": 3.0752,
+      "step": 134500
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 7.758549408157487e-05,
+      "loss": 3.1228,
+      "step": 135000
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 7.7567693516642e-05,
+      "loss": 3.1929,
+      "step": 135500
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 7.754982963380129e-05,
+      "loss": 3.0963,
+      "step": 136000
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 7.75319024631612e-05,
+      "loss": 3.1731,
+      "step": 136500
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 7.751391203493678e-05,
+      "loss": 3.1822,
+      "step": 137000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 7.749585837944974e-05,
+      "loss": 3.0849,
+      "step": 137500
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 7.747774152712836e-05,
+      "loss": 3.1609,
+      "step": 138000
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 7.745956150850738e-05,
+      "loss": 3.0784,
+      "step": 138500
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 7.744131835422808e-05,
+      "loss": 3.1391,
+      "step": 139000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 7.74230120950381e-05,
+      "loss": 3.1141,
+      "step": 139500
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 7.740464276179143e-05,
+      "loss": 3.092,
+      "step": 140000
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 7.738621038544842e-05,
+      "loss": 3.0634,
+      "step": 140500
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 7.736771499707562e-05,
+      "loss": 3.1131,
+      "step": 141000
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 7.734915662784582e-05,
+      "loss": 3.1014,
+      "step": 141500
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 7.733053530903793e-05,
+      "loss": 3.1118,
+      "step": 142000
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 7.7311851072037e-05,
+      "loss": 3.0762,
+      "step": 142500
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 7.729310394833408e-05,
+      "loss": 3.0613,
+      "step": 143000
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 7.727429396952622e-05,
+      "loss": 3.1007,
+      "step": 143500
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 7.725542116731643e-05,
+      "loss": 3.0766,
+      "step": 144000
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 7.72364855735136e-05,
+      "loss": 3.0842,
+      "step": 144500
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 7.721748722003242e-05,
+      "loss": 3.1643,
+      "step": 145000
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 7.719842613889342e-05,
+      "loss": 3.0702,
+      "step": 145500
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 7.717930236222277e-05,
+      "loss": 3.2394,
+      "step": 146000
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 7.716011592225239e-05,
+      "loss": 3.0847,
+      "step": 146500
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 7.714086685131975e-05,
+      "loss": 3.1536,
+      "step": 147000
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 7.712155518186792e-05,
+      "loss": 3.0908,
+      "step": 147500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 7.710218094644548e-05,
+      "loss": 3.0379,
+      "step": 148000
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 7.708274417770644e-05,
+      "loss": 3.0513,
+      "step": 148500
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 7.706324490841019e-05,
+      "loss": 3.1075,
+      "step": 149000
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 7.704368317142151e-05,
+      "loss": 3.1261,
+      "step": 149500
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 7.702405899971042e-05,
+      "loss": 3.164,
+      "step": 150000
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 7.700437242635218e-05,
+      "loss": 3.0038,
+      "step": 150500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 7.698462348452724e-05,
+      "loss": 3.1165,
+      "step": 151000
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 7.696481220752119e-05,
+      "loss": 3.048,
+      "step": 151500
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 7.694493862872459e-05,
+      "loss": 3.0922,
+      "step": 152000
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 7.69250027816331e-05,
+      "loss": 3.1324,
+      "step": 152500
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 7.69050046998473e-05,
+      "loss": 3.1076,
+      "step": 153000
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 7.688494441707267e-05,
+      "loss": 3.0944,
+      "step": 153500
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 7.686482196711948e-05,
+      "loss": 3.0502,
+      "step": 154000
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 7.684463738390284e-05,
+      "loss": 3.0757,
+      "step": 154500
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 7.682439070144252e-05,
+      "loss": 3.0951,
+      "step": 155000
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 7.680408195386303e-05,
+      "loss": 3.0857,
+      "step": 155500
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 7.678371117539342e-05,
+      "loss": 3.0341,
+      "step": 156000
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 7.676327840036733e-05,
+      "loss": 3.0872,
+      "step": 156500
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 7.674278366322286e-05,
+      "loss": 3.0744,
+      "step": 157000
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 7.672222699850256e-05,
+      "loss": 3.0927,
+      "step": 157500
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 7.670160844085336e-05,
+      "loss": 3.0717,
+      "step": 158000
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 7.668092802502651e-05,
+      "loss": 2.964,
+      "step": 158500
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 7.666018578587749e-05,
+      "loss": 2.9958,
+      "step": 159000
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 7.663938175836599e-05,
+      "loss": 3.1135,
+      "step": 159500
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 7.661851597755588e-05,
+      "loss": 3.0903,
+      "step": 160000
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 7.659758847861505e-05,
+      "loss": 3.1399,
+      "step": 160500
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 7.657659929681545e-05,
+      "loss": 3.0583,
+      "step": 161000
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 3.0066018104553223,
+      "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
+      ],
+      "eval_reference_length": 4591104,
+      "eval_runtime": 8243.7716,
+      "eval_samples_per_second": 1.088,
+      "eval_steps_per_second": 0.544,
+      "eval_translation_length": 4591104,
+      "step": 161392
     }
   ],
   "logging_steps": 500,
   "max_steps": 1210440,
   "num_train_epochs": 30,
   "save_steps": 1000,
+  "total_flos": 2.769874243981148e+18,
   "trial_name": null,
   "trial_params": null
 }