Upload 13 files

Browse files

Files changed (7) hide show

config.json +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +81 -39
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "DDDSSS/translation_en-zh",
   "activation_dropout": 0.0,
   "activation_function": "swish",
   "add_bias_logits": false,

 {
+  "_name_or_path": "E:/Model/checkpoint-572",
   "activation_dropout": 0.0,
   "activation_function": "swish",
   "add_bias_logits": false,

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f25bf36a56ac69410a3763cc4eace80e0aa12b75a85c46f41dc6b3f104a6538e
 size 619500549

 version https://git-lfs.github.com/spec/v1
+oid sha256:e269e5bcca7af7e360163e76801ed38d0af985742049e0fa42e225d7b86db1dc
 size 619500549

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bbc0a089851cae6fbc14a78afae6fb0fa036c80699bf4fc9edd49b24c87843f
 size 310022533

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c87f1b34f17456bb9a3968decd7ac635005c664eda45edc4b50fddb3f3cd3ba
 size 310022533

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4369e459495ac86f5932270534e063e608774e09de46bc38426a0e61c4a3153b
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:a671bcc93ab8ea7fef76bafb809be586f39447cc2edabe5e7f5de7b2999a61c3
+size 14639

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71ce1e82580d06836277ac609a46ef220afb039c95e4479b9265ae1045ab90e0
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b5c00d109dd7a47976d4ff594486cfa209d826da02a3d7b7bd52c9f452bfddd
 size 627

trainer_state.json CHANGED Viewed

@@ -2,65 +2,107 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 4.0,
-  "global_step": 572,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_bleu": 7.7545,
-      "eval_gen_len": 14.8741,
-      "eval_jit_compilation_time": 11.4032,
-      "eval_loss": 2.9266164302825928,
-      "eval_runtime": 12.5758,
-      "eval_samples_per_second": 11.371,
-      "eval_steps_per_second": 2.863,
-      "step": 143
     },
     {
       "epoch": 2.0,
-      "eval_bleu": 10.4293,
-      "eval_gen_len": 14.0629,
-      "eval_jit_compilation_time": 12.1037,
-      "eval_loss": 2.850106716156006,
-      "eval_runtime": 11.8772,
-      "eval_samples_per_second": 12.04,
-      "eval_steps_per_second": 3.031,
-      "step": 286
     },
     {
       "epoch": 3.0,
-      "eval_bleu": 11.0503,
-      "eval_gen_len": 14.5664,
-      "eval_jit_compilation_time": 12.7826,
-      "eval_loss": 2.875509262084961,
-      "eval_runtime": 12.4472,
-      "eval_samples_per_second": 11.489,
-      "eval_steps_per_second": 2.892,
-      "step": 429
     },
     {
-      "epoch": 3.5,
-      "learning_rate": 2.5874125874125877e-05,
-      "loss": 2.0491,
-      "step": 500
     },
     {
       "epoch": 4.0,
-      "eval_bleu": 12.4752,
-      "eval_gen_len": 14.6014,
-      "eval_jit_compilation_time": 12.9294,
-      "eval_loss": 2.9099602699279785,
-      "eval_runtime": 12.6411,
-      "eval_samples_per_second": 11.312,
-      "eval_steps_per_second": 2.848,
-      "step": 572
     }
   ],
-  "max_steps": 572,
   "num_train_epochs": 4,
-  "total_flos": 11456058359808.0,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 4.0,
+  "global_step": 4172,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0001761744966442953,
+      "loss": 2.9499,
+      "step": 500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015220517737296263,
+      "loss": 2.4762,
+      "step": 1000
+    },
     {
       "epoch": 1.0,
+      "eval_bleu": 24.199,
+      "eval_gen_len": 25.8869,
+      "eval_jit_compilation_time": 37.6313,
+      "eval_loss": 2.099637746810913,
+      "eval_runtime": 305.9149,
+      "eval_samples_per_second": 3.409,
+      "eval_steps_per_second": 0.853,
+      "step": 1043
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00012823585810162994,
+      "loss": 1.5053,
+      "step": 1500
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010426653883029723,
+      "loss": 1.4464,
+      "step": 2000
     },
     {
       "epoch": 2.0,
+      "eval_bleu": 32.9405,
+      "eval_gen_len": 25.3404,
+      "eval_jit_compilation_time": 15.0422,
+      "eval_loss": 1.9842771291732788,
+      "eval_runtime": 203.0089,
+      "eval_samples_per_second": 5.138,
+      "eval_steps_per_second": 1.286,
+      "step": 2086
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 8.029721955896454e-05,
+      "loss": 0.8818,
+      "step": 2500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 5.632790028763183e-05,
+      "loss": 0.8012,
+      "step": 3000
     },
     {
       "epoch": 3.0,
+      "eval_bleu": 34.2544,
+      "eval_gen_len": 25.6347,
+      "eval_jit_compilation_time": 15.4553,
+      "eval_loss": 1.9202322959899902,
+      "eval_runtime": 211.4889,
+      "eval_samples_per_second": 4.932,
+      "eval_steps_per_second": 1.234,
+      "step": 3129
     },
     {
+      "epoch": 3.36,
+      "learning_rate": 3.235858101629914e-05,
+      "loss": 0.4984,
+      "step": 3500
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 8.389261744966444e-06,
+      "loss": 0.3757,
+      "step": 4000
     },
     {
       "epoch": 4.0,
+      "eval_bleu": 37.1127,
+      "eval_gen_len": 25.7699,
+      "eval_jit_compilation_time": 16.4019,
+      "eval_loss": 1.9090477228164673,
+      "eval_runtime": 195.2776,
+      "eval_samples_per_second": 5.341,
+      "eval_steps_per_second": 1.337,
+      "step": 4172
     }
   ],
+  "max_steps": 4172,
   "num_train_epochs": 4,
+  "total_flos": 276925806673920.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:093ba43f3bf932ee2c0a0909229582d9d4b5b60aa73b0d1fe5caf0a48ad77ddb
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:c80a47adcb5aa1accd81cc203b8008430788786a4190cd9d2c1716a1a717d2e4
 size 4027