Training in progress, step 4200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58c906a26353ae99b743ab79f39ef725d8d528e21eb6f076312c620de73b09fe
 size 661507488

 version https://git-lfs.github.com/spec/v1
+oid sha256:7366348163c99efbb02e5f01b2f61b07546f6102646b714e00ff1bd3f8d00e90
 size 661507488

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63e4a7a2aa1e35d79ced510269f15008ac4f78e885198ea4c0cde962b6dd3150
 size 1304683322

 version https://git-lfs.github.com/spec/v1
+oid sha256:26b9405225c8ee9d4e508062d1d41005bfdbaab56152c534bf3aaddb846161fd
 size 1304683322

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:121f8b5e30b0918b00c74bb785e42917fabdb7ffd4ed90261735119342cdd43a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2685d0dd924a34fc4ec9a9f3842eb7519a236c210aba111e993c2b054e96d853
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f4b5fa4a528e2de46c6bbf01aa3d6b42175f89e8d5cd03589a1cc600d94a92c
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:308c9a4f60ecce2fc7b3db5fed8a2c00f3ca1deb19bfe053249bef8b7cd57ffb
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.348792552947998,
-  "best_model_checkpoint": "./output/checkpoint-4050",
-  "epoch": 0.1084279288926965,
   "eval_steps": 150,
-  "global_step": 4050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3058,6 +3058,119 @@
       "eval_samples_per_second": 6.508,
       "eval_steps_per_second": 6.508,
       "step": 4050
     }
   ],
   "logging_steps": 10,
@@ -3077,7 +3190,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.180712254618778e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3470451831817627,
+  "best_model_checkpoint": "./output/checkpoint-4200",
+  "epoch": 0.11244377811094453,
   "eval_steps": 150,
+  "global_step": 4200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.508,
       "eval_steps_per_second": 6.508,
       "step": 4050
+    },
+    {
+      "epoch": 0.10869565217391304,
+      "grad_norm": 6.412740707397461,
+      "learning_rate": 3.875884122974123e-06,
+      "loss": 1.3756,
+      "step": 4060
+    },
+    {
+      "epoch": 0.10896337545512957,
+      "grad_norm": 6.571822643280029,
+      "learning_rate": 3.7963028584976805e-06,
+      "loss": 1.3773,
+      "step": 4070
+    },
+    {
+      "epoch": 0.10923109873634611,
+      "grad_norm": 6.47897481918335,
+      "learning_rate": 3.717469876711713e-06,
+      "loss": 1.3746,
+      "step": 4080
+    },
+    {
+      "epoch": 0.10949882201756264,
+      "grad_norm": 6.563449382781982,
+      "learning_rate": 3.6393884181313417e-06,
+      "loss": 1.382,
+      "step": 4090
+    },
+    {
+      "epoch": 0.10976654529877918,
+      "grad_norm": 6.455676078796387,
+      "learning_rate": 3.562061692379507e-06,
+      "loss": 1.3519,
+      "step": 4100
+    },
+    {
+      "epoch": 0.11003426857999572,
+      "grad_norm": 5.957856178283691,
+      "learning_rate": 3.4854928780550306e-06,
+      "loss": 1.3711,
+      "step": 4110
+    },
+    {
+      "epoch": 0.11030199186121226,
+      "grad_norm": 6.082734107971191,
+      "learning_rate": 3.409685122601979e-06,
+      "loss": 1.3038,
+      "step": 4120
+    },
+    {
+      "epoch": 0.11056971514242879,
+      "grad_norm": 5.809603691101074,
+      "learning_rate": 3.3346415421802494e-06,
+      "loss": 1.3587,
+      "step": 4130
+    },
+    {
+      "epoch": 0.11083743842364532,
+      "grad_norm": 6.081882476806641,
+      "learning_rate": 3.26036522153751e-06,
+      "loss": 1.3672,
+      "step": 4140
+    },
+    {
+      "epoch": 0.11110516170486186,
+      "grad_norm": 5.788993835449219,
+      "learning_rate": 3.186859213882386e-06,
+      "loss": 1.3615,
+      "step": 4150
+    },
+    {
+      "epoch": 0.11137288498607839,
+      "grad_norm": 5.722326755523682,
+      "learning_rate": 3.114126540758946e-06,
+      "loss": 1.2914,
+      "step": 4160
+    },
+    {
+      "epoch": 0.11164060826729492,
+      "grad_norm": 6.233955383300781,
+      "learning_rate": 3.042170191922509e-06,
+      "loss": 1.3286,
+      "step": 4170
+    },
+    {
+      "epoch": 0.11190833154851146,
+      "grad_norm": 6.276589393615723,
+      "learning_rate": 2.9709931252167426e-06,
+      "loss": 1.3943,
+      "step": 4180
+    },
+    {
+      "epoch": 0.11217605482972799,
+      "grad_norm": 6.818645000457764,
+      "learning_rate": 2.9005982664520734e-06,
+      "loss": 1.3535,
+      "step": 4190
+    },
+    {
+      "epoch": 0.11244377811094453,
+      "grad_norm": 6.53585147857666,
+      "learning_rate": 2.830988509285433e-06,
+      "loss": 1.3412,
+      "step": 4200
+    },
+    {
+      "epoch": 0.11244377811094453,
+      "eval_loss": 1.3470451831817627,
+      "eval_runtime": 76.7654,
+      "eval_samples_per_second": 6.513,
+      "eval_steps_per_second": 6.513,
+      "step": 4200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.521351998649088e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null